论文范文网-权威专业免费论文范文资源下载门户!
当前位置:毕业论文格式范文>论文范文>范文阅读
快捷分类: 领导决策信息杂志社 决策杂志社 驳论文树靶子 决策树算法参考文献 决策树分类论文 决策树参考文献 决策树论文 基于决策树分类毕业论文题目 决策树法应用论文

关于决策树论文范文 Logistic模型和决策树在定性数据分析中效果分析相关论文写作参考文献

分类:论文范文 原创主题:决策树论文 更新时间:2024-04-03

Logistic模型和决策树在定性数据分析中效果分析是关于本文可作为决策树方面的大学硕士与本科毕业论文决策树例题经典案例280论文开题报告范文和职称论文论文写作参考文献下载。

摘 要:在对因变量为定性变量的的回归分析中,传统的方法包括Logistic回归模型、Probit模型等广义线性模型,同时,在机器学习法中也产生了诸如决策树回归、支持向量机等方法,此类方法的优点在于可以处理任意类型的数据以及在短时间类处理大型数据源.本文的目的在于面对定性变量的回归分析中,比较传统模型(以Logistic模型为例)和机器学习法(以决策树为例)两者的优劣.

关键词:Logistic回归模型;机器学习法;决策树回归;R软件

一、Logistic模型

Logistic回归(logistic regression)是研究因变量为二分类观测结果和影响因素(自变量)之间关系的一种多变量分析方法,属概率型非线性回归.一般Logistic模型为:

其中p为事件发生的概率.

Logistic回归参数的估计通常采用最大似然法.最大似然法的基本思想是先建立似然函数和对数似然函数,再通过使对数似然函数最大求解相应的参数值,所得到的估计值为参数的最大似然估计值.最大似然估计具有的一致性、有效性和正态性都是一些很好的统计性质,样本数据越大时其估计值就越准确.

由于Logistic回归模型就是基于二项分布族的广义线性模型,因此在R软件中,Logistic回归分析可以通过调用广义线性回归模型函数glm()来实现.

二、决策树回归模型

机器学习中,决策树是一个预测模型;它代表的是对象属性和对象值之间的一种映射关系.树中每个节点表示某个对象,而每个分叉路径则代表的某个可能的属性值,而每个叶结点则对应从根节点到该叶节点所经历的路径所表示的对象的值.决策树仅有单一输出,若欲有复数输出,可以建立独立的决策树以处理不同输出. 数据挖掘中决策树是一种经常要用到的技术,可以用于分析数据,同样也可以用来作预测.

决策树分析主要有两种,一种为分类树分析,它是当预计结果可能为离散类型(例如三个种类的花,输赢等)使用的概念;另一种为回归树分析,它是是当预计结果可能为实数(例如房价,患者住院时间等)使用的概念.

三、两种模型效果比较的实证分析

下面采用爱尔兰教育水平数据来检测logistic模型和决策树模型在对含有名义变量的回归中的效果,本数据来自http://lib.stat.cmu.edu/datasets/irish.ed

(一)数据说明

该数据包括500个样本,六个变量,变量分别为:

变量1为性别,以V1表示;变量2为一项测试的得分,以V2表示;变量3为获得的教育水平,以V3表示;变量4表示是否获得 书,其中1表示否,2表示是,以V4表示;变量5表示被调查者的职业社会地位得分,以V5表示;变量6表示学校类型,以V6表示.

其 量2、变量5为定量变量,而变量1、变量3、变量4、变量6为定性变量,这里对变量4作回归分析,即建立是否获得 书的回归模型,显然,这里的变量4即V4为二元变量,回归模型适合用logistic模型以及决策树来建立.下面分别用R软件建立logistic模型和决策树模型.

(二)数据预处理

这里的预处理包括对数据缺失值的处理以及对某些变量的合并.

可以看到在V3及V5中出现了最小值0,显然V3和V5数据中出现了缺失值.对数据缺失采用R软件中的missForest进行处理.

对missForest处理后的数据作缺失值检测,显示缺失值为0,缺失值处理成功.

下面对处理后的新数据检测是否有做合并处理的必要,数据合并是对某些对因变量相关性很强的变量内部值作合并处理,这一点在作logistic回归中影响不大,但在作决策树回归时会由于变量相关性太强容易导致数据不能充分利用.下面尝试对V4作决策树:

显然,以V3作决策变量时,对V4的判定相当完美,可以说V3和V4是等同的,意味着在作决策树回归时产生了“过拟合”现象,即在样本内拟合相当完美,但在样本外拟合效果会很差.在尽量不删除变量的原则下,对V3中的11个水平数作一些合并,具体合并原则为:将未完成当前学制的(原类2、类3、类6、类7、类10)归为类2,完成当前学制的(原类4、类5、类8、类9、类11)归为类3,原类1任为类1,这样合并以后的V3只有3个水平.

(三)建立Logistic回归模型

R软件中通过glm函数直接建立logistic回归模型,另外这里采用逐步回归,回归结果如下

其中,V1在逐步回归中被淘汰,由于V4的水平数分别为1和2,在进行回归时,使之变为0-1变量,最后纳入回归模型的因变量为V4-1,得到的回归模型为

这里对的拟合结果给每一个观测值一个概率值,这里以0.5为分类界限,并检验错判概率.

一共有83个观测值被错分,误判率为0.166.

(四)决策树回归

同样的,R软件中可以用rpart函数直接给出决策树回归结果,运行结果及决策树如下

同时,也可以得到决策树效果图

下面检测决策分类法的错分概率

一共有74个观测值错分,错分概率为0.148.

四、结论

由以上分析可看出,在对含有定性变量的回归分析中,同时因变量为二元变量时,logistic回归模型仍然是一个好的选择,错判概率在一个很低的水平.而决策树作为分类模型是个更好的选择,错判率比logistic回归模型的效果更好,即上图所示logistic回归模型的错判率为0.166而决策树分类模型的错判率为0.148.

参考文献:

[1]王济川,郭志刚.Logistic回归模型——方法和应用[M].高等教育出版社,2001.

[2]汤银才.R语言和统计分析[M].高等教育出版社,2008.

[3]吕晓玲,谢邦昌.数据挖掘:方法和应用[M].中国人民大学出版社,2009.

[4]吴喜之,复杂数据统计方法——基于R的应用[M].中国人民大学出版社,2012.

总结:本论文可用于决策树论文范文参考下载,决策树相关论文写作参考研究。

参考文献:

1、 探究决策树法在工程项目中应用 摘 要:现代科学技术的迅猛发展和人文观念的逐步完善,都影响着人们对目标的选择和规划。在现代工程项目中招投标已经在全国全面的推行,并且以完善的制度。

2、 基于支持向量机和决策树CART的个人信用评估 摘要:为了更好地控制借款人的信用风险,利用支持向量机对个人信用进行预测与分析,在支持向量机对个人信用评估产生缺陷的基础上提出基于代价敏感学的CA。

3、 基于决策树分类济宁市土壤有机碳遥感反演 摘要:本研究利用Landsat 8遥感影像数据以及土壤有机碳实测数据,以研究区表层0~20 cm土壤的有机碳含量为研究对象,通过SPSS的多元线。

4、 基于决策树验证的属性约简方法 摘要:属性约简能够有效地减少冗余,同时,通过约简去除对预测结果贡献极小的属性能够有效地提高分类精度。提出了一种属性约简方法,该方法在分类前对现有。

5、 基于决策树的学生成绩对毕业影响分析 摘要:高校生源质量的下降使得学生顺利毕业问题成为关注的焦点,该文以温州商学院会计学专业学生的毕业情况为例,运用决策树分类技术对学生的成绩进行综合。

6、 基于Logistic模型大学生校园综合性服务平台意愿 [摘要]基于行为计划理论和对北京市、长春市、吉林市高校大学生的调查数据,利用Logistic模型对影响大学生使用校园综合性服务平台的因素进行实证。