论文范文网-权威专业免费论文范文资源下载门户!
当前位置:毕业论文格式范文>本科论文>范文阅读
快捷分类: 领导决策信息杂志社 决策杂志社 驳论文树靶子 决策树算法参考文献 决策树分类论文 决策树参考文献 决策树论文 基于决策树分类毕业论文题目 决策树法应用论文

关于决策树论文范文 基于决策树的钓鱼网页的识别方法相关论文写作参考文献

分类:本科论文 原创主题:决策树论文 更新时间:2024-01-19

基于决策树的钓鱼网页的识别方法是关于对不知道怎么写决策树论文范文课题研究的大学硕士、相关本科毕业论文决策树论文开题报告范文和文献综述及职称论文的作为参考文献资料下载。

摘 要:现如今许多不法分子利用钓鱼网站用户的,窃取用户的财产,对用户造成巨大损失.因此该文通过使用决策树学习算法,提取其中的关键词,分析并建立钓鱼网站特征模型,对未知网站进行判别.CART是一种决策树算法,但CART决策树的多数表决法会屏蔽小类数据类型的影响,因此该文根据这点对CART决策树进行改进,引入代价函数,不断地利用迭代和最小均方误差调整特征的权重增加惩罚.实验结果表明,改进后的决策树在对未知网站进行分析,成功地降低了负样本的错误率,提升了识别率.

关键词:决策树;URL识别;最小均方误差;代价函数

中图分类号:TP391 文献标识码:A 文章编号:1009-3044(2017)33-0079-02

Abstract: Now many criminals use phishing sites to steal the user"s personal information, steal the user"s property, causing huge losses to the user. Therefore, this paper uses the decision tree learning algorithm to extract the keywords, analyze and establish the phishing website feature model, and judge the unknown website. CART is a decision tree algorithm, but the majority voting method of CART decision tree will shield the influence of all class data type. Therefore, this paper improves the CART decision tree according to this point, introduces the cost function, and makes use of iteration and minimum mean square error Adjust the weight of the feature to increase the penalty. The experimental results show that the improved decision tree has succesully reduced the error rate of negative samples and improved the recognition rate in the analysis of unknown websites.

Key words: decision tree; URL identification; least-mean-square; cost function

1 背景

钓鱼网站通常是指伪装成合法网站,窃取用户提交的账号、等私密信息的网站.目前已出现10余种反钓鱼工具,本文选用决策树方法对钓鱼URL特征进行识别,国内外学者也提出了很多决策树的相关改进算法:

ID3算法是1986年由Quinlan提出的,是基于信息增益的选择[1] .J.Ma[2]等人分析可疑URL 的词汇和主机属性采用词袋模型表示特征, 获得了成千上万的特征,运用特征匹配加上ID3算法檢测钓鱼网站.但ID3算法也存在缺陷,因为包含较多属性值的特征所含的信息增益一般会越高,所以ID3优先会选择有较多属性值的特征,从而构建的决策树往往不是最优的,只可以用于处理离散数据,不能用于处理连续数据.

.5算法是Quinlan本人对ID3算法的改进[3],引入了信息增益比(GainRatio)作为选择的准则.来自John Hopkins大学的Sujata与Google的研究员用URL特征做钓鱼模式识别进行了尝试[4],运用改进后的.5算法,取得了很好的成果.但在决策树生成过程中,频繁的对训练的数据集排序和扫描,增加了算法的时间复杂度.

2 CART决策树

CART(Classification And Regression Tree)算法由L.Breiman,J.Friedman,R.Olshen和C.Stone于1984年提出[5],即分类回归算法,简称CART算法,分类问题中含有K个类别,样本点属于第k类的概率为pk对于给定的样本集D

[Gini(D)等于k等于1γk′≠kpkpk′等于1-k等于1γp2k] (1)

CART决策树具体算法为:在所有可能的特征A以及所有可能的切分点a中,选择基尼指数最小的特征及对应的切分点作为最优特征与最优切分点,依照最优切分点和最优特征点,从现结点生成两个子节点,将训练数据集特征分配到两个子结点;算法终止条件为结点样本个数小于给定阈值,或者样本集基尼指数小于阈值,亦或没有更多特征.

3 实验方法

1) 算法改进

Cart决策树作为分类与回归树,应用作为钓鱼网站的识别,输出非数值标签.然而,在实际应用中,将一个钓鱼网站误报为正规网站的危害远远大于将正常网站检测为钓鱼网站[6].应此,我们引入一个代价函数,牺牲正样本的极少识别率,用于降低负样本的错误率.

基于Cart决策树的基本方法,对样本进行随机分类,并对样本进行基本学习,计算当前漏报率(将钓鱼网站误判为正常网站的比例)和误报率(将正常网页误判的钓鱼网站的比例)的比例设为误差输出值d(n),进行归一化,训练开始漏报率和误报率没有权值调整,初始为1:1的比例,定义估计误差

总结:这篇决策树论文范文为免费优秀学术论文范文,可用于相关写作参考。

参考文献:

1、 决策树技术在物流金融信用风险中应用 摘 要:物流金融是一种新型的融资模式,不仅可以增加物流企业的利润来源,解决中小企业融资难问题,还可以提升银行的市场竞争力。但是,这种新兴的业务在。

2、 探究决策树法在工程项目中应用 摘 要:现代科学技术的迅猛发展和人文观念的逐步完善,都影响着人们对目标的选择和规划。在现代工程项目中招投标已经在全国全面的推行,并且以完善的制度。

3、 基于支持向量机和决策树CART的个人信用评估 摘要:为了更好地控制借款人的信用风险,利用支持向量机对个人信用进行预测与分析,在支持向量机对个人信用评估产生缺陷的基础上提出基于代价敏感学的CA。

4、 基于决策树分类济宁市土壤有机碳遥感反演 摘要:本研究利用Landsat 8遥感影像数据以及土壤有机碳实测数据,以研究区表层0~20 cm土壤的有机碳含量为研究对象,通过SPSS的多元线。

5、 基于决策树验证的属性约简方法 摘要:属性约简能够有效地减少冗余,同时,通过约简去除对预测结果贡献极小的属性能够有效地提高分类精度。提出了一种属性约简方法,该方法在分类前对现有。

6、 基于决策树的学生成绩对毕业影响分析 摘要:高校生源质量的下降使得学生顺利毕业问题成为关注的焦点,该文以温州商学院会计学专业学生的毕业情况为例,运用决策树分类技术对学生的成绩进行综合。