首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 101 毫秒
1.
为解决属性约简的诸多问题,比如基于信息熵的属性约简方法偏向多值属性的缺点,而基于属性相似度的属性约简方法偏向少值属性的不足,现提出一种将信息熵和属性相似度结合起来的新的启发式属性约简方法.实验结果表明,避免了上述两种属性约简算法的偏向性.  相似文献   

2.
蔡贺  张睿 《甘肃科技》2011,(14):31-33,8
从分析ID3决策树算法及解析入手,引入属性样本结构相似度概念,构建了样本结构相似度模型,并以该模型和属性的信息增益共同作为决策树内部结点的选择标准。改进SS_ID3决策树算法,着眼于决策树非叶结点的选择标准的优化,继承了原始ID3决策树算法的优点,并在多值偏向性的修正、决策树的大小控制及分类预测性能等方面取得了积极的改进。  相似文献   

3.
一种基于属性贡献度的决策树学习算法   总被引:3,自引:1,他引:2  
文章提出一种基于属性贡献度的决策树算法ICD,该算法利用信息熵理论构建基于样本类别信息分布确定的属性贡献度函数模型,从属性选优上消除了多值属性选择的偏向,将ICD算法与ID3、C4.5算法进行实验对比,数据结果表明该算法具有良好的性能.  相似文献   

4.
Fayyad连续值属性决策树学习算法使用信息熵的下降速度作为选取扩展属性标准的启发式,本文针对其易选取重复的条件属性等不足之处,引入属性间的交互信息,提出了一种改进算法--基于交互信息的连续值属性决策树学习算法,它的核心是使用信息熵和交互信息的下降速度作为选取扩展属性标准的启发式.实验结果表明,与Fayyad决策树学习算法相比,该算法降低了决策树中同一扩展属性的重复选取率,实现了信息熵的真正减少,提高了训练精度和测试精度,能构造出更优的决策树.  相似文献   

5.
传统的ID3决策树算法存在诸多不足,如计算效率低、多值偏向等,对此,提出了属性值空缺、多值属性的选择以及属性选择标准方面的改进方案,并将加权熵和简化熵引入决策树算法以改进传统ID3算法.实验结果表明,改进后的算法在整体性能方面较目前广泛应用的ID3算法有更优秀的性能表现.  相似文献   

6.
为寻找最优决策树,对决策树生成方法进行了研究,提出了属性相似度的计算方法,引入了属性相似度,对测试属性进行约简.在此基础上,提出了以属性相似度为启发规则的决策树生成算法.该方法预测精度高,计算简便.  相似文献   

7.
偏向于取值较多的属性是ID3算法的一个缺陷,目前已提出的决策树的优化算法对ID3算法的改进,部分解决了该缺陷,但仅适用于两值属性的样例集,对于多值属性效果并不明显.针对该优化算法的不足,通过将属性和属性值对应成一个属性,提出了属性-值对的信息增益优化算法GBT.通过理论和实验分析,表明该算法不仅克服了ID3算法偏向于取值多属性的缺陷,同时解决了优化算法对多值属性效果不明显的不足.  相似文献   

8.
首先介绍了决策树算法的基本理论和建模过程及传统的决策属性的选取标准。然后介绍了传统的ID3决策树算法,并对常用决策树算法的优缺点进行了总结。以经典的决策树ID3模型为基础,对已有决策属性挑选策略进行了分析和总结,对决策属性挑选策略进行了改进,提出了基于"相关信息增益度"的决策属性挑选策略。该方法基于信息增益的计算标准,并通过引入属性间相关性关系对传统ID3算法"多值偏向性"的缺陷进行补偿。最后,将该方法应用于UCI数据中心的标准数据集合中,从分类精确度方面对改进的ID3算法和传统ID3算法进行比较和分析。通过实验分析,改进的E-ID3算法在分类精确度方面有更优秀的性能表现。  相似文献   

9.
介绍脱机手写体汉字识别的基本流程,以传统决策树ID3模型为基础,对决策属性挑选策略进行改进.该方法基于信息增益的计算标准,通过引入属性间相关性关系对传统ID3算法“多值偏向性”的缺陷进行补偿,提出节点协调度的预剪枝策略.从分类精确度方面对改进的ID3算法和传统D3算法进行比较和分析.将改进的ID3算法应用于手写体汉字识...  相似文献   

10.
基于相似依赖度的属性加权决策树算法   总被引:2,自引:1,他引:1  
粗糙集分析方法利用数据本身提供的信息,不需要任何先验知识即可对已有的知识进行处理,在保留关键信息的前提下,对数据进行简化并求得属性组合。在此基础上提出了一种基于相似依赖度的属性选择算法,从约简出的属性组合中选择与决策属性最为相似的核集,根据属性的相似依赖度作为决策树的加权值,从而建立决策树。通过对影响学生成绩因素的数据进行分析表明,所提出的算法是易于实施的,而且形成的决策树的准确率也有了一定的提高。  相似文献   

11.
基于Rough集的决策树算法   总被引:1,自引:0,他引:1  
针对基于Rough集的经典分类算法值约简算法等不适合大数据集的问题,提出了基于Rough集的决策树算法。采用一个新的选择属性的测度——属性分类粗糙度作为选择属性的启发式,该测度较Rough中刻画属性相关性的测度正区域等更为全面地刻画了属性分类综合贡献能力,并且比信息增益和信息增益率的计算更为简单。采取了一种新的剪枝方法——预剪枝,即在选择属性计算前基于变精度正区域修正属性对数据的初始划分模式,以更有效地消除噪音数据对选择属性和生成叶节点的影响.采取了一种与决策树算法高度融合的简单有效的检测和处理不相容数据的方法,从而使算法对相容和不相容数据都能进行有效处理。对UCI机器学习数据库中几个数据集的挖掘结果表明,该算法生成的决策树较ID3算法小,与用信息增益率作为启发式的决策树算法生成的决策树规模相当。算法生成所有叶节点均满足给定最小置信度和支持度的决策树或分类规则,并易于利用数据库技术实现,适合大数据集。  相似文献   

12.
不确定性多属性决策中确定属性熵权的一种方法   总被引:9,自引:0,他引:9  
针对属性值以区间数形式给出的不确定性多属性决策中确定属性权重的问题,提出了一种区间数熵权的确定方法·依据多属性决策中传统熵权确定方法的思路,首先,通过构建两个最优化模型,求得区间熵;然后根据传统熵权确定公式及区间数运算法则得到以区间数形式表示的属性熵权·该方法具有概念清晰、实用的特点,得出的属性熵权能够较好地反映各属性信息的差异程度·最后通过一个算例说明了该方法的实用性和有效性·  相似文献   

13.
传统的模糊决策树虽然可以从模糊数据中抽取模糊分类规则,但只能获取节点的隶属度信息,无法得出样本数据对于节点的非隶属度和犹豫度信息,导致数据分类的准确率不高。针对此,基于毕达哥拉斯模糊集理论,提出了一种新的加权毕达哥拉斯模糊决策树算法(Weighted Pythagorean Fuzzy Decision Tree,WPFDT)。首先,通过改进的K-means聚类算法得到连续属性数据的聚类中心,并结合三角模糊数对连续数据进行模糊处理;其次,定义并计算每一个属性的加权毕达哥拉斯模糊熵,选择加权毕达哥拉斯模糊熵最小的属性作为决策树根节点,在根节点下递归选择模糊熵最小的属性作为分裂节点,同时通过阈值控制树的规模,得到从根节点到叶子节点路径的模糊规则以及模糊规则的隶属度、非隶属度以及犹豫度,并完成预测分类,直至生成WPFDT模型;最后,选取UCI上的3个医学数据集(Haberman、Breast Cancer、Parkinson)进行实验,在分类准确率和得出模糊规则的数量与3种传统决策树算法(模糊ID3算法、C4.5算法、CART算法)比较,实验结果表明:WPFDT在分类精度和树大小上都优于其他传统决策树算法,并且有较高的召回率和精确率。  相似文献   

14.
离群点检测是数据挖掘的一个重要研究方向,大多数离群数据挖掘算法在应用到高维数据集时效率较低。给出了一种基于属性熵和加权余弦相似度的离群数据挖掘算法LEAWCD.该算法首先根据局部属性熵分析每个对象在其k-邻域内的局部离群属性,并依据各离群属性的属性偏离度自动设置属性权向量;其次使用对高维数据有效的余弦相似度经加权后度量各对象在k-邻域内的离群程度,实现高维局部离群点检测;最后采用国家天文台提供的天体光谱数据作为数据集,实验验证了LEAWCD算法具有伸缩性强和检测精度高等优点。  相似文献   

15.
研究了一个属性的某几个属性值并的权熵之和与该属性单个属性值的权熵之和的关系.通过构建模型,从理论上证明了以信息熵作为度量标准,ID3算法是最优的,生成的树是最小的,产生的规则数是最少的.  相似文献   

16.
基于信息熵的信息系统及决策表的属性约简   总被引:1,自引:0,他引:1  
利用新的信息熵,给出信息系统信息熵的约简方法及决策表的相对信息熵约简判定定理,证明分布协调集一定是相对信息熵的协调集.  相似文献   

17.
基于属性值并的权熵思想,通过构建模型,给出了一个属性的某几个属性值并的权熵之和不小于该属性单个属性值的权熵之和的结论,从理论上证明了ID3算法的合理性,为ID3算法提供了理论基础.  相似文献   

18.
针对决策表,首先从理论上证明了相对知识量与新条件信息熵的等价性,从而保证可以从相对知识量的角度计算Hu差别矩阵属性约简.为快速计算出决策表属性的相对知识量,给出一种相对知识量的递归计算公式,从而得到新条件信息熵的递归计算公式.以此为基础给出一种属性重要性定义并设计出一种计算Hu差别矩阵属性约简的启发式算法.算例和实验结果验证该算法是高效的.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号