首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到17条相似文献,搜索用时 48 毫秒
1.
一种基于信息增益的分类规则挖掘算法   总被引:2,自引:0,他引:2  
提出了一种基于信息增益的分类规则挖掘算法.该算法主要包括决策树的构造、分类规则的提取、规则兴趣度度量3步.结合一个具体的例子,解释了使用该算法来挖掘分类规则的基本过程.  相似文献   

2.
分类是数据挖掘的一个重要研究方向,使用决策树进行分类是一种常用而且高效的分类方法。目前传统的算法有ID 3、C 4.5、CART等,这些算法都有如下的局限性:必须人工输入归类集合,划分属性,确定最优的分类集合。为了解决这些问题,本文做了如下工作:①提出信息增益排列GEP染色体头部的思想;②给出基于信息增益的GEP构造决策树属性约简算法(IG-GEPDTAR)并用实验进行验证;③实验表明该算法构造的决策树在具有100%准确性的同时,比使用GEP算法构造的决策树减少了冗余分支,其节点数比传统的ID 3算法和P ID算法构造的决策树的节点数分别减少了82.9%和31.2%。  相似文献   

3.
李刚  段隆振  孙焱平 《江西科学》2009,27(2):251-254
提出了一种基于多连续属性的离散化改进算法,在信息增益的离散化算法基础上,将离散化结果加以修正,并结合实例,详细说明该改进算法能更准确的判断出噪声数据、异常数据和错误数据,实现对这些数据的区别对待。  相似文献   

4.
朴素贝叶斯分类器是一种简单、高效的分类算法,它以贝叶斯定理和最大后验假设为理论基础,然而朴素贝叶斯分类器属性之间相互独立的假设,影响了朴素贝叶斯分类器的性能.提出先使用基于相关的属性选择算法进行属性选择,然后在选择的属性集上,用朴素贝叶斯分类器对数据集进行分类.实验证明,与未使用属性选择的实验结果相比,使用基于相关的属性选择算法进行属性选择后,朴素贝叶斯分类器平均分类正确率提高,分类效率显著提升.  相似文献   

5.
在现有的对于属性选择所做工作的基础上,提出了一种基于信息增益和遗传算法的属性选择方法。通过实验结果与其他的属性选择方法的比较,发现这种基于最基于信息增益和遗传算法的属性选择方法能够从一定程度上提高属性选择算法的效率。  相似文献   

6.
ID3分类算法无法处理连续性数据并且在选择分裂属性时明显倾向于取值多的属性,无法产生准确的规则。基于信息熵的连续数据离散化预处理技术有效地拓展了ID3算法的应用领域,并提出了基于信息增益率的分裂属性选择方法,样例数据测试结果分析表明:该分类算法改正了在选择分裂属性时明显倾向于取值多的属性的缺陷,提高了分类的精度。  相似文献   

7.
ID3分类算法无法处理连续性数据并且在选择分裂属性时明显倾向于取值多的属性,无法产生准确的规则.基于信息熵的连续数据离散化预处理技术有效地拓展了ID3算法的应用领域,并提出了基于信息增益率的分裂属性选择方法 ,样例数据测试结果 分析表明:该分类算法改正了在选择分裂属性时明显倾向于取值多的属性的缺陷,提高了分类的精度.  相似文献   

8.
Fayyad连续值属性决策树学习算法使用信息熵的下降速度作为选取扩展属性标准的启发式,本文针对其易选取重复的条件属性等不足之处,引入属性间的交互信息,提出了一种改进算法--基于交互信息的连续值属性决策树学习算法,它的核心是使用信息熵和交互信息的下降速度作为选取扩展属性标准的启发式.实验结果表明,与Fayyad决策树学习算法相比,该算法降低了决策树中同一扩展属性的重复选取率,实现了信息熵的真正减少,提高了训练精度和测试精度,能构造出更优的决策树.  相似文献   

9.
一种改进的区间值属性决策树学习算法   总被引:1,自引:0,他引:1  
通过引进新的非平稳割点定义,提出了改进的区间值属性决策树学习算法,改进后学习算法的效率有很大程度的提高。  相似文献   

10.
讨论了数据挖掘中有关属性分析的基本思想,运用信息增益分析方法定量分析了五年制高职与三年制高职学生不同属性分类时的信息增益,为两种教育方式的比较提供依据。  相似文献   

11.
电力短期负荷预测是电力系统调度的重要基础工作,但影响因素众多,且ID3算法偏向多值属性,完全由ID3算法自动形成决策树时容易发生误判。为了克服ID3算法在短期负荷预测时的不足,可根据实际情况,人工指定对负荷影响规律比较明确、影响程度大的因素在决策树中的位置,这样自动和人工相结合,能有效克服自动生成决策树的不足;将信息熵赋值给属性,对各影响因素进行相似度计算,利用综合相似度对历史日进行排序,有效识别主导负荷变化的影响因素,建立了基于ID3算法的短期负荷预测新算法。理论和实例均表明,该算法对提高短期负荷预测的精度具有较大价值。  相似文献   

12.
ID3算法沿用的是机器学习算法,与数据库集成性差。提出一种基于SQL语句的ID3改进算法。通过SQL语句直接对保存在数据库中的数据表进行分组查询,计算测试属性的条件熵,并给出深度优先和广度优先生成子树的递归算法。实验证明,改进的ID3算法充分利用了SQL的高效性和C++语言的灵活性,降低了算法实现难度,高效实现大量数据的分类。  相似文献   

13.
随着Internet宽带网络应用的高速发展,其承载的业务越来越复杂,尤其是P2P应用占用了大量带宽,网络带宽扩充总是难以满足用户带宽需求不断上升的要求,如何远程监测网络流量并合理优化带宽分布成网络优化的关键技术。传统网管系统难以满足远程网络流量特征实时分析的需求,基于网络流量特征信息熵理论,建立了一种新的基于信息增益的远程网络流量特征采集系统。实验结果表明,该方法可以有效提高流量特征采集效率,实现远程流量特征的实时分析。  相似文献   

14.
针对传统信息增益(IG)特征选择算法忽略词频分布的缺陷,该文提出一种新的IG特征选择算法.该算法通过引入均衡比和类内词频位置参数,解决了传统IG算法忽略词频分布对分类的弱化问题,修正传统类内词频位置参数,提高特征选择算法的文本分类精度,并将该改进IG特征选择算法用于最大熵模型(ME)对文本进行分类.实验结果表明:该文所提方法在进行文本分类时F1值高于传统IG算法.该文方法的ME分类精度高于K最近邻KNN(K-Nearest Neighbor)算法,说明本文方法是可行的、有效的.  相似文献   

15.
将互信息引进模糊决策树,用于确定决策树的候选分类属性,进而构建模糊决策树.通过增量学习来修正决策树分类模型,以修正分类效果,并用实验验证了该方法的有效性.  相似文献   

16.
研究了一个属性的某几个属性值并的权熵之和与该属性单个属性值的权熵之和的关系.通过构建模型,从理论上证明了以信息熵作为度量标准,ID3算法是最优的,生成的树是最小的,产生的规则数是最少的.  相似文献   

17.
针对局部线性嵌入算法使用欧氏距离计算非对齐样本相似性时, 受数据位置差影响较大, 导致度量精度较低, 影响算法特征提取精度的问题, 提出一种基于信息熵度量的局部线性嵌入算法. 首先利用信息熵统计样本特征间的混乱程度, 提高划分局部邻域的准确性; 然后建立局部重构模型, 挖掘出流形的本质结构; 最后利用局部结构构建低维重构模型, 以获得样本的显著特征. 通过在轴承数据集上的实验证明了该算法在特征提取方面的有效性.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号