首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 296 毫秒
1.
在处理不平衡数据集时,为了降低类重叠对分类效果的影响,避免过采样造成的过拟合现象,以及欠采样造成的信息丢失问题,本文提出一种基于欠采样与属性选择的多决策树方法UAMDT(multi-decision tree based on under-sampling and attribute selection)。其首先利用Tomek link欠采样与集成欠采样两种技术相结合对数据进行处理,并获得多个平衡子集;然后在每个平衡子集上构建单决策树,采用结合信息增益和基尼指数的混合属性度量作为属性选择标准,选择最优属性作为每棵单决策树的根节点的分裂属性;最后将单决策树进行集成构建多决策树。通过对10个不平衡数据集的多个评估指标进行实验,验证了本文算法的有效性和可行性。  相似文献   

2.
针对红外抗干扰评估指标体系存在的冗余现象和缺乏合理性的特点,从红外导引头的固有属性、抗干扰性能指标以及导弹战技性能指标3个角度构建红外抗干扰综合评估指标,通过红外抗干扰实验仿真平台,设置相应干扰量,获取海量数据并对其进行预处理;再利用数据挖掘中的FP增长关联规则算法,对数据进行挖掘分析,得出干扰量与指标之间的关联规则;然后通过这些关联规则的强弱对指标进行简约,去除了冗余项仅保留了核心指标;最后采用BP神经网络对简约后的指标进行了有效性检验,结果验证方法下获取的抗干扰指标更为简洁、高效.  相似文献   

3.
提出了一种定量的基于决策树的轨道交通安全评估方法.该方法针对风险源的海量数据集和庞大的属性集,采用面向应用的属性构造、规范化与面向属性的归约进行数据集的预处理,为突破内存限制,采用改进的决策树分类方法DT_SA对轨道交通风险因素进行分析,最终提取的分类规则包含描述类分布的定量信息.同时规则前件中属性的顺序又体现了属性对主类的影响程度.这些规则揭示了轨道交通风险源的规律,应用验证了其有效性.  相似文献   

4.
分类是数据挖掘的一个重要研究方向,使用决策树进行分类是一种常用而且高效的分类方法。目前传统的算法有ID 3、C 4.5、CART等,这些算法都有如下的局限性:必须人工输入归类集合,划分属性,确定最优的分类集合。为了解决这些问题,本文做了如下工作:①提出信息增益排列GEP染色体头部的思想;②给出基于信息增益的GEP构造决策树属性约简算法(IG-GEPDTAR)并用实验进行验证;③实验表明该算法构造的决策树在具有100%准确性的同时,比使用GEP算法构造的决策树减少了冗余分支,其节点数比传统的ID 3算法和P ID算法构造的决策树的节点数分别减少了82.9%和31.2%。  相似文献   

5.
针对信息增益和信息增益率对属性取值数的偏好,提出了一种调和平均优化选择划分属性的决策树改进算法.首先计算候选划分属性的信息增益,找出信息增益高于平均水平的属性,然后分别计算这些属性的信息增益率和信息增益的调和平均值,从中筛选调和平均值最大的属性,建立分支决策,并用递归方法建立决策树.通过4份不同规模数据实验,利用信息增益、信息增益率、GINI指数以及该文提出的方法作为属性划分的标准,分别考察其准确性在训练集、测试集、10次10折交叉验证(或5次5折交叉验证),以及其平均值.实验结果表明:该方法准确性较好、运行时间较短,具有一定程度的优越性.  相似文献   

6.
针对方案属性值为区间直觉模糊数,且属性权重信息完全未知的多属性决策问题,提出了一种基于信息熵的区间直觉模糊熵和灰色关联分析的决策方法。为全面考虑各评价属性权重信息完全未知的情形,首先,利用改进的区间直觉模糊熵确定属性权重,在有效减少评估信息流失的同时,还能真实反映决策者的意愿;然后,依据灰色关联分析理论推演得到灰色关联度公式,结合属性权重计算各方案分别与正、负理想解的灰色关联度;最后,确定各方案的相对关联度,并依此对各方案进行排序。通过信息系统评估的代表性实例分析,验证了所提出方法的可行性和有效性。  相似文献   

7.
决策树简化是决策树学习算法中的一个重要分支。文章以 ID3算法构造的决策树为基础 ,提出了一种高效的简化决策树的算法。算法先序遍历由 ID3构造出来的决策树的各个节点并对其子树进行比较 ,如果各子树的属性都相同而且存在某些相应的分支对于各子树完全相同 ,则改变决策树中相应属性的层次关系并把相同的分支分别合并起来。算法减少了决策树的深度、宽度与叶子数目 ,降低了决策树的规模。尤其对于逻辑表达式的归纳学习 ,简化之后的决策树要明显优于原决策树。  相似文献   

8.
基于熵权灰色关联的食品冷链物流企业绩效评价   总被引:1,自引:0,他引:1  
提出了一个基于熵权和灰色关联分析的食品冷链物流企业绩效评价模型.由于影响因素众多且相互关联,并具有信息不完全的特征,食品冷链物流企业的绩效评价是一个灰色系统.模型采用熵权法对食品冷链物流企业各绩效评价指标进行赋权,克服了传统的灰色关联分析大多采用专家的主观评价来确定各指标权重的不确定性,从而大大提高了灰色关联分析法的客观性和评价精度.最后通过实例验证了该模型的有效性和适用性.  相似文献   

9.
传统的模糊决策树虽然可以从模糊数据中抽取模糊分类规则,但只能获取节点的隶属度信息,无法得出样本数据对于节点的非隶属度和犹豫度信息,导致数据分类的准确率不高。针对此,基于毕达哥拉斯模糊集理论,提出了一种新的加权毕达哥拉斯模糊决策树算法(Weighted Pythagorean Fuzzy Decision Tree,WPFDT)。首先,通过改进的K-means聚类算法得到连续属性数据的聚类中心,并结合三角模糊数对连续数据进行模糊处理;其次,定义并计算每一个属性的加权毕达哥拉斯模糊熵,选择加权毕达哥拉斯模糊熵最小的属性作为决策树根节点,在根节点下递归选择模糊熵最小的属性作为分裂节点,同时通过阈值控制树的规模,得到从根节点到叶子节点路径的模糊规则以及模糊规则的隶属度、非隶属度以及犹豫度,并完成预测分类,直至生成WPFDT模型;最后,选取UCI上的3个医学数据集(Haberman、Breast Cancer、Parkinson)进行实验,在分类准确率和得出模糊规则的数量与3种传统决策树算法(模糊ID3算法、C4.5算法、CART算法)比较,实验结果表明:WPFDT在分类精度和树大小上都优于其他传统决策树算法,并且有较高的召回率和精确率。  相似文献   

10.
针对生产调度规则提取工作对数据集属性约简的客观需求,提出了一种关键属性提取技术.首先,分析了生产数据的特点,并依据重要性和关联性,将生产数据的属性划分为多个集合;然后,在此基础上利用模糊熵与聚类准确度建立重要性目标函数,用于发现重要属性.最后,利用关联性分析查找重要属性的关联属性,将相关属性进行合并,形成重要复合属性,以进一步增强属性提取效果.为了验证该技术的有效性,将利用该技术所获取的数据子集与通过随机法所得到的数据子集进行了对比,分析比较了各数据子集的相容性和规则提取准确性.结果表明,提取属性后所形成的数据子集具有较低不相容度,浓缩了原始数据集的调度规则知识,可显著提升多种生产调度规则挖掘算法的准确度与效率.该技术非常适用于生产调度规则挖掘数据预处理阶段的关键属性提取工作.  相似文献   

11.
在决策树算法中,即使存在两个"最好"属性,也只是随机选择一个作为根或节点属性.因此,决策树算法产生的分类规则较少.此外,决策树算法采用全匹配测试实例,测试实例最多匹配一条分类规则甚至没有匹配,进而影响分类准确率.针对该问题,提出了基于双属性节点部分匹配的决策树改进算法(DAID3):首先,如果存在两个信息熵相等或相近的"最好"属性,DAID3算法选择两个属性构建节点,它们的属性值及组合作为分枝.因此,每个训练实例可能被多条分类规则覆盖.其次,判断新实例时,在分枝节点上可能匹配到多条路径,为了选择最好路径,为每个分枝节点设置了节点强度.最后,如果不存在一条从根节点到叶子节点的路径全匹配测试实例,则找出部分匹配该实例的路径,返回该路径的终节点强度最大的类标值.为了便于部分匹配时返回强度最大的类标值,为每一个分枝节点设置节点类标值.实验结果表明,与决策树算法相比,DAID3算法具有分类规则多且有更高的分类准确率.  相似文献   

12.
为提高物流中心规划和建设的有效性,针对物流中心建设序列问题的多阶段多指标决策实质,以熵权和理想解法为基础,结合Delphi法和灰色关联法提出了一个物流中心建设序列的多阶段多指标决策模型:首先利用Delphi法确定各阶段内建设项目的指标值,然后采用熵权法求出各阶段内指标权重;其次应用理想解法和灰色关联法对各阶段内建设项目进行综合评价,再通过集成各阶段的评价结果确定物流中心项目的建设序列.最后应用实际案例验证了该模型能有效地解决物流中心建设序列的多阶段多指标决策问题.  相似文献   

13.
为研究评估工程的防护能力,提出了工程防护效能应具备 6个指标,鉴于各指标的属性、重要程度和可比性都不同,使得防护效能的方案比选具有明显的灰性.通过对经典的灰色关联分析法的分析,得出其存在的局限性,进而对其从分辨系数、熵权法和投影法方面进行改进.对工程防护效能进行评估,并与经典的灰色关联分析法相比较,验证了该模型的可靠性和可行性.可以将此模型推广应用到实际工作中.  相似文献   

14.
蔡星 《科技咨询导报》2014,(12):40-40,45
该文对传统的C 4.5决策树数据挖掘算法进行了改进,提出了一种双重熵平均决策树算法。传统的C 4.5决策树算法易出现无意义分枝,过度拟合等问题,针对该类问题,基于双重熵平均决策树算法,通过两次对样本子集熵平均值的计算、排序、合并处理,得到修正后的属性信息增益,并以此作为属性选择的依据,从而解决了传统C 4.5决策树算法可解释性差、易产生碎片等问题。  相似文献   

15.
针对模糊属性事务数据库提取模糊关联规则的问题,采用模糊概念格与模糊关联规则相结合的方法,实现格节点与属性项集的对应关系,提出模糊关联规则格理论,在渐进式建格算法基础上对格节点相应修改,给出了适用于动态数据库的模糊关联规则格的构建思想.利用模糊关联规则格挖掘关联规则,与采用Apriori算法计算频繁项目集获取规则相比较,容易获得用户感兴趣的关联规则,同时减少冗余规则的生成,使挖掘算法得到优化.  相似文献   

16.
针对现有复杂网络节点重要性评价存在的问题:(1)单一指标评价的片面性;(2)多指标评价时各指标选取的主观性;(3)往往忽视指标间的关联信息,该文提出一种基于灰色关联分析的综合评价方法.在对多类常用评价指标的特性分析的基础上,采用极大不相关法实现指标筛选,利用改进熵权法确定各指标的权重,最终以灰色关联分析方法确定各节点的重要性.采用美国航空网数据集进行的实验结果表明,该方法具有较好的节点重要性区分能力,这项工作对于进一步完善节点重要性评价理论框架具有启发意义和实用价值.  相似文献   

17.
为获得网络赌博犯罪行为涉案电子证据的分布规律,针对网络赌博案例库所导出的训练样本集,提出容粗糙集属性约简思想的决策树分类预测算法,由属性约简进行决策树预剪枝,将属性重要性度量融入决策树分支属性结点的选择过程,案例拟合验证表明所建决策树分类模型具有较高的分类预测精度,所获预测规则可有效指导网络赌博案件的侦破。  相似文献   

18.
基于Rough集的决策树算法   总被引:1,自引:0,他引:1  
针对基于Rough集的经典分类算法值约简算法等不适合大数据集的问题,提出了基于Rough集的决策树算法。采用一个新的选择属性的测度——属性分类粗糙度作为选择属性的启发式,该测度较Rough中刻画属性相关性的测度正区域等更为全面地刻画了属性分类综合贡献能力,并且比信息增益和信息增益率的计算更为简单。采取了一种新的剪枝方法——预剪枝,即在选择属性计算前基于变精度正区域修正属性对数据的初始划分模式,以更有效地消除噪音数据对选择属性和生成叶节点的影响.采取了一种与决策树算法高度融合的简单有效的检测和处理不相容数据的方法,从而使算法对相容和不相容数据都能进行有效处理。对UCI机器学习数据库中几个数据集的挖掘结果表明,该算法生成的决策树较ID3算法小,与用信息增益率作为启发式的决策树算法生成的决策树规模相当。算法生成所有叶节点均满足给定最小置信度和支持度的决策树或分类规则,并易于利用数据库技术实现,适合大数据集。  相似文献   

19.
为解决汽车客户购买行为预测问题,以便有效估测市场走向,在客户关系管理(CRM:Customer Relationship Management)理论分析的基础上,采用16例汽车客户的购买信息作为样本数据并对其进行数据清理、转换、归纳,以SQL Server建立汽车市场营销分析的数据仓库,作为整个分析预测过程的输入,采用改进的ID3决策树模型和关联规则模型进行数据挖掘,得出汽车客户行为的预测知识.通过实验对比,验证了预测结果的有效性.  相似文献   

20.
针对复杂系统产生的时间序列,研究其局部关联特征比研究系统全局特征模型具有明显的优势.为研究时间序列内部或局部形态的关联特征,首先借助FCM来软化时间序列属性论域的划分边界,然后,采用改进的布尔型属性关联规则并行挖掘算法来发现频繁模糊属性集,最后由多个处理器并行地产生满足最小模糊信任度的模糊关联规则.提出了基于FCM聚类的时间序列模糊关联规则的并行挖掘算法,并通过实验验证了算法的有效性.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号