首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 31 毫秒
1.
郭辉  王阳 《科技信息》2008,(30):26-27
针对数据挖掘中的分类问题,根据多分类器融合的思想,提出一种基于粒子群优化算法的多重决策树分类器融合方法。先将概率度量水平的多重决策树进行线性组合,然后在融合算法中采用粒子群算法优化连接权值矩阵。并在UCI标准数据集上对模型进行了实验研究。结果表明该融合分类方法比单个决策树分类方法具有更高的分类精度。  相似文献   

2.
应用分类贡献函数的决策树构造方法   总被引:1,自引:0,他引:1  
在构造决策树的过程中,分类属性选择的标准直接影响分类的效果。本文基于粗糙集的理论,提出了在核中应用分类贡献函数来选择分类属性的新方法。利用UCI提供的数据集对该算法和基于信息熵的算法C4.5,以及基于加权平均粗糙度的决策树生成算法相比较。实验证明:用该方法构造的决策树与传统的基于信息熵方法构造的决策树相比较,复杂性低,且能有效提高分类效果。  相似文献   

3.
针对绝大部分多变量决策树只能联合数值型属性,而不能直接为带有分类型属性数据集进行分类的问题,提出一种可联合多种类型属性的多变量决策树算法(CMDT).该算法通过统计各个分类型属性的属性值在各个类别或各个簇中的频率分布,来定义样本集合在分类型属性上的中心,以及样本到中心的距离.然后,使用加权k-means算法划分决策树中的非终端结点.使用这种结点划分方法构建的决策树可用于数值型数据、分类型数据以及混合型数据.实验结果表明,该算法建立的分类模型在各种类型的数据集上均获得比经典决策树算法更好的泛化正确率和更简洁的树结构.  相似文献   

4.
基于Rough集的决策树算法   总被引:1,自引:0,他引:1  
针对基于Rough集的经典分类算法值约简算法等不适合大数据集的问题,提出了基于Rough集的决策树算法。采用一个新的选择属性的测度——属性分类粗糙度作为选择属性的启发式,该测度较Rough中刻画属性相关性的测度正区域等更为全面地刻画了属性分类综合贡献能力,并且比信息增益和信息增益率的计算更为简单。采取了一种新的剪枝方法——预剪枝,即在选择属性计算前基于变精度正区域修正属性对数据的初始划分模式,以更有效地消除噪音数据对选择属性和生成叶节点的影响.采取了一种与决策树算法高度融合的简单有效的检测和处理不相容数据的方法,从而使算法对相容和不相容数据都能进行有效处理。对UCI机器学习数据库中几个数据集的挖掘结果表明,该算法生成的决策树较ID3算法小,与用信息增益率作为启发式的决策树算法生成的决策树规模相当。算法生成所有叶节点均满足给定最小置信度和支持度的决策树或分类规则,并易于利用数据库技术实现,适合大数据集。  相似文献   

5.
针对传统决策树在非平衡数据集分类时少数类预测性能出现偏差的问题,提出一种基于强化学习累积回报的属性优化策略即改进型同分布多决策树方法。首先通过同分布随机抽样法对非平衡数据集中的多数类样本进行随机采样,进而对各子集建立单决策树形成多个决策树,各决策树采用分类回归树算法建树,并利用强化学习累积回报机制进行属性选择策略的优化。研究结果表明:提出的基于强化学习累积回报机制的属性优化策略可有效提高少数类被正确分类的概率;同分布多决策树方法可有效提高非平衡数据集整体预测性能,且正类率和负类率的几何平均值都有所提高。  相似文献   

6.
随着医疗水平的不断提高,借助机器学习方法对大量的医疗诊断数据进行分析成为近年来热点研究方向之一.在介绍C4.5决策树算法的相关理论及建树流程基础上,以竞赛项目中的乳腺癌数据集为基础,对数据集进行预处理,建立决策树分类模型,以可视化形式展示分类结果.实验结果表明,该分类模型可达到较高的准确率,证明决策树算法有助于医疗数据分析应用.  相似文献   

7.
根据数据属性间存在的线性相关和非线性相关影响决策树性能的特点,提出了一种用拟合回归建立决策树的算法,并利用这种相关性来提高分类能力.该算法选择了一个较优的属性子集,对此子集中的属性进行加权组合,用于构造决策树的节点,采用二次多项式来拟合两个属性间可能存在的相关性,从而构造出分类能力更强的决策树.研究中用UCI标准数据集对各种算法进行测试及比较,实验结果及分析表明此决策树算法具有良好性能.  相似文献   

8.
利用sq l server analysis service建立轿车市场营销分析的数据仓库模型,在此基础之上,利用决策树分类技术,对汽车贸易企业的轿车销售历史数据进行分析,得出客户数据的分类规则,分析出潜在客户共同的特点;针对这些特点,采取相应营销决策,提高营销的针对性和成功率。  相似文献   

9.
针对传统流量分类方法(基于端口和有效载荷)分类不可靠的问题,提出基于C4.5决策树算法,根据训练集中属性的信息增益比率构建分类模型,按属性对测试数据集进行预测,通过查找分类模型实现对网络流量的分类。在公开数据集和自己采集的数据集上进行实验,结果表明,采用C4.5决策树算法对网络流量分类,平均分类精度为93%,单类别分类精度均在90%以上,能有效地实现对网络流量应用类型的识别。  相似文献   

10.
入侵检测系统是保证网络信息安全的有力手段,文中提出一种结合决策树和神经网络的入侵检测系统框架。决策树分类方法把数据集划分为正常数据和入侵数据,并作为训练集分别用神经网络进行训练,改善了系统的检测精度并提高了对未知数据的检测能力。离线训练后的系统可以实现网络数据的实时检测,通过实验证明了此系统很好的检测效果和自适应能力。  相似文献   

11.
基于大数据平台和微服务架构,建立电力客户精准画像技术架构,形成大数据驱动下客户画像系统底层标签数据集合,结合模糊C均值聚类算法、决策树及XGBoost算法建立的电力客户标签,生成电力客户精准画像,构建电力客户精准画像体系.实验结果表明,所提方法能够精准挖掘电力客户数据,聚类多种客户标签,有效降低标签分类汉明损失,减小电力客户标签分类误差,确保生成有效电力客户画像.  相似文献   

12.
提出了一种从肿瘤的基因表达数据挖掘肿瘤分类规则的方法. 首先用Bhattacharyya距离指标和相关性分析去除分类无关基因和冗余,然后以决策树作为分类器,用遗传算法搜索所得的特征空间,优化分类精度和分类模型的复杂度. 运行多次得到多个分类树和多组分类规则,由此构建组合树分类器在测试集数据上检验分类效果. 在结肠癌基因表达数据上的实验结果表明了分类规则挖掘方法的有效性和可用性.  相似文献   

13.
决策树是数据挖掘技术中一种有效的分类方法,使用该方法的入侵检测系统能够更加准确高效的对网络数据进行处理和告警.然而面对庞大的网络数据集,生成的决策树规模常常较大,难以理解.本文提出一种多策略的剪枝算法修剪生成的决策树,来提高入侵检测系统的效率和准确性.  相似文献   

14.
在处理不平衡数据集时,为了降低类重叠对分类效果的影响,避免过采样造成的过拟合现象,以及欠采样造成的信息丢失问题,本文提出一种基于欠采样与属性选择的多决策树方法UAMDT(multi-decision tree based on under-sampling and attribute selection)。其首先利用Tomek link欠采样与集成欠采样两种技术相结合对数据进行处理,并获得多个平衡子集;然后在每个平衡子集上构建单决策树,采用结合信息增益和基尼指数的混合属性度量作为属性选择标准,选择最优属性作为每棵单决策树的根节点的分裂属性;最后将单决策树进行集成构建多决策树。通过对10个不平衡数据集的多个评估指标进行实验,验证了本文算法的有效性和可行性。  相似文献   

15.
金伟健 《科技资讯》2009,(14):239-239
分析了应用决策树算法对CRM系统中客户进行分类的一般过程,对分类的过程中的几个方面进行了优化,给出了一个改进了的基于决策树分类算法的客户分类模型。  相似文献   

16.
AdaBoost算法是一种将多个基学习器通过合理策略结合生成强学习器的集成算法,其性能取决于基学习器的准确率和多样性。但弱学习器分类精度不高往往也导致了最终强分类器性能较差,因此进一步为了提高算法的分类精确率,本文提出一种MDTAda模型,首先利用基尼指数迭代构造一棵不完全决策树,然后在决策树的非纯伪叶结点上添加简单分类器,生成MDT(模型决策树),将MDT作为AdaBoost算法的基分类器,加权平均生成强分类器。在标准数据集上的实验表明,相比传统的AdaBoost算法,本文提出的算法拥有更好的泛化性能和更优的间隔分布,且在与AdaBoost算法达到相同精度时所需迭代次数更少。  相似文献   

17.
对于客户获取策略中客户反应行为模式分析,从数据挖掘技术的角度可以归结为分类问题·依据组合分类方法的思想,提出一种基于遗传算法的多重决策树组合分类方法来提高分类的准确性和精确度·该组合分类方法将以概率度量水平的多重决策树进行并行组合,采用遗传算法优化连接权值矩阵·在仿真分析中采用二元反应行为模式的客户反馈仿真数据对该组合分类方法进行测试和评估·实验结果表明,在保持分类结果良好可解释性的基础上相比于单个决策树方法,该组合分类方法具有更高的分类精度,并优化了分类规则·  相似文献   

18.
目的比较R语言中rpart包与party包所构建决策树的不同。两个不同的包所构建的模型可推广应用于其他领域的决策树分类问题。实验过程中涉及的数据预处理、分类树建模、模型可视化、测试的思路与方法,也可借鉴应用于其他领域的分类树建模预测工作。方法对R语言内置数据集iris应用分类回归树(classification and regression tree,CART)方法与条件推断决策树,并运用R语言实现并建立决策树模型。结果 rpart包所得决策树模型与party包所得决策树模型在预测iris测试集的准确率均为96.7%。结论 rpart包所得到的决策树与party包所得到的决策树在对iris测试集的预测效果上无差异。  相似文献   

19.
传统决策树在中小型数据集的预测分类上表现优秀,但在大数据集的处理上仍然存在效率低下、准确率较低等问题.为了适应大数据集环境,国内外学术界和工业界提出了将决策树与分布式处理平台相结合的分布式决策树算法,面向大数据处理的Hadoop和Spark分布式计算系统的出现,为研究分布式决策树算法提供了新的契机.为此,面向以基于大数...  相似文献   

20.
针对多形性腺瘤诊断完全依赖人工的问题,提出一种计算机辅助诊断方法.先通过采集数据并构建多形性腺瘤数据集,对当前稠密连接网络进行改进并融合通道注意力机制进行疾病组织分类特征提取,得到组织类别和概率,然后使用CART(classification and regression tree)进行推理学习,得到诊断结果.对难判断的类别选择进行人工辅助,进而实现对多形性腺瘤疾病的计算机辅助工作.实验结果表明,该方法在分类识别模块分类提取准确率达97.7%,决策树推理诊断准确率达100%.此外,分类识别模块在血细胞分类领域的准确率达98.6%.该方法具有一定的迁移性和有效性.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号