首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
为解决日趋增长的噪声大数据分类问题,提出了一种高度随机模糊森林算法.该算法在决策树学习中生成连续属性的模糊分区,并给出在MapReduce框架中所提算法的分布式实现,用于受属性噪声污染的大数据集中学习模糊决策树的集合,该分布式实现模型可以适应计算的有效分配策略,从而产生良好的可扩展性数据,这种分布式算法使得模糊随机森林能够处理大数据集的学习和分类.高度随机模糊森林算法能够实现噪声大数据的高精度分类,为以后的大数据分析打下良好的基础.实验结果表明,所提算法比现有算法准确率更高,在属性噪声情况下,该文分类准确率也高于随机森林算法,说明该文算法的可行性和有效性.  相似文献   

2.
基于大数据平台和微服务架构,建立电力客户精准画像技术架构,形成大数据驱动下客户画像系统底层标签数据集合,结合模糊C均值聚类算法、决策树及XGBoost算法建立的电力客户标签,生成电力客户精准画像,构建电力客户精准画像体系.实验结果表明,所提方法能够精准挖掘电力客户数据,聚类多种客户标签,有效降低标签分类汉明损失,减小电力客户标签分类误差,确保生成有效电力客户画像.  相似文献   

3.
张毅斌  马盈仓 《河南科学》2019,37(4):521-527
多标签特征选择已成为处理多标签数据的重要方法之一.利用一种基于模糊互信息的多标签特征选择算法,通过模糊离散化,给出模糊联合熵和模糊条件熵吸模糊互信息的计算方式.将原先的互信息特征选择算法推广到模糊情形中,提出一种基于模糊互信息的多标签特征选择算法.最后在同一准则下,将模糊互信息与原先的互信息特征选择算法及其他几种经典的特征选择算法进行比较.实验表明,此方法在一定程度上效果优于其他特征选择算法,是一种有效的多标签分类问题的特征选择方法.  相似文献   

4.
单实例多标签分类是指一个样本拥有多个标签的分类问题,对此提出了一种基于半模糊核聚类和模糊支持向量机的多标签分类算法.该算法采用一对一分解策略将多类多标签数据集分解为多个两类双标签数据子集,在每个子集上训练两类双标签模糊支持向量机.为提高分类器的性能引入了半模糊核聚类技术.实验结果表明,与现有的一些算法相比新算法具有其优...  相似文献   

5.
针对现有大数据分类算法中存在准确率低的问题,本文提出一种基于差异灰狼优化决策树的大数据分类方法.该方法首先将复杂的大数据输入Map-Reduce框架中,采用主成分分析法对输入数据进行降维;然后利用支持向量机对压缩后的数据进行粗略分类;最后采用基于差异灰狼优化的决策树对支持向量机输出的类标签进行精细分类,获得更高的分类准确度.实验结果表明,相比于其他分类算法,本文提出的方法在复杂大数据分类方面具有明显的优势.  相似文献   

6.
传统的模糊决策树虽然可以从模糊数据中抽取模糊分类规则,但只能获取节点的隶属度信息,无法得出样本数据对于节点的非隶属度和犹豫度信息,导致数据分类的准确率不高。针对此,基于毕达哥拉斯模糊集理论,提出了一种新的加权毕达哥拉斯模糊决策树算法(Weighted Pythagorean Fuzzy Decision Tree,WPFDT)。首先,通过改进的K-means聚类算法得到连续属性数据的聚类中心,并结合三角模糊数对连续数据进行模糊处理;其次,定义并计算每一个属性的加权毕达哥拉斯模糊熵,选择加权毕达哥拉斯模糊熵最小的属性作为决策树根节点,在根节点下递归选择模糊熵最小的属性作为分裂节点,同时通过阈值控制树的规模,得到从根节点到叶子节点路径的模糊规则以及模糊规则的隶属度、非隶属度以及犹豫度,并完成预测分类,直至生成WPFDT模型;最后,选取UCI上的3个医学数据集(Haberman、Breast Cancer、Parkinson)进行实验,在分类准确率和得出模糊规则的数量与3种传统决策树算法(模糊ID3算法、C4.5算法、CART算法)比较,实验结果表明:WPFDT在分类精度和树大小上都优于其他传统决策树算法,并且有较高的召回率和精确率。  相似文献   

7.
中医药领域不完整的数据普遍存在,而数据的不完整很大程度地降低分类模型的学习效果。大多数已有的处理不完整数据的分类算法只关注在其学习阶段处理不完整数据,而对于不完整数据出现在分类阶段则不能处理或效果不好。文章提出一种新的分类算法用于处理不完整数据的分类问题。首先给出一个新的用于处理不完整数据的决策树算法,并针对传统的Boosting算法在迭代过程中使用确定性决策方法而没有充分考虑到数据集中的不完整数据,进一步提出改进的Boosting算法,在迭代过程中对每一个假设使用模糊决策方法,权重的更新机制是增加错误分类样本的权重和减少正确分类样本的权重,最终使用加权投票的方式得出最优的分类结果。最后,通过两组实验证明提出的算法策略在处理不完整数据问题时的优越性。  相似文献   

8.
基于非平衡数据的随机森林分类算法改进   总被引:1,自引:0,他引:1  
随机森林算法作为一种组合分类器有较好的分类性能,适合多样的分类环境。算法同样也存在一些缺陷,例如算法处理非平衡数据时不能很好地区分正类和负类。针对这一问题,通过对抽样结果增加约束条件来改进Bootstrap重抽样方法,减少抽样对非平衡性的影响,同时尽量保证算法的随机性。之后利用生成数据的非平衡系数给每棵决策树进行加权处理,提升对非平衡数据敏感的决策树在投票环节的话语权,从而提升整体算法对非平衡数据的分类性能。通过上述两种改进可以明显提高随机森林在决策树数量不足情况下的分类精度。  相似文献   

9.
针对决策树C4.5算法在处理数值型因素时比较复杂和分类精度不高等问题,在数据预处理过程中采用云变换进行连续因素离散化,给出了连续属性离散化的具体算法.利用因素空间理论给出一种构造决策树算法的新的启发式函数—分辨度,分析了算法的时间复杂度,证明其为多项式算法.研究结果表明:改进算法的测试准确率和效率均优于决策树算法.  相似文献   

10.
模糊ID3算法处理的对象是具有模糊条件属性和模糊决策属性的模糊决策表,它利用平均模糊分类熵作为启发式选择扩展属性,利用模糊置信度作为叶子结点的终止条件.当用模糊ID3算法处理连续值和离散值决策表时,需要对连续值或离散值条件属性进行模糊化.模糊化的关键是模糊测度的确定,但确定合适的模糊测度非常困难,而且模糊化会损失有用的信息.针对这些问题,基于粗糙模糊集技术,提出了一种模糊决策树归纳算法,称为粗糙模糊决策树(RFDT:Rough Fuzzy Decision Tree).RFDT可直接处理离散值模糊决策表,归纳模糊决策树,不需要模糊化的过程.和模糊ID3算法类似,RFDT也分为三步:(1)利用粗糙模糊依赖度作为启发式选择扩展属性;(2)用选择的扩展属性划分样例集合;(3)如果划分的样例集合满足终止条件,则算法终止;否则递归地重复步骤(1)和(2).提出的算法用Kosko模糊熵作为叶子结点的终止条件,并通过一个例子说明了模糊决策树的归纳过程.  相似文献   

11.
主体构建和学习环境(ABLE)是IBM开发的用于支持主体建模、构建多主体系统的框架.本文改进了ABLE的决策树算法,在其中计算属性的信息增益时加入一个模糊因子,使算法能更简单、有效地学习.在UCI数据集上的测试结果表明改进后的算法在不降低精度的前提下,可以生成更简洁的决策树,特别是处理复杂的数据时,可显著降低规则数目.  相似文献   

12.
在大数据环境下,由于隐私保护、数据丢失等原因,数据普遍存在不确定性;数据流系统中数据不断地到达系统,只扫描一遍且不能一次性全部获得;所以要构建一个增量分类模型来处理不确定数据流分类.本文基于VFDT算法提出了WBVFDTu算法,该算法在学习和分类阶段都可快速而有效地分析不确定信息.在学习期间,采用Hoeffding分解定理构造决策树模型;在分类期间,在决策树的叶子节点利用加权贝叶斯分类算法提高模型的分类准确率和算法的执行效率.最终证明该算法能够非常快速地学习不确定数据流,提高分类的准确率.  相似文献   

13.
大多数机器学习算法能得到较好的分类效果,但模型却无法解释;而随机森林等模型有良好的可解释性,却无法处理中医数据中兼证的情况。本文利用极值随机森林算法对慢性胃炎中医数据进行证候分类研究,其中决策树的叶节点能输出多个标签,通过加权机制综合分量来处理兼证问题。与已有多标记学习算法和C4.5、CART等基于决策树的算法进行比较,实验结果表明,极值随机森林算法无论在6个证型的分类准确率上,还是在多标记评价指标上都具有更好的效果,而且模型中得到的规则基本符合中医理论。  相似文献   

14.
针对绝大部分多变量决策树只能联合数值型属性,而不能直接为带有分类型属性数据集进行分类的问题,提出一种可联合多种类型属性的多变量决策树算法(CMDT).该算法通过统计各个分类型属性的属性值在各个类别或各个簇中的频率分布,来定义样本集合在分类型属性上的中心,以及样本到中心的距离.然后,使用加权k-means算法划分决策树中的非终端结点.使用这种结点划分方法构建的决策树可用于数值型数据、分类型数据以及混合型数据.实验结果表明,该算法建立的分类模型在各种类型的数据集上均获得比经典决策树算法更好的泛化正确率和更简洁的树结构.  相似文献   

15.
传统决策树在中小型数据集的预测分类上表现优秀,但在大数据集的处理上仍然存在效率低下、准确率较低等问题.为了适应大数据集环境,国内外学术界和工业界提出了将决策树与分布式处理平台相结合的分布式决策树算法,面向大数据处理的Hadoop和Spark分布式计算系统的出现,为研究分布式决策树算法提供了新的契机.为此,面向以基于大数据系统的分布式决策树算法为研究对象,从决策树基础算法、大数据平台的分布式并行机制和大数据平台下分布式决策树实现的三个方面进行剖析,以呈现Hadoop和Spark平台下的分布式决策树算法当前研究现状,并分析未来分布式决策树的研究方向.  相似文献   

16.
传统的决策树算法在单机平台上处理海量数据挖掘时,容易受到计算能力和存储能力的限制,所以存在耗时过长、容错性差、存储量小的缺点.而拥有高可靠性和高容错性的Hadoop平台的出现为决策树算法的并行化提供了新的思路.本文设计和实现了一种基于Hadoop平台的并行SPRINT分类算法.实验结果表明:基于Hadoop平台的SPRINT分类算法比没有进行并行化的SPRINT算法具有较好的分类正确率、较低的时间复杂度和较好的并行性能,并且能明显提高算法求最佳分裂点时的执行速度.  相似文献   

17.
流数据是一种有别于传统静态数据的新的数据形态,随着时间的推移而不断产生,而且富含变化.流数据分类是数据挖掘的研究分支,用于发现数据中隐含的模式并实现数据的类别划分,通常将每一个类别称作概念.将传统决策树算法引入流数据分类,针对流数据的特征提出特定的分类算法,是流数据分类的一个主要研究分支.为了全面介绍基于决策树的流数据分类算法,首先,简要概述数据挖掘及主要任务、决策树及其主要算法、流数据及其主要特性;然后,按照算法是否考虑概念漂移问题,将现有工作划分为包含概念漂移的流数据分类算法和不含概念漂移的流数据分类算法两大类,分别介绍每一类算法的主要算法流程、优缺点和典型应用;最后,指出基于决策树的流数据分类的进一步研究方向.  相似文献   

18.
常见的决策树分类算法、贝叶斯分类算法、神经网络分类算法为数据挖据分类算法研究提供了重要基础。但面对海量数据时,在时间效率、鲁棒性和精确性上都显示出了不足。为此,本文将模糊聚类的思想引入到神经网络分类算法中,首先通过模糊聚类子模型,将样本数据聚为几个数据子集,然后再采用不同的神经网络对各个数据子集同时进行训练学习。由于经过了模糊聚类子模型的预处理,每个神经网络训练学习样本的复杂性大大减少,使神经网络的学习效率大大提高。最后通过UCI下的实际数据库,对提出的分类算法进行了检验,结果显示了基于模糊聚类的神经网络在数据挖掘分类中应用的有效性。  相似文献   

19.
随机森林算法是根据Bagging抽样和随机特征子集划分策略,由多棵决策树组成的集成算法.与其他分类算法相比,随机森林算法有更高的分类精度、更低的泛化误差以及训练速度快等特点,因此在数据挖掘领域得到了多方面的应用.然而随机森林算法在分类预测特征维度高且不平衡的数据时,分类性能受到了极大限制.为了更好地处理高维不平衡数据,...  相似文献   

20.
数据流的特征是海量的、高速流动的、实时处理的.由于一些数据分布随着时间而改变,因此将这些数据流称为概念漂移.首先按照分类模型对数据流决策树进行分类,分为单分类决策树和集成分类决策树.单分类模型分为快速决策树、变异决策树和其他决策树算法.集成分类模型分为衍生快速决策树和随机决策树变体算法.其次介绍了概念漂移处理技术,包括概念漂移问题的描述、常见的概念漂移处理技术和用于解决概念漂移的决策树算法.接着介绍了增量模型决策树算法,最后对本文介绍的决策树算法进行分析总结.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号