首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 265 毫秒
1.
为了提升传统随机森林算法的分类精度,首先对传统随机森林模型中的决策树根据分类性能评价指标AUC(area under curve)值进行降序排列,从中选取出AUC值高的决策树,计算这些决策树之间的相似度,并生成相似度矩阵;然后根据相似度矩阵对这些决策树进行聚类。从每一类中选出一棵AUC最大的决策树组成新的随机森林模型,从而达到提升传统随机森林算法分类精度的目的。通过UCI(university of Californialrvine)数据集的实验表明,改进后的随机森林算法在分类精度上最大提高了2.91%。  相似文献   

2.
蔡贺  张睿 《甘肃科技》2011,(14):31-33,8
从分析ID3决策树算法及解析入手,引入属性样本结构相似度概念,构建了样本结构相似度模型,并以该模型和属性的信息增益共同作为决策树内部结点的选择标准。改进SS_ID3决策树算法,着眼于决策树非叶结点的选择标准的优化,继承了原始ID3决策树算法的优点,并在多值偏向性的修正、决策树的大小控制及分类预测性能等方面取得了积极的改进。  相似文献   

3.
随机森林是一种高效的分类算法,其模型中的投票选取机制会导致一些训练精度较低的决策树也拥有相同的投票能力,从而降低准确度,而且模型中的决策树棵数及其他参数通常难以选取.为解决此问题,在投票时将每棵决策树乘以一个与其训练精度成正比的权重,并采用粒子群算法优化随机森林模型,通过迭代优化选取模型中包含的参数.通过UCI数据库进行验证,结果显示提出的加权随机森林模型分类正确率高于一般的随机森林算法及传统的分类算法.  相似文献   

4.
一种改进的决策树算法   总被引:1,自引:0,他引:1  
为解决决策树算法ID3的多值偏向的缺点,利用属性相似度偏向少值属性的特点,提出一种将属性相似度作为信息熵的系数的属性选择标准,从而提出相应的决策树生成算法.实验结果表明,新算法既避免了以信息熵作为属性选择标准的决策树算法的多值偏向,也避免了以属性相似度作为属性选择标准的决策树算法的少值偏向.  相似文献   

5.
网页正文提取是WEB挖掘的重要步骤。传统网页正文提取方法都需要经过分块这一步骤之后来识别网页正文块,提出了利用行文本之间的内容相似度和标签相似度结合的方法来提取网页正文。该算法避免了传统网页提取算法的分块步骤,在规范网页之后,先提取网页的最大文本行,然后计算每行文本与最大行的内容相似度和标签相似度,再结合内容相似度与标签相似度来提取网页正文。实验中,利用随机抽取的网页进行了测试,其测试精度接近95%,表明该算法在实际中是有效的。  相似文献   

6.
针对数据不平衡导致的信用风险识别精度低的问题,利用随机欠采样算法对数据集平衡处理后,采用Logistic回归模型以及随机森林、决策树、XGboost和支持向量机等分类算法分别建立模型并进行预测。实证结果表明,随机欠采样算法可以将信用卡欺诈风险的预测精度从低于75%提升至85%以上,且G-mean和AUC等衡量非平衡数据分类性能的指标均有明显提高,该算法能够有效缓解数据不平衡导致的风险预测性能低下的问题。  相似文献   

7.
电力短期负荷预测是电力系统调度的重要基础工作,但影响因素众多,且ID3算法偏向多值属性,完全由ID3算法自动形成决策树时容易发生误判。为了克服ID3算法在短期负荷预测时的不足,可根据实际情况,人工指定对负荷影响规律比较明确、影响程度大的因素在决策树中的位置,这样自动和人工相结合,能有效克服自动生成决策树的不足;将信息熵赋值给属性,对各影响因素进行相似度计算,利用综合相似度对历史日进行排序,有效识别主导负荷变化的影响因素,建立了基于ID3算法的短期负荷预测新算法。理论和实例均表明,该算法对提高短期负荷预测的精度具有较大价值。  相似文献   

8.
针对传统KNN算法忽略样本分布对分类的影响,易受到孤立样本、噪音等干扰,时间代价大等问题,提出了一种改进的近邻分类算法.该算法首先采用类维样本存储,打破了样本的整体性,转换了训练样本存储模式;其次按类维度寻求未知样本的类维近邻域,计算类维相似度进而得到未知样本的类别相似度;最后以最大类别相似度标识未知样本.该算法提高了分类效率,降低了独立样本对样本分类的影响.同时可处理连续型和标识型样本分类,并可适应各类样本分布情况,扩大了算法的应用范围.实验结果表明,该算法较传统的近邻算法与邻域分类算法在分类精度与分类时间上有了较大提升.  相似文献   

9.
针对文本分类存在的高维文本问题,提出文档频率(DF)-卡方统计量特征提取方式,对特征项进行有效约减,降低文本维度,提高分类精度.在K最近邻(KNN)算法的基础上,针对待分类文本需要和大量训练集样本进行相似度计算的问题,提出一种基于分组中心向量的KNN算法,对类别内的样本集分组求出各组中心向量,使其重新代表训练库计算相似度,降低计算复杂度,提升算法的分类性能.通过实验表明:相较传统KNN算法,改进的算法在准确率、召回率及F值方面都有提升,与其他分类算法相比,具有一定的优势.  相似文献   

10.
社交机器人账号的存在增加了无关、无效甚至虚假信息的传播机率,影响人类的线上及线下生活。人工识别此类账号需要工作者经验丰富,同时成本高、精度低。从账号动态变化角度出发引入社交关系关注数变化量、粉丝变化率和基于序列匹配的发文相似度特征,建立多维动态特征社交机器人账号检测模型,提出一种改进的基于AUC决策树分类评价指标随机森林优化算法以期解决以上问题。实验结果表明,改进后的算法对于提升检测准确率具有明显帮助,在社交机器人检测更注重的查全率方面也具有一定的优势。  相似文献   

11.
姿态估计是自然人机交互最为重要的环节,人体部件识别是姿态估计的重要步骤。本文介绍了一种基于特征预筛选的改进的随机森林的方法来识别人体各个部件。与传统的随机森林构造不同,在该方法中,对于特征空间十分庞大的实例给出了特征预筛选方法,使得每个分裂节点的特征子集更为高效。该方法既保证了树与树之间的独立,又保证了每棵树的分类性能。在树与树之间的组合中,根据人体部件构造,引入了和分层树的组合模型方式,提高了差异较小类的分类性能,进而提高了森林的准确性。  相似文献   

12.
为解决日趋增长的噪声大数据分类问题,提出了一种高度随机模糊森林算法.该算法在决策树学习中生成连续属性的模糊分区,并给出在MapReduce框架中所提算法的分布式实现,用于受属性噪声污染的大数据集中学习模糊决策树的集合,该分布式实现模型可以适应计算的有效分配策略,从而产生良好的可扩展性数据,这种分布式算法使得模糊随机森林能够处理大数据集的学习和分类.高度随机模糊森林算法能够实现噪声大数据的高精度分类,为以后的大数据分析打下良好的基础.实验结果表明,所提算法比现有算法准确率更高,在属性噪声情况下,该文分类准确率也高于随机森林算法,说明该文算法的可行性和有效性.  相似文献   

13.
在更加复杂的地质因素影响下,常规测井方法识别煤体结构准确度低,为精确识别煤体结构,研究了煤体结构测井曲线响应机理以及随机森林决策树个数的优选,从而建立煤体结构与测井曲线的随机森林分类模型进行煤体结构识别。结果表明:决策树个数为500时,随机森林分类模型效果最佳;通过袋外误差和模型对测试集样本的预测结果可知,随机森林分类模型的结果稳定且泛化性强,并且适合处理非均衡数据,预测精度较高。可见随机森林算法能有效识别煤体结构,为煤层气开发提供帮助。  相似文献   

14.
提出基于粗糙集和随机森林算法辅助糖尿病并发症分类。首先,运用简化的分明矩阵法对属性约简,产生新的决策信息系统;其次,采用随机森林算法对该新信息系统生成随机森林,实现分类;最后,通过糖尿病并发症临床诊断数据子集测试。实验表明该方法有效性,并优于直接用随机森林算法分类。  相似文献   

15.
目前面向分类的差分隐私保护算法中,大部分都是基于决策树或者随机森林等树模型。若数据集中同时存在连续数据和离散数据时,算法往往会选择调用2次指数机制,并且进行隐私预算分配时往往选择平均分配。这都使得隐私预算过小、噪声过大、时间成本增加以及分类准确性降低。如何在保证数据隐私的同时尽可能地保证数据可用性,并提高算法性能,成为目前差分隐私保护技术研究的重点。提出了面向决策树和随机森林的差分隐私保护数据挖掘算法,使用Laplace机制来处理离散型特征,使用指数机制处理连续型特征,选择最佳分裂特征和分裂点,并采用最优特征选择策略和等差预算分配加噪策略。对金融数据集的测试结果表明,提出的2种基于树模型的差分隐私保护算法都能在保护数据隐私的同时,具有较高的分类准确性,并且能够充分利用隐私保护预算,节省了时间成本。  相似文献   

16.
对于专利价值的不确定性和影响因素的复杂性,以及评估工作中缺乏可操作性强并且科学高效的评估方法等问题,对价值评估指标体系进行分析,并使用随机森林算法选择最有效的指标集,同时基于DBSCAN(density-based spatial clustering of applications with noise)聚类选择高精度且一致性低的决策树子森林改进传统随机森林算法,使用改进前后的两种随机森林模型在专利数据样本上进行实验并比较。结果表明,改进的随机森林模型提升了传统模型的精度,在专利价值评估中具有一定的作用,总体上比较有效地反映了专利的价值度。  相似文献   

17.
目前面向对象的分类研究中,对于研究区影像的分割尺度问题多以试验者的多次试验以及主观推断为主,缺乏定量化的评价标准。同时,在对遥感影像分类的算法选择以及在分类过程中,有效特征空间的选取均存在一定程度的主观性。针对遥感影像面向对象分类过程中分割尺度选择盲目及分类空间构造主观性较强的问题,以World View-2遥感影像数据为例,首先利用改进的全局最优分割尺度的方法获取研究区影像的最优分割尺度,在此基础上选取了研究区分割对象的48个特征,利用OOB误分率对各个特征的重要性排序;然后按重要性顺序以5为步长讨论特征数量对分类精度的影响,构建了用于分类的最优特征空间;最后将采用最优特征空间的随机森林算法获得的最佳分类结果,与面向对象的最邻近像元、决策树以及支持向量机分类算法进行了比较。结果表明,用于分类的特征数量与分类精度之间,并不是简单的正相关关系;与面向对象的最邻近像元、决策树以及支持向量机分类算法相比,利用最优特征空间进行随机森林分类的分类精度最高,表明该方法更适合于高分辨率World View-2数据的分类。  相似文献   

18.
基于模糊-粗糙集模型的一种归纳学习方法   总被引:10,自引:1,他引:10  
对传统粗糙集理论进行了扩展,提出了一种模糊-粗糙集模型。利用模糊集理论和Koho-nen网络自组织映射算法对决策表的连续属性进行模糊化,并用模糊贴近度构造模糊相似矩阵,把普通粗糙集的不可分辨关系推广为模糊相似关系。提出一种基于模糊-粗糙集模型的归纳学习算法FRILA,此算法和决策树算法相比,具有得到的规则数目少、规则表示简单等优点。实例验证了此方法的有效性。  相似文献   

19.
针对TLD算法中采用的随机森林分类器的决策树阈值固定,不能根据目标特征随时调整,影响分类精度和时间开销的问题,引入极端随机森林的思想,提出了基于改进的随机森林TLD目标跟踪方法。该方法用Gini系数度量样本集合的混乱程度,通过比较Gini系数是否超过了给定阈值,判断叶节点何时转变成决策节点进行分裂;再结合TLD算法中的P-N学习框架和在线模型训练更新样本;最终基于改进的TLD算法完成目标跟踪。将本文方法应用于多个视频集进行目标跟踪实验,验证了算法的有效性和稳定性。  相似文献   

20.
乔瀚  容芷君  许莹  但斌斌  赵慧 《科学技术与工程》2021,21(36):15497-15502
考虑样本数据集的差异性和相关性对疾病预测结果有着直接影响,提出一种基于多特征属性患者相似的糖尿病早期预测方法,根据患者之间特征具有相似性这一特点,对患者特征进行混合属性相似预分组,再把分组结果导入随机森林分类器进行疾病预测。首先以临床概念作为患者的特征项,通过聚类定量化分析不同特征属性类型间的距离来度量患者之间的混合相似度,根据患者混合相似度将患者集预分组为多个患者相似组。最后以随机森林分类器对相似组进行细分类,得到最终的疾病预测结果,该结果与基于全样本数据的随机森林分类结果相比,分类准确率提高了8.3%;与基于单一属性相似组的随机森林分类结果相比,分类准确率提高了5.1%。结果表明该方法具有较高的预测准确率,可为糖尿病诊断预测提供支持。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号