首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 66 毫秒
1.
基于随机森林的不平衡特征选择算法   总被引:1,自引:0,他引:1  
数据高维不平衡是当前数据挖掘的挑战。针对传统特征选择方法基于类别平衡假设,导致在不平衡数据上效果不理想的问题,利用随机森林内嵌的变量选择机制,构造了一个新的不平衡随机森林特征选择算法IBRFVS。IBRFVS在平衡的取样数据上构造多样决策树,采用交叉验证方式获取单棵决策树的特征重要性度量值。各决策树的权重和特征重要性度量的加权平均决定了最终的特征重要性序列,其中,决策树的权重由该决策树与集成预测的一致性程度决定。在UCI数据集上的随机森林超参数选择和预处理对比验证实验中显示,四种超参数K经验取值中,当K的取值为特征数的平方根时,IBRFVS性能较为稳定且优于传统特征选择算法。  相似文献   

2.
为了提高非平衡数据分类的准确性,采用随机森林算法用于数据分类,并结合鲸鱼优化算法对随机森林弱分类器权重进行优化求解,以增强随机森林算法对非平衡数据分类的适应性。首先,建立基于随机森林的非平衡数据分类模型。通过随机森林的多个决策树弱分类器进行分类,有效解决样本不均衡导致的分类困难问题。接着,采用鲸群优化算法对弱分类器权重进行优化求解,将分类准确率均值作为鲸群优化适应度函数,以提高弱分类器权重投票对最终分类结果的精度。最后,采用经过鲸群优化得到的随机森林模型进行非平衡数据分类。实验证明,通过合理设置鲸群优化算法参数,可以获得分类准确度更高的随机森林弱分类器权重,相较于常用非平衡数据分类算法,文中算法能够获得更优的分类性能。  相似文献   

3.
分类算法主要存在问题:(1)无法充分利用样本的分布特征;(2)无法保持样本的相对关系不变;(3)无法解决大规模分类问题。对此,提出了一种基于最大散度差的保序分类算法RPCM,该方法利用线性判别分析算法中的类间离散度和类内离散度来表征样本的分布特征,通过保持各类样本中心相对关系不变来实现样本相对关系不变。理论分析表明:RPCM的对偶形式与最小包含球等价。在核心向量机的基础上提出了RPCM-CVM算法,该算法可用来解决大规模分类问题,标准数据集上的比较实验验证了所提方法的有效性。  相似文献   

4.
特征提取是3D点云配准中的重要步骤。针对RGBD点云数据独有的颜色信息,提出一种自适应平衡因子的混合特征提取算法。首先,引入几何特征度、颜色特征度和混合特征度的概念,混合特征度由几何特征度、颜色特征度和平衡因子决定。然后提出一种自适应的平衡因子估计方法,针对不同模型的几何特性和颜色特性自适应估算平衡因子,计算混合特征度,并根据混合特征度选择特征点集,最后采用改进的6DICP算法进行配准。实验结果显示,该算法提高了RGBD点云数据的配准精度、减少了算法耗时。  相似文献   

5.
设G为一简单图,它的最大平均度mad(G)=max{2|E(H)|/|V(H)|:H为G的非空子图}.如果△(G)≥7和mad(G)≤4,或者△(G)≥5和mad(G)≤18/5,或者△(G)≥3和mad(G)〈3,则G的线性荫度为[△(c)/2].  相似文献   

6.
针对SMOTE算法和随机森林可较好解决不平衡数据集的分类问题但对少数类样本分类效果还有待提高的问题,融合Canopy和K-means两种聚类算法,设计了C-K-SMOTE改进算法。先后利用Canopy算法进行快速近似聚类,再利用K-means算法进行精准聚类,得到精准聚类簇,最后利用SMOTE算法增加少数类样本数量,使数据趋于平衡。选取公开数据集KEEL(knowledge extraction on evolutionary learning)数据库中的不平衡数据集,结合随机森林分类模型进行了实验验证,实验表明C-K-SMOTE算法可有效平衡不平衡数据集。  相似文献   

7.
基于随机抽样和聚类特征的聚类算法   总被引:5,自引:0,他引:5  
在分析BIRCH算法不足的基础上,提出了一种基于随机抽样和聚类特征的聚类算法(CLAP),该算法采用随机抽样技术,从数据库中抽取一部分数据进行聚类的预处理过程,这样大大降低了运行时间,CLAP通过设立索引树的叶节点的直径和聚类直径,提高了聚类的精度,并采用全局搜索和局部搜索相结合的方式,消除了输入顺序对聚类质量的影响.测试结果表明,CLAP算法不仅提高了聚类速度,而且改善了聚类质量。  相似文献   

8.
为了构建传感器网络流数据的概要数据,给出了一种基于时间滑动窗口的自适应加权随机抽样算法:AWRS/BTSW算法.算法根据流数据的到达时间和变化情况,赋予流数据一定的键值,根据流数据的键值并结合skipping因子生成概要数据.在深海平台监测系统中,流数据变化不确定,算法可以根据数据的变化情况动态调整抽样方式,在数据变化不稳定的情况下,生成概要数据的准确性高;在数据变化稳定的情况下,生成概要数据的效率高.  相似文献   

9.
针对目前不平衡大数据分类算法分类效果较差的问题,提出基于随机森林模型的不平衡大数据分类算法。首先采用SVM(Support Vector Machine)支持向量机算法对不平衡大数据进行信息过滤,然后利用反k近邻法检测并消除离群点,通过增量主成分分析法去掉不平衡大数据中协方差矩阵存在的奇异性,并依据熵值法对其展开权重解析,进而提取不平衡大数据特征信息。将CART(Classification and Regression Trees)决策树当作不平衡大数据的基分类器,进而构建随机森林决策树分类器,最后将提取的不平衡大数据特征信息输入分类器中,实现不平衡大数据分类。实验结果表明,该算法对不平衡大数据的采样效果较好,并且分类精准度、稳定性和性能都较高。  相似文献   

10.
基于非平衡数据的随机森林分类算法改进   总被引:1,自引:0,他引:1  
随机森林算法作为一种组合分类器有较好的分类性能,适合多样的分类环境。算法同样也存在一些缺陷,例如算法处理非平衡数据时不能很好地区分正类和负类。针对这一问题,通过对抽样结果增加约束条件来改进Bootstrap重抽样方法,减少抽样对非平衡性的影响,同时尽量保证算法的随机性。之后利用生成数据的非平衡系数给每棵决策树进行加权处理,提升对非平衡数据敏感的决策树在投票环节的话语权,从而提升整体算法对非平衡数据的分类性能。通过上述两种改进可以明显提高随机森林在决策树数量不足情况下的分类精度。  相似文献   

11.
随机森林在分类不平衡数据时,容易偏向多数类而忽略少数类,可以将代价敏感用于分类器的训练,但在传统代价敏感随机森林算法中,代价函数没有考虑样本集实际分布与特征权重,且在随机森林投票阶段,没有考虑基分类器的性能差异。本文提出一种改进的代价敏感随机森林算法ICSRF,该算法首先根据不平衡数据集的实际分布构造代价函数,并将权重距离引入代价函数,然后根据基分类器的性能采取权重投票,提高分类准确率。实验结果表明,ICSRF算法能有效提高少数类的分类性能,可以较好的处理不平衡数据。  相似文献   

12.
基于网格和密度的随机样例的聚类算法   总被引:2,自引:0,他引:2  
为提高密度聚类算法效率并处理非空间属性约束,提出了基于网格和密度的聚类算法(GDRS).它使用网格区域表示点的邻域,非空间属性被分为数值和字符类型.首先通过网格方法找到能准确反映数据空间几何特征的参考点;然后随机选择没有分类的参考点,并测试其邻域的稀疏状况、与其他聚类的关系以及非空间属性的约束来决定加入、合并聚类或形成新的聚类;最后把参考点映射回数据.把此算法和DBSCAN及DBRS算法进行了理论比较,并使用合成和真实数据集对GDRS和DBSCAN进行了对比.实验表明,GDRS具有密度算法的优点,即可发现各种形状的聚类并能屏蔽噪声点,且执行效率明显优于密度算法.  相似文献   

13.
为改善浮动车全球定位系统(global positioning system, GPS)数据因采集过程中受到干扰造成数据缺失问题,通过分析法研究了浮动车GPS数据与交通流状态和道路线形之间的关联性,提出一种基于优化随机森林算法的浮动车GPS数据插补模型,该模型针对随机森林算法插补过程中,因自身的随机性而引起插补结果具有波动性问题,在结果输出部分引入权重因子,通过线性优化算法,调节权重因子大小使输出结果波动性降低的同时满足道路线形特征。实验对6名志愿者21 d的出行轨迹数据进行插补。结果表明:所构建的模型平均误差为12.3 m,相较于随机森林模型、决策树模型和线性回归模型分别减少14.9、24.3、239.3 m,可见采用优化随机森林算法建立的插补模型有效提升了浮动车GPS数据插补精度,为交通状态分析、地图匹配等应用提供数据基础。  相似文献   

14.
介绍了与简单随机抽样有关的一些概念和这种抽样方式的若干特点,指出了统计教材中对简单随机抽样论述的欠缺,接着对简单随机抽样中的若干难点如每个单位的入样概率是相等的、抽样中的随机原则和如何用随机数字表进行简单随机抽样等进行了探讨.  相似文献   

15.
阐述了如何使用一种新的数据结构"n-叉树"来对数据进行桶排序。分析和详细说明了n-叉树的算法,通过测试数据证明n-叉树算法的性能是稳定和良好的。  相似文献   

16.
为解决日趋增长的噪声大数据分类问题,提出了一种高度随机模糊森林算法.该算法在决策树学习中生成连续属性的模糊分区,并给出在MapReduce框架中所提算法的分布式实现,用于受属性噪声污染的大数据集中学习模糊决策树的集合,该分布式实现模型可以适应计算的有效分配策略,从而产生良好的可扩展性数据,这种分布式算法使得模糊随机森林能够处理大数据集的学习和分类.高度随机模糊森林算法能够实现噪声大数据的高精度分类,为以后的大数据分析打下良好的基础.实验结果表明,所提算法比现有算法准确率更高,在属性噪声情况下,该文分类准确率也高于随机森林算法,说明该文算法的可行性和有效性.  相似文献   

17.
主要介绍:随机事件与概率教学中的事件的互逆与互不相容;事件的独立与互不相容;条件概率和无条件概率;放回抽样与不放回抽样;概率加法公式和互逆加法公式的运用五个方面的教学问题。  相似文献   

18.
采用机器学习中的随机森林算法对葡萄酒的化学特性与葡萄酒的品质之间的关系进行学习,并建立了有效的模型对葡萄酒品质进行预测。该方法具有预测准确率高、预测精度稳定以及葡萄酒分级详细等特点,在葡萄酒行业品质预测的应用中,能够有效地减少因品酒师个人因素带来的评级波动。还将实验结果与已经存在的一些工作进行量化比较,特别是在成本(风险)比较中,所提供的方法明显优于已有的方法。  相似文献   

19.
提出了一种基于信息最大准则的盲源分离新算法。新算法在当前时刻的系数更新时充分利用先前迭代过程的信息 ,并在每一步迭代时归一化权系数矩阵。仿真表明 ,新算法应用于盲图像信号分离时得到了很好的分离效果。  相似文献   

20.
提出了分层随机抽样时几何平均数的区问估计方法,并给出了一个数值例子.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号