共查询到19条相似文献,搜索用时 62 毫秒
1.
由于数据具有海量、高相关性和非线性的特点,所以如何选择原始数据的本质特征,是关系到能否有效提高问题分类器推广能力的关键问题。本文讨论了目前基于所有特征以及词袋和词序列袋的特征选择方法,提出了采用随机森林和支持向量机(SVM)相结合的方法来进行特征选择。实验证明,此方法能够有效地选择分类特征,从而提升问题分类的效率和精度。 相似文献
2.
基于随机森林的不平衡特征选择算法 总被引:1,自引:0,他引:1
数据高维不平衡是当前数据挖掘的挑战。针对传统特征选择方法基于类别平衡假设,导致在不平衡数据上效果不理想的问题,利用随机森林内嵌的变量选择机制,构造了一个新的不平衡随机森林特征选择算法IBRFVS。IBRFVS在平衡的取样数据上构造多样决策树,采用交叉验证方式获取单棵决策树的特征重要性度量值。各决策树的权重和特征重要性度量的加权平均决定了最终的特征重要性序列,其中,决策树的权重由该决策树与集成预测的一致性程度决定。在UCI数据集上的随机森林超参数选择和预处理对比验证实验中显示,四种超参数K经验取值中,当K的取值为特征数的平方根时,IBRFVS性能较为稳定且优于传统特征选择算法。 相似文献
3.
特征选择在信用评估中是一种常用的数据降维技术。然而,传统的特征选择方法主要基于特征之间的线性相关性,无法有效处理非线性数据关系,导致无法准确估计变量之间的相关性程度。为了克服这个问题,该文提出了一种改进的特征选择算法,结合了随机森林和自编码器的优点。首先,利用随机森林去除与目标变量不相关的特征。然后,计算剩余特征的综合重要度,并使用这些保留的特征来训练自编码器神经网络。最后,使用自编码器的学习参数初始化一个三层神经网络,用于重构特征。在公开的信用评估数据集上进行了实验,结果表明,所提出的算法相对于其他方法表现更出色。 相似文献
4.
随机森林算法是根据Bagging抽样和随机特征子集划分策略,由多棵决策树组成的集成算法。与其他分类算法相比,随机森林算法有更高的分类精度、更低的泛化误差以及训练速度快等特点,因此在数据挖掘领域得到了多方面的应用。然而随机森林算法在分类预测特征维度高且不平衡的数据时,分类性能受到了极大限制。为了更好地处理高维不平衡数据,文中提出了一种基于混合采样和特征选择的改进随机森林算法(Hybrid Samping&Feature Selection Random Forest, HF_RF)。该算法首先从数据层面出发,通过SMOTE算法和随机欠采样相结合的方式对高维不平衡数据集进行预处理,同时引入聚类算法对SMOTE算法进行改进,提高对负类样本的处理性能;然后从算法层面出发,通过ReliefF算法对平衡后的高维数据赋予不同的权值,剔除不相关和冗余特征,对高维数据进行维度约简;最后采用加权投票原则进一步提高算法的分类性能。实验结果显示,改进后的算法与原算法相比,在处理高维不平衡数据方面的各评价指标更高,证明HF_RF算法对于高维不平衡数据的分类性能高于传统随机森林算法。 相似文献
5.
以肿瘤基因表达谱指导肿瘤的分类是目前机器学习领域的一个研究热点.对多类别肿瘤分类中的关键问题——特征基因选择方法进行了研究,提出了混合式特征基因选择策略.该策略首先利用7种特征选择算法提取与分类高度相关的基因,随后采用SSiCP算法消除冗余基因.实验是在肺癌的多类别基因表达谱数据集上完成的.实验比较了7种特征选择算法的性能,发现CFS算法加SSiCP算法的混合式基因选择策略可以获得数量较少的特征基因集,在训练集和独立测试集均有较高的准确度.所获得的最精简基因集中的部分基因据文献报道与肺癌的发生发展密切相关.实验结果证实了混合式特征基因选择策略的有效性. 相似文献
6.
比特币作为第一个去中心化的加密货币,由于具有匿名性这一特点,被大量用在各种交易服务中,如博彩、跨境支付等,同时也被恶意交易所利用。目前比特币用户地址分类主要通过启发式聚类方法实现,受到比特币协议的变化影响,该方法对出现的新输出地址、单输入地址以及参与混币交易的地址无法分类,因此仅适用于现有比特币地址中很小一部分。针对该问题,本文提出一种基于改进随机森林的比特币地址分类方法,对区块链原始区块数据进行解析,直接提取用于机器学习的地址特征,进而学习一个随机森林分类器,能对任何一个没有标签的比特币地址进行分类,同时为了降低特征集中的冗余,对传统的随机森林进行改进以获取最终有助于地址分类的重要特征。实验结果表明,该方法可以准确地对比特币用户地址进行分类,仅仅需要14个重要特征。 相似文献
7.
针对单一变量选择算法中模型分类精度和泛化能力较低的问题,提出一种混合变量选择算法.该算法分为两个阶段:过滤阶段,利用互信息快速排除一部分无关变量,降低样本空间的维数;封装阶段,在置换理论框架下,利用随机森林精选剩余变量.实验结果表明,该算法与对比算法相比具有更高的分类精度和泛化能力. 相似文献
8.
高光谱数据具有光谱范围广,光谱分辨率高等优势,可以用于不同地物的分类识别,为近年来遥感领域的研究热点。采用随机森林算法对机载高光谱数据进行了地物分类识别研究,首先选取不同种类的地物样本,并对每类样本打上类别标签,每个像素包含的波段数即为样本的特征数,送入随机森林分类器进行训练;然后将训练好的分类器对待分类的高光谱影像数据进行分类,待分类的数据初始化为统一的类别标签;并根据袋外数据自变量的扰动对分类精度的影响,计算不同波段特征对分类效果的重要性系数。实验采用C++语言结合Intel Open CV计算机视觉库,编写了高光谱影像分类识别程序,对机载AISA高光谱传感器获取的甘肃省张掖市农村与城市影像数据进行分类,结果表明本文算法具有较高分类精度和可靠性。 相似文献
9.
针对传统的随机森林算法(RF)在对高维特征数据集计算速度慢、聚类效果不佳的缺陷,提出了一种基于高维特征聚类的随机森林算法(HDFC-RF),首先用传统RF方法对初始高维数据集聚类后,使用K均值聚类(KM)和模糊C-均值(FCM)结合,计算样本相似度,并对聚类特征划分族群,最后通过计算DBI指标,并与相关性阈值δ比较和排序,得到最终的高维特征序列。将HDFC-RF算法应用于高维特征数据集Colon Tumor,与传统的RF和FSRF算法比较。实验结果表明,HDFC-RF算法对于高维特征的数据集具有更好的聚类效果、训练速度也更快,具备良好的可行性。 相似文献
10.
针对高维小样本大噪声的基因芯片数据,提出一种基于主元分析与k-近邻距离的特征基因选择与去噪方法.首先利用主元分析法获取低维投影空间中的模式特征,依据各个基因贡献率大小排序,选择贡献率大的基因为特征基因,进而利用k-近邻距离来消除野值噪声以获得稳定高效的分类精度.实验结果表明:提出的特征基因选择与去噪方法,使得特征基因分类精度更高、性能更稳定. 相似文献
11.
范士俊 《首都师范大学学报(自然科学版)》2013,34(5):71-73,78
针对机载全波形数据,本文提出了一种基于随机森林法的点云分类算法,首先通过全波形分解获得振幅,回波次数,以及回波宽度3个特征,再结合本文中提出的特征提取方法,构建一个多维特征向量并进行特征选择,最后利用随机森林法将激光点云分为植被,地面部分以及建筑物三类.对比支持向量机分类方法,实验证明该方法具有很好的稳定性以及高效性,能够在城市区域取得很好的分类精度. 相似文献
12.
提出了基于二进制编码的量子行为粒子群优化算法(BQPSO)的癌症特征基因选择方法,利用BQPSO对样本数据进行特征选择。使用选出的特征基因训练支持向量机进行留一法交叉验证。实验结果表明,基于BQPSO算法的癌症特征基因选择方法是一种行之有效的方法。 相似文献
13.
DNA微阵列数据通常含有成千上万个基因,其中含有大量与分类无关的基因和冗余基因,这些基因的存在会严重影响分类精度和效率.针对这一问题,提出一种基于改进的和声搜索算法的特征基因选择方法,首先采用Relief F算法对微阵列基因数据集排序,取排序靠前的N个基因构成初选基因子集,然后再利用改进的和声搜索算法选择特征基因.通过在3个公共微阵列数据集上的仿真实验,结果表明,该算法能够在更少的特征基因情况下达到很高的精度,是一种有效的特征基因选择算法. 相似文献
14.
姿态估计是自然人机交互最为重要的环节,人体部件识别是姿态估计的重要步骤。本文介绍了一种基于特征预筛选的改进的随机森林的方法来识别人体各个部件。与传统的随机森林构造不同,在该方法中,对于特征空间十分庞大的实例给出了特征预筛选方法,使得每个分裂节点的特征子集更为高效。该方法既保证了树与树之间的独立,又保证了每棵树的分类性能。在树与树之间的组合中,根据人体部件构造,引入了和分层树的组合模型方式,提高了差异较小类的分类性能,进而提高了森林的准确性。 相似文献
15.
基于Relief的组合式特征选择 总被引:15,自引:0,他引:15
ReliefF是公认的效果较好的filter式特征评估方法,但该方法一大缺点是不能辨别冗余特征.提出两种基于Relief的组合式特征选择算法:ReCorre和ReSBSW,这两种算法均首先利用ReliefF算法过滤掉无关特征,然后分别采用相关分析(Correlation)以及顺序后向搜索(SBS)的Wrapper算法去除冗余特征.在实际数据集以及人造数据集上进行了实验,分析比较了Relief,ReCorre以及ReSBSW算法的性能.实验结果得出如下结论:ReliefF方法对无关特征较多的数据集能够很好的降维,但对于实际数据中特征间关系较复杂的情况,只能去掉很少的无关特征,并会去除一部分相关特征,ReliefF不能处理冗余特征,ReCorre可以在ReliefF基础上去除大部分冗余特征.ReSBSW算法可得到较好的泛化性能,但算法计算量很高,不适合大规模数据集. 相似文献
16.
主要研究了基于支持向量机的特征选择方法——特征权法,通过对两组数据进行试验,说明了特征权法在分类效果上优于F-得分法和支持向量机. 相似文献
17.
李杰 《大理学院学报:综合版》2015,(6)
特征基因的选取是非常热门的问题,在癌症是由某个或者某几个基因共同相互作用引起变异的假设下,从最简单的2个基因组合进行研究,遍历所有可能的基因组合,运用Logistic回归分类器,以预测精度和AIC准则为评价标准,对所有的模拟结果进行评价,得到最优基因组合(X55187,D14812)。同时运用交叉留一检验,验证了此基因组合建立模型的稳定性。最后又对预测精度大于90%的640对基因组合进行频数分析,并与已有文献进行比较,得到出现频率高的基因组合,预测精度并不一定高的结论。 相似文献
18.
特征选择在模式识别技术中起着非常重要的作用,用信息论的方法进行特征选择还是一个新课题.MIFS和MIFS-U是两种用信息论方法进行特征选择的近似算法,MIFS和MIFS-U算法都有一个考虑输入特征之间信息冗余的权重系数,MIFS-U算法还有一个条件限制.当条件不满足或权重系数取值不合适时,这两种算法的特征选择性能就会下降.通过研究这两种算法,借助互信息的概念提出一种新的信息论特征选择算法MIFS-D.和MIFS、MIFS-U算法相比,MIFS-D是一种更精确的算法,去掉了限制条件和权重系数.将3种算法应用于几个分类问题,结果表明MIFS-D算法具有相对更好的特征选择性能. 相似文献
19.
李小波 《复旦学报(自然科学版)》2008,47(4)
针对基因芯片数据量大、样本数低和基因维数高的特点,提出了一种对基因芯片数据进行多步骤降维处理的分类方法.第一步,采用基因表达差异显著性分析方法(SAM)筛选得到差异表达基因子集.第二步,采用支持向量机(SVM)分类器对该差异表达基因子集进行进一步的分类降维.将该方法用来处理大肠癌和白血病数据集,得到了数量较少而分类能力较强的特征基因子集.实验结果证明该方法可以快速有效地筛选肿瘤特征基因. 相似文献