共查询到20条相似文献,搜索用时 62 毫秒
1.
由于数据具有海量、高相关性和非线性的特点,所以如何选择原始数据的本质特征,是关系到能否有效提高问题分类器推广能力的关键问题。本文讨论了目前基于所有特征以及词袋和词序列袋的特征选择方法,提出了采用随机森林和支持向量机(SVM)相结合的方法来进行特征选择。实验证明,此方法能够有效地选择分类特征,从而提升问题分类的效率和精度。 相似文献
2.
基于随机森林的不平衡特征选择算法 总被引:1,自引:0,他引:1
数据高维不平衡是当前数据挖掘的挑战。针对传统特征选择方法基于类别平衡假设,导致在不平衡数据上效果不理想的问题,利用随机森林内嵌的变量选择机制,构造了一个新的不平衡随机森林特征选择算法IBRFVS。IBRFVS在平衡的取样数据上构造多样决策树,采用交叉验证方式获取单棵决策树的特征重要性度量值。各决策树的权重和特征重要性度量的加权平均决定了最终的特征重要性序列,其中,决策树的权重由该决策树与集成预测的一致性程度决定。在UCI数据集上的随机森林超参数选择和预处理对比验证实验中显示,四种超参数K经验取值中,当K的取值为特征数的平方根时,IBRFVS性能较为稳定且优于传统特征选择算法。 相似文献
3.
特征选择在信用评估中是一种常用的数据降维技术。然而,传统的特征选择方法主要基于特征之间的线性相关性,无法有效处理非线性数据关系,导致无法准确估计变量之间的相关性程度。为了克服这个问题,该文提出了一种改进的特征选择算法,结合了随机森林和自编码器的优点。首先,利用随机森林去除与目标变量不相关的特征。然后,计算剩余特征的综合重要度,并使用这些保留的特征来训练自编码器神经网络。最后,使用自编码器的学习参数初始化一个三层神经网络,用于重构特征。在公开的信用评估数据集上进行了实验,结果表明,所提出的算法相对于其他方法表现更出色。 相似文献
4.
随机森林算法是根据Bagging抽样和随机特征子集划分策略,由多棵决策树组成的集成算法。与其他分类算法相比,随机森林算法有更高的分类精度、更低的泛化误差以及训练速度快等特点,因此在数据挖掘领域得到了多方面的应用。然而随机森林算法在分类预测特征维度高且不平衡的数据时,分类性能受到了极大限制。为了更好地处理高维不平衡数据,文中提出了一种基于混合采样和特征选择的改进随机森林算法(Hybrid Samping&Feature Selection Random Forest, HF_RF)。该算法首先从数据层面出发,通过SMOTE算法和随机欠采样相结合的方式对高维不平衡数据集进行预处理,同时引入聚类算法对SMOTE算法进行改进,提高对负类样本的处理性能;然后从算法层面出发,通过ReliefF算法对平衡后的高维数据赋予不同的权值,剔除不相关和冗余特征,对高维数据进行维度约简;最后采用加权投票原则进一步提高算法的分类性能。实验结果显示,改进后的算法与原算法相比,在处理高维不平衡数据方面的各评价指标更高,证明HF_RF算法对于高维不平衡数据的分类性能高于传统随机森林算法。 相似文献
5.
以肿瘤基因表达谱指导肿瘤的分类是目前机器学习领域的一个研究热点.对多类别肿瘤分类中的关键问题——特征基因选择方法进行了研究,提出了混合式特征基因选择策略.该策略首先利用7种特征选择算法提取与分类高度相关的基因,随后采用SSiCP算法消除冗余基因.实验是在肺癌的多类别基因表达谱数据集上完成的.实验比较了7种特征选择算法的性能,发现CFS算法加SSiCP算法的混合式基因选择策略可以获得数量较少的特征基因集,在训练集和独立测试集均有较高的准确度.所获得的最精简基因集中的部分基因据文献报道与肺癌的发生发展密切相关.实验结果证实了混合式特征基因选择策略的有效性. 相似文献
6.
比特币作为第一个去中心化的加密货币,由于具有匿名性这一特点,被大量用在各种交易服务中,如博彩、跨境支付等,同时也被恶意交易所利用。目前比特币用户地址分类主要通过启发式聚类方法实现,受到比特币协议的变化影响,该方法对出现的新输出地址、单输入地址以及参与混币交易的地址无法分类,因此仅适用于现有比特币地址中很小一部分。针对该问题,本文提出一种基于改进随机森林的比特币地址分类方法,对区块链原始区块数据进行解析,直接提取用于机器学习的地址特征,进而学习一个随机森林分类器,能对任何一个没有标签的比特币地址进行分类,同时为了降低特征集中的冗余,对传统的随机森林进行改进以获取最终有助于地址分类的重要特征。实验结果表明,该方法可以准确地对比特币用户地址进行分类,仅仅需要14个重要特征。 相似文献
7.
针对单一变量选择算法中模型分类精度和泛化能力较低的问题,提出一种混合变量选择算法.该算法分为两个阶段:过滤阶段,利用互信息快速排除一部分无关变量,降低样本空间的维数;封装阶段,在置换理论框架下,利用随机森林精选剩余变量.实验结果表明,该算法与对比算法相比具有更高的分类精度和泛化能力. 相似文献
8.
高光谱数据具有光谱范围广,光谱分辨率高等优势,可以用于不同地物的分类识别,为近年来遥感领域的研究热点。采用随机森林算法对机载高光谱数据进行了地物分类识别研究,首先选取不同种类的地物样本,并对每类样本打上类别标签,每个像素包含的波段数即为样本的特征数,送入随机森林分类器进行训练;然后将训练好的分类器对待分类的高光谱影像数据进行分类,待分类的数据初始化为统一的类别标签;并根据袋外数据自变量的扰动对分类精度的影响,计算不同波段特征对分类效果的重要性系数。实验采用C++语言结合Intel Open CV计算机视觉库,编写了高光谱影像分类识别程序,对机载AISA高光谱传感器获取的甘肃省张掖市农村与城市影像数据进行分类,结果表明本文算法具有较高分类精度和可靠性。 相似文献
9.
针对传统的随机森林算法(RF)在对高维特征数据集计算速度慢、聚类效果不佳的缺陷,提出了一种基于高维特征聚类的随机森林算法(HDFC-RF),首先用传统RF方法对初始高维数据集聚类后,使用K均值聚类(KM)和模糊C-均值(FCM)结合,计算样本相似度,并对聚类特征划分族群,最后通过计算DBI指标,并与相关性阈值δ比较和排序,得到最终的高维特征序列。将HDFC-RF算法应用于高维特征数据集Colon Tumor,与传统的RF和FSRF算法比较。实验结果表明,HDFC-RF算法对于高维特征的数据集具有更好的聚类效果、训练速度也更快,具备良好的可行性。 相似文献
10.
针对高维小样本大噪声的基因芯片数据,提出一种基于主元分析与k-近邻距离的特征基因选择与去噪方法.首先利用主元分析法获取低维投影空间中的模式特征,依据各个基因贡献率大小排序,选择贡献率大的基因为特征基因,进而利用k-近邻距离来消除野值噪声以获得稳定高效的分类精度.实验结果表明:提出的特征基因选择与去噪方法,使得特征基因分类精度更高、性能更稳定. 相似文献
11.
范士俊 《首都师范大学学报(自然科学版)》2013,34(5):71-73,78
针对机载全波形数据,本文提出了一种基于随机森林法的点云分类算法,首先通过全波形分解获得振幅,回波次数,以及回波宽度3个特征,再结合本文中提出的特征提取方法,构建一个多维特征向量并进行特征选择,最后利用随机森林法将激光点云分为植被,地面部分以及建筑物三类.对比支持向量机分类方法,实验证明该方法具有很好的稳定性以及高效性,能够在城市区域取得很好的分类精度. 相似文献
12.
陈涛 《中南民族大学学报(自然科学版)》2018,(2):121-127
针对基因表达谱高维、小样本、高冗余和高噪声等特点,提出了一种特征基因混合选择方法.采用Relief F方法对原始基因进行排序,过滤无效基因,获得初选基因子集,给出了基于差分进化算法优化的核模糊粗糙集模型,进行了特征基因终选.仿真实验结果表明:所提算法比Relief F、Kruskal Wallis、Gini Index等算法在分类精度和基因数量等方面有明显优势. 相似文献
13.
针对传统基于机器学习的电力系统暂态稳定评估方法存在准确率偏低和泛化能力不足的问题,提出了一种基于特征选择和改进随机森林的在线暂态稳定评估方法。首先,通过最大化联合互信息挖掘电网运行数据之间的相关性,筛选出具有代表性的关键特征子集;然后,考虑到电力系统数据库中稳定样本与失稳样本之间的类别不平衡问题,通过改进bootstrap抽样和对决策树进行加权处理,增强随机森林对失稳样本的识别能力;最后,基于改进的随机森林算法,建立关键特征数据与暂态稳定标签之间的映射关系。实验结果表明,所提方法具有较高的准确性和较强的鲁棒性,能够满足在线应用的需求。 相似文献
14.
以长江口滨海湿地为研究区域,采用随机森林算法对滨海湿地植被进行分类。在提取Landsat?8 OLI影像植被指数和水体指数的基础上,提出利用植被指数季节差值对模型进行特征变量优化,分析了长江口滨海湿地植物群落分布的空间特征。以所占面积最大的互花米草(入侵物种)为例,采用多元线性回归模型结合实地测量数据,估算了秋季的互花米草植物密度的空间特征。提出的多时相遥感数据结合随机森林特征变量优化方法,可以较为便捷地提取长江口湿地3种优势物种的空间分布特征,与最大似然法相比,分类精度有较大提高,总体分类精度由78.35%提高至87.55%,Kappa系数由0.72提高至0.84。该方法适用于存在“异物同谱”问题的湿地植物群落研究。 相似文献
15.
提出了基于二进制编码的量子行为粒子群优化算法(BQPSO)的癌症特征基因选择方法,利用BQPSO对样本数据进行特征选择。使用选出的特征基因训练支持向量机进行留一法交叉验证。实验结果表明,基于BQPSO算法的癌症特征基因选择方法是一种行之有效的方法。 相似文献
16.
针对基于降维的神经网络分类器预测模型在分析过程中存在特征丢失,并导致精度下降的问题,提出一种基于随机森林算法优化的多层感知器(MLP)回归预测模型.该优化模型通过在MLP回归模型网络的全连接层和逻辑回归层之间增加一个优化机制,利用随机森林算法对隐藏层状态的优化实现改进,从而解决了降维过程中神经网络丢失数据特征的问题.在... 相似文献
17.
企业破产数据中存在高维不平衡的特性,会导致模型预测性能降低且预测结果偏向于多数类.为了提高具有破产风险企业的预测准确率,将从特征、数据、模型3个方面综合考虑.首先提出一种Pearson相关系数特征提取规则进行特征选择,再使用已有的平衡化技术进行数据平衡化处理,最后提出了一种基于改变分类阈值的随机森林算法构建企业破产预测模型.在包含10173个公司数据集上的实验结果表明,本文的研究方法具有一定的优越性,对后续进行企业破产预测研究也具有较高的参考价值. 相似文献
18.
基因选择的快速Fisher优化模型 总被引:2,自引:0,他引:2
基因选择是基因芯片数据分析中的一个重要问题。基因选择的主要困难在于基因数远远大于实验样本数。在Fisher优化模型的基础上,提出了快速Fisher优化模型,从而使得算法的计算规模主要依赖于样本数而不是特征数,大大提高了计算速度。在公共数据中的实验表明该方法速度快,选择的基因对分类结果是有效的。 相似文献
19.
姿态估计是自然人机交互最为重要的环节,人体部件识别是姿态估计的重要步骤。本文介绍了一种基于特征预筛选的改进的随机森林的方法来识别人体各个部件。与传统的随机森林构造不同,在该方法中,对于特征空间十分庞大的实例给出了特征预筛选方法,使得每个分裂节点的特征子集更为高效。该方法既保证了树与树之间的独立,又保证了每棵树的分类性能。在树与树之间的组合中,根据人体部件构造,引入了和分层树的组合模型方式,提高了差异较小类的分类性能,进而提高了森林的准确性。 相似文献
20.
针对传统预测模型易陷入过拟合、缺失数据敏感、计算量大等不足,利用随机森林算法的双重随机性、处理数据集优异等特点,对A股股票涨跌预测进行研究。首先运用相关性分析对初始指标体系进行一次Spearman和二次Pearson筛选,去除指标体系中的冗余指标。然后对随机森林的各项重要参数进行优化,并对优化后的模型采用重要性估计方法以提升训练模型精确度。通过不同指标体系的对比,验证实验过程的正确性。最后,对比不同建模方法的实证预测结果,表明随机森林模型比传统机器学习方法二元logistic回归在性能上更优越,具备较高的预测准确度。 相似文献