首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 31 毫秒
1.
针对现有的特征选择模型未涉及特征和标记集之间的相关度,造成分类精度偏低等情况,提出了基于ReliefF和最大相关最小冗余(maximum Relevance and Minimum Redundancy, mRMR)的多标记特征选择.首先,运用互信息计算每个标记和标记集之间的相关度,使用每项相关度占其相关度之和的比例设计了标记权重,由此构建了特征和标记集间的相关度,初选与标记集相关度高的特征;其次,计算对象在特征上的距离,构建了新的特征权值更新公式,基于标记权重改进多标记ReliefF模型.然后,基于互信息和标记权重构建了最大相关性,设计了最小冗余性及其新的最大相关最小冗余评价准则,并将其应用于多标记特征选择,进一步剔除冗余特征;最后,设计了一种基于ReliefF和最大相关最小冗余的多标记特征选择算法,有效提高了多标记分类性能.在8个多标记数据集上测试所提算法的平均分类精度、覆盖率、汉明损失、1错误率和排序损失,实验结果证明了该算法的有效性.  相似文献   

2.
针对多源生理信号应用于驾驶压力检测中存在信号种类多、特征维数高以及运算效率低的问题,提出了一种结合特征选择(ReliefF)算法、最大相关最小冗余(MRMR)算法和多种群遗传算法(MPGA)的混合特征选择算法。首先利用ReliefF算法计算特征信号的权重值,初选出对分类效果影响显著的特征子集;然后利用MRMR算法去掉冗余的特征,进一步精简特征子集;在此基础上采用MPGA挑选出效果最佳的特征子集。将该算法应用于驾驶压力检测,并与其他类似算法进行了对比。实验结果表明,该算法有效地消除了高维特征中的冗余信息,提高了特征选择阶段的运算效率且达到了很好的分类效果。  相似文献   

3.
针对高维数据集中冗余特征或无关特征降低机器学习模型分类准确率的问题,提出了一种基于近似马尔科夫毯的特征选择(nmRMR)算法。该算法首先利用最大相关最小冗余的准则进行特征相关性排序;采用近似马尔科夫毯算法对冗余特征或者无关特征进行删除,并最大程度地提高特征之间的相关性从而获得最优特征子集。在UCI的8个公开数据集上对比的实验结果表明:与mRMR算法相比,本文算法所选择出的特征子集数平均减少了6.875个,平均分类准确率提高了0.78%;与FullSet算法相比,本文算法所选择出的特征子集数平均减少了20.56个,平均分类准确率提高了1.88%;与FCBF算法相比,本文算法所选择出的特征子集数平均减少了3.187 5个,平均分类准确率提高了0.825%;本文算法总体优于其他算法。  相似文献   

4.
最大相关最小冗余限定性贝叶斯网络分类器学习算法   总被引:2,自引:1,他引:1  
朴素贝叶斯分类器 (naive bayes) 是一种简单而有效的基于贝叶斯思想的分类方法,但它的属性条件独立性假设并不符合实际,影响了它的分类性能。BAN (bayesian network augmented naive bayes) 分类器扩展了朴素贝叶斯分类器,使其表示属性之间依赖关系的能力增强,但是其学习算法需要大量的高维计算,在小采样数据集上,影响BAN分类器的分类性能。基于改进的最大相关最小冗余特征选择技术,提出限定性贝叶斯网络分类器学习算法 (k-BAN)。本算法使用改进的最大相关最小冗余特征选择技术,通过选择属性结点的连接关系集合建立属性之间的依赖性关系。将该分类方法与NB,TAN和BAN分类器进行实验比较。实验结果表明,在小采样数据集上,本算法获得的限定性贝叶斯网络分类器具有更高的分类准确性。  相似文献   

5.
针对目前特征选择算法应用于数据分类精度不理想的问题, 提出一种基于最大相关最小冗余的特征选择算法, 该算法结合特征选择算法和聚类分析算法对特征进行处理, 将分类中冗余的特征去除. 利用支持向量机对一组心脏病患者实际测量得到的数据进行分类实验, 实验结果表明, 该方法可有效筛选影响分类的特征, 进而提高分类准确率.  相似文献   

6.
基于生理信号客观评估心理压力状态成为目前的研究热点,但最佳评估算法有待进一步探索. 本文选择心算任务诱发受试者的心理压力,采集了21位在校大学生的脑电、心电、皮肤电导、脉搏波4种生理信号. 提取各生理信号时域和频域的多种特征,使用方差分析(ANOVA)、最大相关最小冗余(mRMR)、单个特征支持向量机(SVM)分类准确率、随机森林(RF)特征重要性、梯度上升决策树(GBDT)特征重要性、极端梯度提升(XGBoost)特征重要性6种特征选择方法筛选出有效特征,利用SVM、K近邻(KNN)、高斯朴素贝叶斯(GNB)、自适应提升算法(Adaboost)、GBDT、XGBoost 6种分类器对提取的特征进行分类. 结果得出,GBDT特征筛选与XGBoost分类器的组合模型对心理压力的等级评估效果最佳.   相似文献   

7.
【目的】蛋白质自由能不仅能准确地反应蛋白质的交互,而且对药物设计有巨大帮助。因此,选择建立精确的蛋白质自由能回归模型是非常有必要的。【方法】收集135对蛋白质复合物并计算600个特征,通过最小冗余最大相关(mRMR)选择与蛋白质自由能显著相关的特征并去除冗余特征,从而得到最小冗余最大相关的特征集,用筛选后的特征建立6种回归模型,并对选择后的特征进行移除对比分析特征的重要性;最后通过10折交叉验证对比得到最佳模型,预测蛋白质自由能。【结果】相对于其它方法,本研究所建立的模型在预测135对蛋白质复合物的性能,相对于其它方法有着较高的相关系数和较低平均绝对误差。【结论】本实验所用方法比其他方法选出的模型有更好的预测精度。  相似文献   

8.
在处理入侵检测中的大规模数据时,冗余和不相关的特征数据长期造成网络数据流量分类问题,这种特征会降低分类效率和精度,并影响系统的实时检测率。该文提出了一种新的基于互信息的特征选择算法(NMIFS),该算法能处理线性和非线性相关的特征数据。在数据预处理的过程中,使用该算法选择出最优特征,然后结合常见的最小二乘支持向量机算法(LSSVM)对数据进行分类。采用入侵检测标准数据集KDD Cup 99对模型进行性能评估,对比其他新型的优化算法,结果表明NMIFS算法更有助于LSSVM算法实现更高的分类精度和效率,降低计算复杂度,同时提高模型的检测率。  相似文献   

9.
主要研究自动人脸表情识别(FER),首先使用Gabor算法提取人脸图像的特征,再针对Gabor特征维数高、冗余大及利用传统的AdaBoost算法进行特征选择时特征间仍存在较大冗余的特点,引入了基于互信息的AdaBoost算法(MutualBoost)进行特征选择,降低特征维数和减少特征间的冗余信息量。然后再以SVM分类器进行分类。本算法在JAFFE表情库上进行测试,结果验证了算法的有效性。  相似文献   

10.
针对微电极阵列记录的局部场电位(LFP)信号包含大量的噪声和冗余信息,而且信号特征维数高,从而影响解码正确率的问题,结合ReliefF算法与偏最小二乘(PLS)方法,解码了动物的转向运动行为。设计了鸽子的十字迷宫目标导向实验,采集鸽子弓状皮质尾外侧(NCL)LFP神经信号,提取信号的特征,利用ReliefF算法对各个特征赋予相应的权重值,根据权重阈值选取合适的特征构成特征子集,并用PLS对特征子集提取主成分,最后用支持向量机(SVM)进行解码,并将解码结果与单独使用ReliefF算法和PLS算法比较。结果:LFP信号经ReliefF-PLS特征提取后,五组鸽子实测数据的解码正确率分别达到95.00%、80.00%、95.00%、92.50%、85.71%,高于单独用ReliefF或PLS算法的解码正确率,而且所提取的特征数更少。结论:ReliefF-PLS方法结合了ReliefF和PLS的优点,提高了解码正确率,而且提取的特征数更少,有效的去除原始特征中的干扰特征和冗余特征,验证了该算法的有效性,为相关研究探索了一条新路径。  相似文献   

11.
基于Relief的组合式特征选择   总被引:15,自引:0,他引:15  
ReliefF是公认的效果较好的filter式特征评估方法,但该方法一大缺点是不能辨别冗余特征.提出两种基于Relief的组合式特征选择算法:ReCorre和ReSBSW,这两种算法均首先利用ReliefF算法过滤掉无关特征,然后分别采用相关分析(Correlation)以及顺序后向搜索(SBS)的Wrapper算法去除冗余特征.在实际数据集以及人造数据集上进行了实验,分析比较了Relief,ReCorre以及ReSBSW算法的性能.实验结果得出如下结论:ReliefF方法对无关特征较多的数据集能够很好的降维,但对于实际数据中特征间关系较复杂的情况,只能去掉很少的无关特征,并会去除一部分相关特征,ReliefF不能处理冗余特征,ReCorre可以在ReliefF基础上去除大部分冗余特征.ReSBSW算法可得到较好的泛化性能,但算法计算量很高,不适合大规模数据集.  相似文献   

12.
提出了一种快速基于约束的医疗图像关联分类算法(CBCPFP-growth算法).算法利用扩展项集表征约束,通过加入最大支持度和项出现位置的约束,并利用最小支持度、最小置信度、关联规则数量的约束有效地在算法执行之初和算法执行过程中删除了冗余模式和规则,通过将频繁项集进行划分并在多个处理器上独立执行,充分利用多处理器协同工作的处理能力,使算法具有并行和分布处理的可扩展性.算法在满足医疗图像领域高精确度,高稳定性要求的同时提高了算法运行效率和医疗图像分类的有效性.  相似文献   

13.
针对高维数据中不相关特征、冗余特征等导致的分类任务计算量大、分类正确率低等问题,提出了一种基于归一化互信息的相关性快速过滤特征选择(FCBF-NMI)算法.该算法采用归一化互信息代替对称不确定性作为FCBF算法的相关性评价标准,进行特征与类别、特征与特征的相关性分析,删除不相关特征及冗余特征以获得最优特征子集.实验结果表明:FCBF-NMI算法得到的最优特征子集更合理,平均分类正确率为89.68%,所用时间平均低至2.64s.  相似文献   

14.
针对微电极阵列记录的局部场电位(LFP)信号包含大量的噪声和冗余信息,而且信号特征维数高,从而影响解码正确率的问题,结合Relief F算法与偏最小二乘(PLS)方法,解码了动物的转向运动行为。设计了鸽子的十字迷宫目标导向实验,采集鸽子弓状皮质尾外侧(NCL)LFP神经信号,提取信号的特征,利用Relief F算法对各个特征赋予相应的权重值,根据权重阈值选取合适的特征构成特征子集;并用PLS对特征子集提取主成分,最后用支持向量机(SVM)进行解码,并将解码结果与单独使用Relief F算法和PLS算法比较。结果:LFP信号经Relief F-PLS特征提取后,五组鸽子实测数据的解码正确率分别达到95.00%、80.00%、95.00%、92.50%、85.71%,高于单独用Relief F或PLS算法的解码正确率,而且所提取的特征数更少。说明Relief F-PLS方法结合了Relief F和PLS的优点,提高了解码正确率;而且提取的特征数更少,有效地去除原始特征中的干扰特征和冗余特征,验证了该算法的有效性,为相关研究探索了一条新路径。  相似文献   

15.
在多标记学习中,现有的最大相关最小冗余(maximum Relevance and Minimum Redundancy, mRMR)算法未充分考虑标记之间以及特征与标记之间的相关性,导致算法分类性能偏弱。文章结合标记权重改进了mRMR算法,提出一种新的多标记特征选择方法。首先,基于标准互信息计算标记与标记之间的关联度,使用每个标记与标记集关联度占所有标记与标记集之间关联度之和的比例,定义标记权重,结合关联度与标记权重构建新的最大相关性公式,进而建立新的mRMR计算公式,使用mRMR算法获取最初的候选特征子集;然后,计算特征与标记之间的标准互信息并结合标记权重,定义特征与标记集之间的相关度,从最初候选特征子集中进一步剔除冗余特征,筛选最优特征子集;最后,设计了一种标记权重和mRMR的多标记特征选择算法。在8个多标记数据集上进行仿真实验,实验结果表明该算法能够有效提高多标记数据的分类性能。  相似文献   

16.
关键帧选择是提高视觉SLAM(simultaneous localization and mapping)算法精度及实时性的重要因素.关键帧常以图像的帧间相对运动距离为选择依据.该方法虽简单有效,但实时性、鲁棒性较差且容易产生大量冗余关键帧.针对上述问题,提出一种改进的关键帧选择算法.该算法整合了帧间相对运动距离、帧间特征点跟踪以及最小视觉变化来选择关键帧并删除冗余关键帧.基于该算法,结合具有较好方向和光照不变性的ORB(oriented FAST and rotated BRIEF)特征,实现了RGB-D SLAM算法.在RGB-D数据集上的实验表明,改进的关键帧选择算法能够更精准、及时地选择关键帧,并在减少RGB-D SLAM中冗余关键帧的同时提高算法的实时性、建图和定位精度.  相似文献   

17.
借鉴邻域粗糙集处理连续型数据的优势,为解决传统谱聚类算法需要人工选取参数的问题,提出基于自适应邻域互信息与谱聚类的特征选择算法。首先,定义各对象在属性下的标准差集合与自适应邻域集,给出自适应邻域熵、平均邻域熵、联合熵、邻域条件熵、邻域互信息等不确定性度量,利用自适应邻域互信息对特征与标签的相关性进行排序。然后,结合共享近邻自适应谱聚类算法,将相关性强的特征聚到同一特征簇内,使不同特征簇内的特征强相异。最后,使用最小冗余最大相关技术设计特征选择算法。在10个数据集上选择特征个数与分类精度的实验结果,验证了所提算法的有效性。  相似文献   

18.
一种基于闭项集的无冗余关联规则挖掘方法   总被引:1,自引:0,他引:1  
针对关联规则挖掘中存在的规则数量过多,难于理解和应用的问题,提出了一种基于闭项集的无冗余关联规则挖掘算法.首先,给出了无冗余关联规则的定义,并基于规则信任度的概念说明了该定义的合理性;其次,在生成子、闭项集和无冗余关联规则的基础上,给出了无冗余最小-最大精确规则基和无冗余最小-最大近似规则基的定义,并讨论了它们的剪枝策略.最后,讨论了生成子的性质及连接策略,并在包含索引的基础上,给出了一种宽度优先的无冗余关联规则挖掘算法.实验结果表明,本文提出的算法不仅可以发现规模较小的无冗余关联规则,提高了挖掘结果的可理解性,而且具有较高的挖掘效率.  相似文献   

19.
结合优化文档频和变精度粗糙集的特征选择方法   总被引:1,自引:0,他引:1  
在文本分类中,特征空间的维数通常高达几万,甚至远远超出训练样本的个数,这是一种十分普遍的现象.为了提高文本挖掘算法的运行速度,降低占用的内存空间,过滤掉不相关或相关程度低的特征,必须使用特征选择算法.首先给出了一个基于最小词频的文档频方法,然后把变精度粗糙集引入进来并提出了一个基于信息熵的属性约简算法,最后把该属性约简算法同基于最小词频的文档频方法结合起来,提出了一个综合的特征选择算法.该综合算法首先利用基于最小词频的文档频方法进行特征选择,然后利用所提属性约简算法消除冗余,从而获得较具代表性的特征子集.实验结果表明,该算法比最好的3种经典特征选择方法"互信息"和"统计量"以及文档频都要好.  相似文献   

20.
针对ARCO(AUC and rank correlation coefficient optimization)算法在进行两类问题特征选择时,采用斯皮尔曼等级相关系数度量已选特征子集冗余性带来信息损失和特征相关性与冗余性度量取值范围不一致的缺陷,提出改进的Pearson相关系数度量特征冗余性,并归一化特征相关性和冗余性度量范围,得到APCO(AUC and improved Pearson correlation coefficient optimization)算法以克服ARCO算法的不足。同时,针对实现多类特征选择的MAUCD(using MAUC as the relevance metric to rank features directly)和MDFS(MAUC decomposition based feature selection method)算法没有考虑特征冗余,且MDFS易选择到局部最优特征子集的问题,提出适于多类问题的改进Pearson相关系数度量特征冗余性,得到基于mRMR(maximal relevance-minimal redundancy)框架的MAUCP和MDFSP算法,克服MAUCD和MDFS算法的缺陷。以SVM、NB和KNN为分类工具,构造基于所选特征子集的相应分类器,以其AUC(MAUC)值度量相应特征子集的性能。7个二类和3个多类不平衡基因数据集的实验结果表明:提出的APCO、MAUCP和MDFSP算法分别优于ARCO、MAUCD和MDFS算法,也优于其他经典基因选择算法。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号