首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 10 毫秒
1.
针对特征选择算法对不同类型的数据集性能不稳定的问题,提出一种基于概率模型与改进Shapley权力指数的通用特征选择算法.首先,计算特征对类簇表征与类簇判别的重要性值;然后,计算特征对类簇的不确定度;最终,合并特征的重要性值与不确定度,提取合适的特征.因为概率模型对数据类型、数据缺陷具有较好的鲁棒性,所以对不同的数据集获得了稳定、高性能的特征选择效果.基于人工合成数据与benchmark数据集的实验结果表明,本算法对不同的数据集保持了稳定的特征选择效果,优于其他算法.  相似文献   

2.
通过研究文本特征选取中权重的计算问题,提出了一种利用特征词的熵函数加权的权值的计算方法,不但考察了特征词的文档频数,而且考察了它们在文档中出现的次数,使选出的特征子集更具有较好的代表性.实验表明,改进后的算法对聚类结果有了一定的改进.  相似文献   

3.
针对高维数据中不相关特征、冗余特征等导致的分类任务计算量大、分类正确率低等问题,提出了一种基于归一化互信息的相关性快速过滤特征选择(FCBF-NMI)算法.该算法采用归一化互信息代替对称不确定性作为FCBF算法的相关性评价标准,进行特征与类别、特征与特征的相关性分析,删除不相关特征及冗余特征以获得最优特征子集.实验结果表明:FCBF-NMI算法得到的最优特征子集更合理,平均分类正确率为89.68%,所用时间平均低至2.64s.  相似文献   

4.
基于随机森林的不平衡特征选择算法   总被引:1,自引:0,他引:1  
数据高维不平衡是当前数据挖掘的挑战。针对传统特征选择方法基于类别平衡假设,导致在不平衡数据上效果不理想的问题,利用随机森林内嵌的变量选择机制,构造了一个新的不平衡随机森林特征选择算法IBRFVS。IBRFVS在平衡的取样数据上构造多样决策树,采用交叉验证方式获取单棵决策树的特征重要性度量值。各决策树的权重和特征重要性度量的加权平均决定了最终的特征重要性序列,其中,决策树的权重由该决策树与集成预测的一致性程度决定。在UCI数据集上的随机森林超参数选择和预处理对比验证实验中显示,四种超参数K经验取值中,当K的取值为特征数的平方根时,IBRFVS性能较为稳定且优于传统特征选择算法。  相似文献   

5.
本文在仔细分析特征选择思想的基础上,将特征选择过程嵌入到学习机里面,提出了一种基于改进支持向量机的特征选择算法(Feature selection via Modified Support Vector Machines),该方法通过对特征的权重进行排序来实现特征选择.利用可以将特征选择过程和学习过程有机地统一起来,实验表明,与其它方法比较,该方法能够达到比较好的效果.  相似文献   

6.
软件缺陷对软件功能的实现具有不可预知的危险,是软件产品的固有成分,提高软件的可靠性,关键在于降低软件缺陷出现的概率,而如何利用已有缺陷数据构建预测系统框架是研究的重点.针对传统软件测试技术虽然能够有效发现软件缺陷,但需要消耗大量的时间和精力,制约软件开发效率的缺点,提出基于特征选择的软件缺陷预测方法,算法对软件缺陷模型的经验数据集进行多特征选择,进而克服数据集之间的冗余性移除无关特征,得到缺陷模型的分类,最终实现软件缺陷的精确预测.实验表明,基于特征选择的软件缺陷预测方法具有较好的预测效果和较高的应用价值.  相似文献   

7.
8.
根据科技文献的结构特点搭建了一个四层挖掘模式,并结合K-medoids算法提出了一个特征选择方法.该选择方法首先依据科技文献的结构将其分为4个层次,然后通过K-medoids算法聚类对前3层逐层实现特征词提取,紧接着再使用Aprori算法找出4层的最大频繁项集,并作为4层的特征词集合.同时,由于K-medoids算法的精度受初始中心点影响较大,为了改善该算法在特征选择中的效果,论文又对K-medoids算法的初始中心点选择进行优化.实验结果表明,结合优化K-medoids的四层挖掘模式在科技文献分类方面有较高的准确率.  相似文献   

9.
针对分类属性数据,基于信息熵,提出一种度量特征重要程度的定义.结合聚类分析,提出一种无指导的特征选择方法.该方法时间复杂度与数据集的大小和特征个数近似成线性关系,适合于大规模数据集中的特征选择.实验结果表明,该方法具有较好的性能,提出的特征选择方法有效实用.  相似文献   

10.
传统的互信息特征选择方法受边缘概率的影响较大, 可能产生稀有词的概率评估分高于常用词的评估分, 从而导致倾向于选择低频词条的现象。为此,在分析了几种传统的特征提取方法基础上, 通过引入分散度及平均词频两个参数, 将互信息方法与特征的词频相关联, 从而使互信息的分类更加准确。实验结果表明, 该方法使分类效果更好。  相似文献   

11.
基于改进蚁群算法的高精度文本特征选择方法   总被引:1,自引:0,他引:1  
为了反映特征子集对分类结果的整体影响,去除噪声特征项,提出了一种基于改进蚁群算法的高精度文本特征选择方法。建立了特征选择数学模型,实现了特征选择过程与分类器分类过程间的直接关联;设计了特征优选与特征精选相结合的模型求解方案,降低了模型求解过程中的计算复杂度;提出了基于等效路径增强和局部搜索更新相结合的改进蚁群算法,提高了解的质量和稳定性。实验结果表明,与现有文本特征选择方法相比,该方法能大幅提升分类精度。  相似文献   

12.
随机森林算法是根据Bagging抽样和随机特征子集划分策略,由多棵决策树组成的集成算法。与其他分类算法相比,随机森林算法有更高的分类精度、更低的泛化误差以及训练速度快等特点,因此在数据挖掘领域得到了多方面的应用。然而随机森林算法在分类预测特征维度高且不平衡的数据时,分类性能受到了极大限制。为了更好地处理高维不平衡数据,文中提出了一种基于混合采样和特征选择的改进随机森林算法(Hybrid Samping&Feature Selection Random Forest, HF_RF)。该算法首先从数据层面出发,通过SMOTE算法和随机欠采样相结合的方式对高维不平衡数据集进行预处理,同时引入聚类算法对SMOTE算法进行改进,提高对负类样本的处理性能;然后从算法层面出发,通过ReliefF算法对平衡后的高维数据赋予不同的权值,剔除不相关和冗余特征,对高维数据进行维度约简;最后采用加权投票原则进一步提高算法的分类性能。实验结果显示,改进后的算法与原算法相比,在处理高维不平衡数据方面的各评价指标更高,证明HF_RF算法对于高维不平衡数据的分类性能高于传统随机森林算法。  相似文献   

13.
基于免疫克隆选择算法的特征选择   总被引:12,自引:0,他引:12  
提出了一种基于免疫克隆选择算法的特征选择方法.特征选择可以被看成是一个组合优化问题,利用免疫克隆选择算法快速收敛于全局最优的特性,加快搜索到最优特征子集的速度,为后续模式分类提供良好的判别依据.实验结果表明算法在保持甚至提高分类精度的同时,有效地降低了特征维数.与基于遗传算法特征选择的结果相比较,在有限代数内,该算法能收敛到更优的特征子集,从而验证了算法的有效性及其应用潜力.  相似文献   

14.
特征选择作为数据处理的预步骤成为近年来的研究热点.借鉴图的方法,可认为重要的特征应该具有使同类样本更加聚集在同类之中,而使非同类样本间的间隔应该尽可能大的特点.首先详细介绍了当前常用的基于图的特征选择算法,并对其进行了分类比较;接着给出了当前基于图的特征选择算法存在的问题;最后指出了基于图的特征选择算法的研究趋势.  相似文献   

15.
信息增益是最有效的特征选择方法之一,但在处理不平衡数据集时其分类性能却急剧下降。针对这一不足,文章从三个方面对传统信息增益进行改进,提出一种改进的信息增益特征选择方法。首先,去除特征项不出现因子以降低对分类的干扰;其次,引入最大词频比因子以抑制低频词的干扰;最后,融入类内词频分布差异离散度和类间分布差异加权离散度因子以衡量特征项在类内和类间的分布差异。在不平衡数据集上的实验结果表明,改进的信息增益不仅可以从很大程度上改善少数类的分类性能,也使总体分类性能得到了明显提升。  相似文献   

16.
王帆  赵春晖  张志 《应用科技》2009,36(3):11-14
针对经典PCA算法在人脸特征提取上的局限性,提出了一种基于克隆选择算法的特征选择方法.克隆选择算法的收敛速度快,具有较强的全局搜索能力,可以快速搜索到最有利于分类的特征空间;因此利用克隆选择算法对PCA变换后的特征向量进行选择,可以有效避免PCA只选择人脸轮廓信息,而忽略细节信息的不足,在人脸识别中取得了较好的效果.通过对ORL和Yale人脸库的仿真实验表明,该方法无论在识别率、降维效果还是稳定性方面,性能均优于遗传算法,不但有效降低了特征向量维数,还将人脸识别率提高到91.5%,因此研究该算法具有很强的现实意义.  相似文献   

17.
帕金森疾病(PD)是一种直接影响人类步态的慢性神经系统疾病.它导致病人运动缓慢、肌肉僵硬和震颤.目前已经累积了一些帕金森疾病的相关特征数据,这些数据蕴含了与帕金森疾病直接相关的重要特征.对这些特征的分析和筛选有助于对潜在帕金森病人进行快速诊断和治疗.针对该问题,本文提出了一种基于改进蜻蜓算法(Improve Binary Dragonfly Algorithm,IBDA)的特征选择策略,利用差分进化算法的变异、交叉和选择产生初始种群,利用BDA算法的平行、聚合、分离、觅食和避敌5种行为来进一步求解.此外,在迭代过程中采取精英策略来保持种群的优良性,利用Levy飞行避免求解陷入局部最优.基于UCI公开数据集从多个指标比较了IBDA和其他特征选择算法的性能,实验结果表明提出的IBDA算法在帕金森疾病特征选择上具有更好的性能.  相似文献   

18.
基于高维数据的特征选择性, 运用功能扰动集成方法, 对4种不同特征选择器的结果进行集成, 得到了分类精度高且稳定性较好的特征子集.  在基因数据集上与原有算法进行性能对比实验, 结果表明, 多特征选择混合算法可使特征选择的结果间具有互补性, 从而有效提高特征选择的稳定性和分类精度.  相似文献   

19.
为提高异构物联网感知设备可信数据的挖掘和检测能力,提出基于局部子空间的可信数据多标记特征选择算法.建立异构物联网感知设备可信数据的大数据分布式存储结构模型,采用大数据信息融合方法进行异构物联网感知设备可信数据的可信动态特征度量,提取异构物联网感知数据的关键特征点,采用关联规则挖掘方法检测物联网设备可信数据,建立数据的关...  相似文献   

20.
针对灰狼优化算法收敛速度慢、寻优精度低、易陷入局部最优等缺陷,提出一种基于差分进化(DE)的灰狼优化算法(GWODE).该算法在灰狼优化算法的基础上,引进差分进化机制生成变异种群,通过调节缩放因子和交叉概率因子避免算法陷入局部最优.引入精英保留策略,根据进化后狼群适应度进行排序,淘汰适应度差的灰狼,同时再引进相同数量灰狼确保种群的竞争力.本文将该算法应用于生物医学诊断方面.实验结果表明,本文提出的算法性能优于实验对比的特征选择算法.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号