首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 46 毫秒
1.
针对基因表达数据集的基因选择问题,采用邻域熵度量与蚁群优化原理,提出一种基因选择方法.首先,引入邻域粗糙集模型对基因数据进行邻域粒化,定义邻域熵度量用于剔除冗余基因构成预选择基因子集;然后,采用邻域熵构造基因重要度作为启发式信息,发挥蚁群优化算法的分布式、正反馈及全局寻优的优势,运用蚁群优化算法从预选择基因子集中搜索出最小基因子集;最后,在选取的最小基因子集上进行分类测试.实验表明:建立在该最小基因子集上的分类器具有良好的分类性能.  相似文献   

2.
针对目前基于粗糙集模型的特征选择算法无法直接应用于数值型数据、必须经过离散化过程而造成决策信息丢失的问题,提出了一种基于邻域决策分辨率的特征选择算法。该算法根据邻域信息粒中决策分布与其分类能力间的关系,提出了邻域决策确定性(Nc)来衡量单个信息粒的决策分辨能力;并根据特征向量空间上所有信息粒所具有的Nc累加值,定义了邻域决策分辨率作为特征子集上决策可分辨性的量度,从而将名义型和数值型数据统一在同一特征选择算法框架下。仿真实验和实际应用的结果表明,该算法性能优于目前主流基于邻域粗糙集的特征选择方法。  相似文献   

3.
冗余属性过多是影响分类算法运行效率和准确率的重要因素。为了提高分类算法的运行效率和分类准确率,提出一种基于改进邻域粗糙集属性重要度的快速属性约简算法。首先,提出一种改进的KNN属性重要度;其次,利用改进过属性重要度的邻域粗糙集对原始数据的条件属性进行重要度排序,利用排序结果对原始数据进行属性约简,得到约简后的特征子集;最后,将约简后的特征子集输入分类模型进行分类预测。实验仿真结果表明,与改进前的基于邻域粗糙集的属性约简算法相比,所提出的方法具有较高预测精度和较快运行速度。  相似文献   

4.
针对邻域粗糙集采用全局邻域求解近似,存在计算时间复杂度高且无法对基因表达谱精确描述的问题,构造了基于主成分分析(PCA)和改进邻域粗糙集(NRS)算法的PNRS模型.首先采用PCA算法获得低维的特征基因空间;然后利用改进的多邻域粗糙集算法进行特征基因选择,即采用欧氏距离计算每列属性邻域值,选取所有属性邻域集合计算邻域决策系统的近似;最后采用启发式搜索算法选择特征基因子集.实验结果表明,PNRS模型能够在选择出较小的基因子集的情况下获得较高的分类精度,从而验证了该方法的有效性.  相似文献   

5.
魏峻 《河南科学》2015,(1):58-64
DNA微阵列数据通常含有成千上万个基因,其中含有大量与分类无关的基因和冗余基因,这些基因的存在会严重影响分类精度和效率.针对这一问题,提出一种基于改进的和声搜索算法的特征基因选择方法,首先采用Relief F算法对微阵列基因数据集排序,取排序靠前的N个基因构成初选基因子集,然后再利用改进的和声搜索算法选择特征基因.通过在3个公共微阵列数据集上的仿真实验,结果表明,该算法能够在更少的特征基因情况下达到很高的精度,是一种有效的特征基因选择算法.  相似文献   

6.
针对基因表达谱数据的高维度、低样本和连续型等特点,提出一种结合邻域互信息和自组织映射进行特征基因选取的方法.首先提出一种改进的Relief算法,对基因进行排序生成候选特征集合;然后提出基于邻域互信息的自组织映射算法对生成的候选特征基因进行聚类;最后利用提出的属性重要性系数从每一类簇中选择代表基因组成特征基因子集.实验结果表明,该方法可以快速有效地选取肿瘤特征基因,能获得较好的分类结果.  相似文献   

7.
针对基因表达谱数据的高维度、低样本和连续型等特点,提出一种结合邻域互信息和自组织映射进行特征基因选取的方法.首先提出一种改进的Relief算法,对基因进行排序生成候选特征集合;然后提出基于邻域互信息的自组织映射算法对生成的候选特征基因进行聚类;最后利用提出的属性重要性系数从每一类簇中选择代表基因组成特征基因子集.实验结果表明,该方法可以快速有效地选取肿瘤特征基因,能获得较好的分类结果.  相似文献   

8.
对于许多模式识别问题来说,特征选择是一个非常重要的数据预处理技术,这对于维数高,而样本又相对较小的微阵列数据来说更是如此.提出一种将粒计算与传统的SVM-RFE算法相结合的特征选择算法.这种算法能够有效地去除大部分与分类无关的基因;并且能够搜索到基因数量相对较少而分类能力相对较强的信息基因子集.  相似文献   

9.
特征选择作为一种常见的降维方法,一直以来都是机器学习和数据挖掘领域的热点话题.针对传统特征选择算法没有充分考虑特征全局冗余性,导致选择的特征子集对分类识别精度不够高的问题,提出基于复杂网络节点重要度评估和遗传算法的特征选择算法,将每个特征视为网络节点,根据互信息建立边,将特征选择问题转化为节点重要度评估问题,利用遗传算法选择最优特征子集.实验结果表明此算法能够找到较为优秀的特征子集,有效降维并提高分类精度.  相似文献   

10.
针对肿瘤基因数据因维度高和冗余基因较多而导致分类精度低的问题,提出一种基于PCA和信息增益的肿瘤特征基因选择方法.该方法首先使用PCA算法剔除冗余基因,获得预选特征基因子集;然后利用信息增益算法对预选特征基因子集进行优化选取,得到特征基因子集;最后采用不同分类模型对特征基因子集进行仿真实验.实验结果表明,所提方法提高了基因表达谱的分类精度,从而表明致病基因被有效地选取出来.  相似文献   

11.
为了更好地预处理未标记数据,大多数基于图正则的无监督特征选择算法通过构造样本的相似性矩阵来删除冗余信息并选择具有代表性的特征子集。这些方法中的大多数图都是用固定数量的近邻数来初始化,忽略了数据分布不均匀的问题。为了解决这个问题,提出了一种基于自适应邻域和自表示正则的无监督特征选择算法(Adaptive neighborhood regularized self-representation, ANRSR)来选择具有代表性和判别性的特征子集。为了保留局部内在结构,该算法将基于自适应邻域的流形正则化运用到自表示模型中,并利用了一种迭代方法来解决此优化问题。最后,选取4种经典的无监督特征选择算法,在几个基准数据集上进行了对比实验,验证所提算法能够选出具有更高聚类精度和互信息的判别性特征子集。  相似文献   

12.
通过寻找一个最优的特征子集,特征选择可以降低计算复杂度,提高分类精度以及结果的可理解性。提出基于大间隔信息粒化的特征选择算法,通过聚类等方式对原始数据进行单类信息粒化,然后在粒化的基础上构造了模糊间隔和类间隔2个评价指标进行特征评价。并分别在不同的数据上验证了这种特征选择方法的有效性,实验结果表明,基于大间隔粒计算的特征选择算法效果要优于其他的大间隔特征算法。  相似文献   

13.
在开放动态环境中,在线流特征选择是降低特征空间维度的有效方法 .现有的在线流特征选择算法能够有效地选择一个较优的特征子集,然而,这些算法忽略了类别中可能存在的层次结构.基于此,提出基于层次类别邻域粗糙集的在线流特征选择算法:首先,在邻域粗糙集中引入层次最近异类的邻域关系,避免邻域粒度的选择,借助层次结构计算特征对标记的层次依赖度,推广邻域粗糙集模型以适应层次类别数据;其次,基于层次依赖度提出三个在线特征评价函数,设计了在线相关选择、在线重要度计算和在线冗余更新的层次特征选择框架;最后,在六个层次类别数据集和八个扁平单标记数据集上的实验表明,提出的算法优于现有最先进的在线流特征选择算法.  相似文献   

14.
广义邻域粗集下的集成特征选择及其选择性集成算法   总被引:1,自引:1,他引:0  
针对实际模式识别系统中样本特征常具有的连续值属性、高维性、强相关性和冗余性等影响分类效果的问题,在广义邻域粗集模型下提出一种集成特征选择及其选择性集成算法.该算法先提取样本特征并利用所提出的马氏距离分布熵评估其重要度,再基于特征重要度构建广义邻域粗集模型,并在此模型上以特征重要度为启发式信息设计基于蚁群算法的属性约简算法,然后通过改变广义邻域粗集模型参数的方式获得更多具有更大差异性的基分类器,最后利用主成分分析法对产生的基分类器进行选择性集成.模拟电路故障诊断结果表明,该算法比AdaBoost等算法取得的分类精度至少提高了2.6%.  相似文献   

15.
邻域粗糙集和模糊粗糙集是粗糙集理论中处理数值型数据的两种重要模型.在数值型信息系统中融合两者在不确定性度量方面的优越性,首先引入了模糊邻域粗糙集模型,并在该模型上定义了模糊邻域粗糙度的概念.模糊邻域粗糙度是通过粗糙集的边界域来度量信息系统的不确定性,为了达到更为全面的度量效果,在模糊邻域粗糙集模型中定义了模糊邻域粒结构,并基于该粒结构提出了模糊邻域粒度的概念,模糊邻域粒度是对信息系统分类能力的一种度量.最后,通过将两种度量方法进行结合,提出了一种基于模糊邻域粗糙集的混合不确定性度量方法,并从理论上证明其有效性.实验结果表明,所提出的混合度量方法综合了两种单独度量方法的优点,在数值型信息系统中具有更好的度量效果,因此所提出的不确定性度量方法更具有一定的优越性.  相似文献   

16.
邻域粗糙集是经典Pawlak粗糙集的扩展,能够有效的处理数值型数据。因为引入了邻域粒化的概念,使用邻域粗糙集模型计算样本邻域度量属性重要度时,需要不断反复的对负域中的样本进行邻域划分操作,算法计算量很大。为此提出了一种基于Relief算法属性重要度的快速属性约简算法,降低计算邻域的算法时间复杂性。通过和现有算法运用多组UCI标准数据集进行比较,实验结果表明,在不降低分类精度的前提下,该算法能更快速地得到属性约简。  相似文献   

17.
鉴于DNA微阵列数据中无关基因和冗余基因对分类精度和效率的影响,提出一种基于全局和声搜索的特征基因选择方法,首先采用ReliefF算法对微阵列基因数据集排序,取排序靠前的N个基因构成初选基因子集,然后利用全局和声搜索算法选择特征基因.两个公共微阵列数据集上的仿真实验表明,该算法全局搜索能力强,分类精度高,能够有效地剔除噪声和冗余基因,是一种有效的特征基因选择算法.  相似文献   

18.
为解决过滤式和基于演化学习的包裹式两类特征选择算法的缺陷,提出一种新型包裹式特征选择算法LGBFS(LightGBM feature selection).首先引入LightGBM对原始特征构建迭代提升树模型并对特征重要度进行度量;随后结合提出的LR序列前向搜索策略LRSFFS对特征进行选择;最后将所提出算法与9种对比算法在21个标准数据集上进行对比,结果显示LGBFS在21个标准数据集中的16个取得最优分类精度、18个取得最优维度缩减率和最优CPU运行时间.还进行了时间复杂度分析与显著性检验,检验表明LGBFS相较6种对比算法具有显著性差异,也说明LGBFS能够同时兼顾特征子集的计算效率和分类精度.  相似文献   

19.
基于元启发式算法--乌鸦搜索算法(CrSA), 提出一种改进的基于乌鸦搜索算法的特征选择算法(IFSCrSA), 以解决目前特征选择问题中存在的不足. 通过与传统的机器学习特征选择算法和基于进化计算的特征选择算法进行比较, 结果表明, IFSCrSA能在数据集中选择辨识度较强的特征, 不仅大幅度降低了特征子集的规模, 而且提高了分类准确率.  相似文献   

20.
基于元启发式算法--乌鸦搜索算法(CrSA), 提出一种改进的基于乌鸦搜索算法的特征选择算法(IFSCrSA), 以解决目前特征选择问题中存在的不足. 通过与传统的机器学习特征选择算法和基于进化计算的特征选择算法进行比较, 结果表明, IFSCrSA能在数据集中选择辨识度较强的特征, 不仅大幅度降低了特征子集的规模, 而且提高了分类准确率.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号