首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 390 毫秒
1.
冗余属性过多是影响分类算法运行效率和准确率的重要因素。为了提高分类算法的运行效率和分类准确率,提出一种基于改进邻域粗糙集属性重要度的快速属性约简算法。首先,提出一种改进的KNN属性重要度;其次,利用改进过属性重要度的邻域粗糙集对原始数据的条件属性进行重要度排序,利用排序结果对原始数据进行属性约简,得到约简后的特征子集;最后,将约简后的特征子集输入分类模型进行分类预测。实验仿真结果表明,与改进前的基于邻域粗糙集的属性约简算法相比,所提出的方法具有较高预测精度和较快运行速度。  相似文献   

2.
针对基因表达数据集的基因选择问题,采用邻域熵度量与蚁群优化原理,提出一种基因选择方法.首先,引入邻域粗糙集模型对基因数据进行邻域粒化,定义邻域熵度量用于剔除冗余基因构成预选择基因子集;然后,采用邻域熵构造基因重要度作为启发式信息,发挥蚁群优化算法的分布式、正反馈及全局寻优的优势,运用蚁群优化算法从预选择基因子集中搜索出最小基因子集;最后,在选取的最小基因子集上进行分类测试.实验表明:建立在该最小基因子集上的分类器具有良好的分类性能.  相似文献   

3.
针对肿瘤基因数据因维度高和冗余基因较多而导致分类精度低的问题,提出一种基于PCA和信息增益的肿瘤特征基因选择方法.该方法首先使用PCA算法剔除冗余基因,获得预选特征基因子集;然后利用信息增益算法对预选特征基因子集进行优化选取,得到特征基因子集;最后采用不同分类模型对特征基因子集进行仿真实验.实验结果表明,所提方法提高了基因表达谱的分类精度,从而表明致病基因被有效地选取出来.  相似文献   

4.
提出了一种基于二进制灰狼算法和邻域粗糙集的案例推理分类算法(bGWO-NRSCBR),以有效处理工控网络数据样本高维、冗余的问题。首先,将邻域粗糙集(NRS)中的依赖度概念和属性个数作为二进制灰狼优化算法(bGWO)的适应度函数,通过狼群不断更新位置寻找最小相对属性集;然后基于属性重要度对权重进行优化分配从而建立案例推理(CBR)分类模型;最后利用该模型对工控网络标准数据集进行入侵检测研究。实验结果表明,本文算法能够获得最小相对属性子集,并有效提高入侵检测算法的准确度和效率。  相似文献   

5.
数据特征空间的高维性使得学习过程耗费了相对较多的时间,而且可能影响分类性能.邻域粗糙集模型可以用来解决特征选择问题,但该模型未能描述现实存在的样本的模糊性,可能导致信息的丢失.因此,建立了一种新的单标记特征选择模型,采用两种不同的隶属度计算方法获得样本对等价类的模糊隶属度,将每个等价类中最小隶属度值作为隶属度阈值.然后利用邻域样本隶属度与阈值的关系重新定义邻域粗糙上、下近似,进而通过衡量决策属性对特征子集依赖度的大小进行特征选择.在七个公开的UCI数据集上进行了实验,实验结果表明,与已有的几种特征选择方法相对比,分类准确度得到了进一步提高,选择的特征数目明显减少.  相似文献   

6.
针对基因表达谱数据的高维度、低样本和连续型等特点,提出一种结合邻域互信息和自组织映射进行特征基因选取的方法.首先提出一种改进的Relief算法,对基因进行排序生成候选特征集合;然后提出基于邻域互信息的自组织映射算法对生成的候选特征基因进行聚类;最后利用提出的属性重要性系数从每一类簇中选择代表基因组成特征基因子集.实验结果表明,该方法可以快速有效地选取肿瘤特征基因,能获得较好的分类结果.  相似文献   

7.
针对基因表达谱数据的高维度、低样本和连续型等特点,提出一种结合邻域互信息和自组织映射进行特征基因选取的方法.首先提出一种改进的Relief算法,对基因进行排序生成候选特征集合;然后提出基于邻域互信息的自组织映射算法对生成的候选特征基因进行聚类;最后利用提出的属性重要性系数从每一类簇中选择代表基因组成特征基因子集.实验结果表明,该方法可以快速有效地选取肿瘤特征基因,能获得较好的分类结果.  相似文献   

8.
利用邻域粗糙集处理数值型数据,可以解决经典粗糙集不能直接处理数值型数据的问题,改进后的变精度邻域粗糙集可以增强抗噪声的能力。但变精度邻域粗糙集的属性约简有不同于邻域粗糙集的特性,需要考虑每个决策类的下近似分布。文中提出可以遵循平均错误率来约简属性,减少计算规模。实验证明,使用UCI数据集与其它算法进行了比较,该算法可以获得理想的结果。  相似文献   

9.
特征选择是一项重要的数据预处理技术,其目的是在不降低数据分类精度情形下选择一个特征子集,从而对原数据集达到降维的效果,同时也提高学习算法的性能.在邻域粗糙集模型中,传统方法构造出的对象邻域粒未考虑数据的分布问题,使得邻域粒存在一定的误差.首先通过方差来刻画数据的分布,然后根据数据分布提出一种改进的邻域粒,这种改进的邻域粒能够自适应数据的分布,有着较好的优越性,最后将改进邻域粒与邻域模糊熵结合,提出一种特征重要度的评估方式,并给出对应的特征选择算法.实验结果表明,新提出的特征选择算法在特征选择结果、时间消耗和特征子集的分类精度方面都更具一定的优越性.  相似文献   

10.
在开放动态环境中,在线流特征选择是降低特征空间维度的有效方法 .现有的在线流特征选择算法能够有效地选择一个较优的特征子集,然而,这些算法忽略了类别中可能存在的层次结构.基于此,提出基于层次类别邻域粗糙集的在线流特征选择算法:首先,在邻域粗糙集中引入层次最近异类的邻域关系,避免邻域粒度的选择,借助层次结构计算特征对标记的层次依赖度,推广邻域粗糙集模型以适应层次类别数据;其次,基于层次依赖度提出三个在线特征评价函数,设计了在线相关选择、在线重要度计算和在线冗余更新的层次特征选择框架;最后,在六个层次类别数据集和八个扁平单标记数据集上的实验表明,提出的算法优于现有最先进的在线流特征选择算法.  相似文献   

11.
传统的肿瘤基因选择算法挑选出的特征基因中存在大量噪声基因和冗余基因,从而对基因算法的准确性和分类精度产生影响.针对这一问题,将K-S检验与邻域粗糙集融合成为一种新的特征选择方法.首先,采用累积分布函数计算正负类样本的累积函数值和K-S检验统计量,对照显著性水平下的样本统计量,从而去除冗余基因和噪声基因;然后,使用邻域粗糙集进行约简,对比条件属性重要度得出最优约简结果;最后,对比K-S检验和两种基于K-S检验的特征选择方法得到的冗余度和分类精度,通过实验验证这种方法不仅能准确挑选出具有显著区分能力的肿瘤基因,且效率高具有可行性.  相似文献   

12.
针对目前基于粗糙集模型的特征选择算法无法直接应用于数值型数据、必须经过离散化过程而造成决策信息丢失的问题,提出了一种基于邻域决策分辨率的特征选择算法。该算法根据邻域信息粒中决策分布与其分类能力间的关系,提出了邻域决策确定性(Nc)来衡量单个信息粒的决策分辨能力;并根据特征向量空间上所有信息粒所具有的Nc累加值,定义了邻域决策分辨率作为特征子集上决策可分辨性的量度,从而将名义型和数值型数据统一在同一特征选择算法框架下。仿真实验和实际应用的结果表明,该算法性能优于目前主流基于邻域粗糙集的特征选择方法。  相似文献   

13.
为了提高模糊粗糙集特征选择算法的计算效率,在每次迭代过程中通过不断缩减样本和特征的搜索范围,提出了一种新的模糊粗糙集特征选择算法.为了减少样本的搜索范围,利用样本对决策类下近似隶属度的单调性,构建样本的筛选机制,用以筛除当前所选特征子集已保持决策类下近似隶属度的样本;为了缩减特征的搜索范围,采用特征冗余性概念,构建特征搜索机制,用以移除已被确定为冗余的特征;通过融合样本筛选机制和特征搜索准则,设计模糊粗糙集特征选择的高效算法.数值实验表明,所提算法具有高效性和有效性.  相似文献   

14.
邻域粗糙集是经典Pawlak粗糙集的扩展,能够有效的处理数值型数据。因为引入了邻域粒化的概念,使用邻域粗糙集模型计算样本邻域度量属性重要度时,需要不断反复的对负域中的样本进行邻域划分操作,算法计算量很大。为此提出了一种基于Relief算法属性重要度的快速属性约简算法,降低计算邻域的算法时间复杂性。通过和现有算法运用多组UCI标准数据集进行比较,实验结果表明,在不降低分类精度的前提下,该算法能更快速地得到属性约简。  相似文献   

15.
基于贝叶斯粗糙集的文本特征选择方法   总被引:3,自引:1,他引:2  
特征选择是文本分类的一个核心研究课题.首先给出了一个基于最小词频的文档频,然后简单分析了经典粗糙集和变精度粗糙集的不足,紧接着把贝叶斯粗糙集引入进来并提出了一个属性约简算法,最后把该属性约简算法同基于最小词频的文档频结合起来,提出了一个综合的特征选择方法.该综合方法首先利用基于最小词频的文档频提取初始特征,然后利用所提属性约简算法消除冗余,从而获得较具代表性的特征子集.实验结果表明,该算法是有效的.  相似文献   

16.
对于数值型数据而言,邻域粗糙集模型是处理不确定信息的有效工具.现有的邻域粗糙集模型仅关注那些邻域中所有样本都属于同一个决策类的一致性情形,无法利用邻域中与多个决策类相交的边界样本所蕴含的信息.针对邻域粗糙集的这一局限性,将相容关系的极大相容块与邻域粗糙集相结合,选取样本邻域内的最大等价块作为最小的信息粒,通过重新定义邻域粗糙集的上下近似和属性重要度等概念,建立了一种基于极大相容块的邻域粗糙集模型.该模型可在更小的信息粒度下将原来边界样本转化成一致性样本来增大正域.运用前向贪婪策略构建了相应的属性约简算法.在七个公开的UCI数据集上的对比实验验证了提出模型的有效性.  相似文献   

17.
变精度邻域粗糙集相比于邻域粗糙集具有抗噪容错的能力,但由于重新定义了下近似,正域的划分不再严格,使得属性重要度的可信度降低,在精度改变的情况下无法优先选取最优的属性.针对这一问题,分析变精度邻域粗糙集的下近似,引入邻域内的正确分类率,定义属性质量度,提出一种基于正域的增量和平均正确分类率的增率相结合的属性度量方法.通过和现有的基于属性重要度的属性约简算法做比较,实验结果表明,改进后的属性度量方法对变精度有更好的适应性,在不同变精度阈值下能得到更优的约简结果.  相似文献   

18.
针对目标属性识别的特点,建立了基于粗糙集(Rough Sets, RS)的数据分组处理(Group Method of Data Handling, GMDH)神经网络分类模型.该模型较好地解决了采用高维数据集训练神经网络效率低,神经网络结构规模较大的问题.同时为了提高高维数据集合的属性约简效率,改进了集合近似质量属性约简算法.最后,通过与BP(Back-Propagation, BP)神经网络分类能力的仿真对比,结果表明,基于粗糙集的数据分组处理神经网络分类模型分类能力优于BP神经网络模型,满足现代防空作战对目标属性识别的需求,基于快速求核和集合近似质量的属性约简算法快速有效.  相似文献   

19.
在多标记学习中,属性约简是解决多标记数据维数灾难的一个关键技术.针对邻域粗糙集属性约简在计算正域代价较大和多标记数据中标记具有不同的强弱性问题,提出了基于邻域粗糙集的多标记属性约简算法.该算法首先利用样本在整个属性空间下到其异类样本的平均距离与到其同类样本的平均距离的差值对标记进行加权;其次,利用取整函数对样本空间进行划分,提出了一种新的多标记邻域粗糙集快速计算正域的方法;最后,根据前向贪心搜索算法进行属性约简,以获得一组新的属性排序.实验给出了5个多标记数据集在4个评价准则上的对比结果,实验结果分析表明了所提算法的有效性.  相似文献   

20.
针对高维数据集中冗余特征或无关特征降低机器学习模型分类准确率的问题,提出了一种基于近似马尔科夫毯的特征选择(nmRMR)算法。该算法首先利用最大相关最小冗余的准则进行特征相关性排序;采用近似马尔科夫毯算法对冗余特征或者无关特征进行删除,并最大程度地提高特征之间的相关性从而获得最优特征子集。在UCI的8个公开数据集上对比的实验结果表明:与mRMR算法相比,本文算法所选择出的特征子集数平均减少了6.875个,平均分类准确率提高了0.78%;与FullSet算法相比,本文算法所选择出的特征子集数平均减少了20.56个,平均分类准确率提高了1.88%;与FCBF算法相比,本文算法所选择出的特征子集数平均减少了3.187 5个,平均分类准确率提高了0.825%;本文算法总体优于其他算法。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号