首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 234 毫秒
1.
将基于单隐层前馈神经网络(SLFN)提出的极速学习机(ELM)算法和邻域粗糙集理论进行结合,提出基于邻域粗糙集的极速学习机算法,采用邻域粗糙集对样本集进行属性约简,去掉冗余属性,利用ELM对约简后的数据集进行学习,并对数据样本进行预测。实验表明ELM算法相比具有更高的训练精度和测试精度。  相似文献   

2.
冗余属性过多是影响分类算法运行效率和准确率的重要因素。为了提高分类算法的运行效率和分类准确率,提出一种基于改进邻域粗糙集属性重要度的快速属性约简算法。首先,提出一种改进的KNN属性重要度;其次,利用改进过属性重要度的邻域粗糙集对原始数据的条件属性进行重要度排序,利用排序结果对原始数据进行属性约简,得到约简后的特征子集;最后,将约简后的特征子集输入分类模型进行分类预测。实验仿真结果表明,与改进前的基于邻域粗糙集的属性约简算法相比,所提出的方法具有较高预测精度和较快运行速度。  相似文献   

3.
邻域粗糙集是经典Pawlak粗糙集的扩展,能够有效的处理数值型数据。因为引入了邻域粒化的概念,使用邻域粗糙集模型计算样本邻域度量属性重要度时,需要不断反复的对负域中的样本进行邻域划分操作,算法计算量很大。为此提出了一种基于Relief算法属性重要度的快速属性约简算法,降低计算邻域的算法时间复杂性。通过和现有算法运用多组UCI标准数据集进行比较,实验结果表明,在不降低分类精度的前提下,该算法能更快速地得到属性约简。  相似文献   

4.
在多标记学习中,属性约简是解决多标记数据维数灾难的一个关键技术.针对邻域粗糙集属性约简在计算正域代价较大和多标记数据中标记具有不同的强弱性问题,提出了基于邻域粗糙集的多标记属性约简算法.该算法首先利用样本在整个属性空间下到其异类样本的平均距离与到其同类样本的平均距离的差值对标记进行加权;其次,利用取整函数对样本空间进行划分,提出了一种新的多标记邻域粗糙集快速计算正域的方法;最后,根据前向贪心搜索算法进行属性约简,以获得一组新的属性排序.实验给出了5个多标记数据集在4个评价准则上的对比结果,实验结果分析表明了所提算法的有效性.  相似文献   

5.
在分析单一、给定的邻域大小设定方法弊端的基础上,提出了基于属性数据标准差的阁值设定方法,并将蚁群优化算法引入到属性约简中,以属性重要度为启发信息,构造了基于邻域粗糙集和蚁群优化的属性约简算法,使用了4个UCI数据集进行约简.实验结果表明,提出的算法在约简的分类精度和约简中属性个数方面具有更好的性能.  相似文献   

6.
基于邻域粗糙集的属性约简模型既受邻域半径参数值的影响,又不能评估属性与样本对象之间的内在关系.为此,本文先提出鲁棒近邻来确认对象的邻域,计算出若干个与样本对象最近同类与最近异类对象距离的平均值,然后依据分类区分函数的定义来确定近邻类的邻域半径大小,构造了鲁棒近邻粗糙集模型.最后按照其模型,基于样本对象对属性的评价准则提出了鲁棒近邻的属性约简算法.该算法模型分别在CART,KNN和LSVM三个分类器和10个样本数据集中测试运行,实验效果表明该模型不但可以筛选得到较少的属性集,而且还可以有效提高分类精度.  相似文献   

7.
变精度邻域粗糙集相比于邻域粗糙集具有抗噪容错的能力,但由于重新定义了下近似,正域的划分不再严格,使得属性重要度的可信度降低,在精度改变的情况下无法优先选取最优的属性.针对这一问题,分析变精度邻域粗糙集的下近似,引入邻域内的正确分类率,定义属性质量度,提出一种基于正域的增量和平均正确分类率的增率相结合的属性度量方法.通过和现有的基于属性重要度的属性约简算法做比较,实验结果表明,改进后的属性度量方法对变精度有更好的适应性,在不同变精度阈值下能得到更优的约简结果.  相似文献   

8.
传统的肿瘤基因选择算法挑选出的特征基因中存在大量噪声基因和冗余基因,从而对基因算法的准确性和分类精度产生影响.针对这一问题,将K-S检验与邻域粗糙集融合成为一种新的特征选择方法.首先,采用累积分布函数计算正负类样本的累积函数值和K-S检验统计量,对照显著性水平下的样本统计量,从而去除冗余基因和噪声基因;然后,使用邻域粗糙集进行约简,对比条件属性重要度得出最优约简结果;最后,对比K-S检验和两种基于K-S检验的特征选择方法得到的冗余度和分类精度,通过实验验证这种方法不仅能准确挑选出具有显著区分能力的肿瘤基因,且效率高具有可行性.  相似文献   

9.
利用邻域粗糙集处理数值型数据,可以解决经典粗糙集不能直接处理数值型数据的问题,改进后的变精度邻域粗糙集可以增强抗噪声的能力。但变精度邻域粗糙集的属性约简有不同于邻域粗糙集的特性,需要考虑每个决策类的下近似分布。文中提出可以遵循平均错误率来约简属性,减少计算规模。实验证明,使用UCI数据集与其它算法进行了比较,该算法可以获得理想的结果。  相似文献   

10.
δ-邻域计算是邻域粗糙集模型中操作最为频繁和复杂的。针对邻域计算,提出了利用多阈值替代单一阈值,并根据样本空间的分布,提出块集概念,证明了每个样本的邻域只存在于与之相邻的块集中。在此基础上,提出基于块集的多阈值邻域粗糙集的属性约简算法,降低了计算邻域的时间复杂性,并利用多个UCI标准数据集对该算法进行验证,结果表明,该算法行之有效。  相似文献   

11.
属性约简是粗糙集理论研究的一个基本问题,它是一种有效的数据约简方法。然而,目前很多的属性约简算法在面对高维数据集时仍然不够高效。文中利用图论的相关理论和方法,对基于区分矩阵的粗糙集属性约简方法给出了直观和等价的刻画。在此基础上提出了基于图论的粗糙集属性约简方法。实验结果表明,新的属性约简算法在面对较大规模的数据集,尤其是高维的数据集时,不仅能有效地降低数据的维数,同时运行速度快且能保持较高的分类精度。  相似文献   

12.
面对生活中数据信息量大的问题,常使用粗糙集对数据进行知识约简,消除数据中冗余的部分。但大多数研究没有考虑约简后对原有分类的影响;常使用的朴素贝叶斯算法又难以获得其先验概率。基于上述问题,本文提出了一种基于粗糙集的贝叶斯分类算法:首先利用粗糙集中决策属性和条件属性之间的依赖关系,进行属性约简,消除冗余的数据,然后通过贝叶斯算法对约简后的数据进行知识挖掘,最后通过对故障源数据的对比分析。该方法既避开了朴素贝叶斯算法对先验概率的要求,又使得数据分类和预测能力有了明显提升。  相似文献   

13.
对于数值型数据而言,邻域粗糙集模型是处理不确定信息的有效工具.现有的邻域粗糙集模型仅关注那些邻域中所有样本都属于同一个决策类的一致性情形,无法利用邻域中与多个决策类相交的边界样本所蕴含的信息.针对邻域粗糙集的这一局限性,将相容关系的极大相容块与邻域粗糙集相结合,选取样本邻域内的最大等价块作为最小的信息粒,通过重新定义邻域粗糙集的上下近似和属性重要度等概念,建立了一种基于极大相容块的邻域粗糙集模型.该模型可在更小的信息粒度下将原来边界样本转化成一致性样本来增大正域.运用前向贪婪策略构建了相应的属性约简算法.在七个公开的UCI数据集上的对比实验验证了提出模型的有效性.  相似文献   

14.
实际应用中的大量数据具有不确定属性,而传统的挖掘算法无法直接应用在不确定数据集上.针对不确定数据的分类问题,提出一种基于抽样方法的不确定极限学习机.该算法通过抽样的方法,对不确定数据集中样本的抽样实例进行学习和分类,得到该不确定样本的所属类别的概率,从而实现了传统极限学习机分类算法对不确定数据的分类,并极大降低了不确定对象实例的枚举代价.实验结果表明,该算法在不确定数据的分类问题中具有较好的有效性和高效性.  相似文献   

15.
为了去除系统中的冗余属性,保持系统的分类能力,研究了连续值分布式数据的属性约简.给出了连续值分布式决策信息系统中邻域粗糙集的定义,讨论了分布式连续值决策信息系统中正域计算的可分解性.以保持分布式决策信息系统的正域不变为前提,探讨了分布式决策信息系统中属性的可约性,提出了分布式连续值决策信息系统的属性约简算法.为了验证该算法的有效性,在7份数据集上进行了3组实验.实验使用提出的算法对分布式数据进行属性约简,进而采用加权集成的方式进行分类测试.实验结果表明,该算法能够有效去除连续值分布式数据中的冗余属性,使得约简后的连续值分布式数据的集成分类能力与约简前相差不大.甚至更高.  相似文献   

16.
粗糙集理论是一种有效的属性约简方法,但不能直接处理实值数据。针对此问题,本文首先介绍了邻域和覆盖的概念,在此基础上构造了覆盖自约简和覆盖间约简(属性约简)算法;然后通过讨论邻域内各样本之间关系,提出了相斥元的定义,相斥元的存在可能导致决策正域计算错误,从而得到不符合数据表实际情况的属性依赖性,因此给出了分解相斥元的方法;最后在四个实值的基因表达数据库上进行了实验,结果表明该属性约简算法是有效的,并相对于现有其他算法具有较高的分类精度。  相似文献   

17.
针对旋转机械故障诊断知识获取困难的问题,将邻域粗糙集和Fisher(费舍)判别法相结合,对从故障数据库中提取决策规则的方法进行了研究.首先基于邻域粗糙集理论对转子故障的时域特征属性集进行属性约简,据此达到消除冗余属性的目的,然后再依据费舍判别法对故障数据集进行故障模式识别.通过处理转子实验台数据来对该方法进行的验证以及与传统方法进行的对比情况表明:本方法在节省数据存储空间的同时还具有能够获得较准确的故障分类决策规则能力.  相似文献   

18.
文根据一种基于粗糙集理论的数据挖掘方法,以市场调查数据为研究对象,通过适当的约简算法,得出简化的决策集,分析私家车潜在消费者群体特征。提出了一种启发式的约简算法,在属性约简之前,首先定义了一种条件属性分类能力强度,根据各属性分类能力强度对决策表进行排序,然后采用逐行扫描的方法逐条判断属性是否为不必要属性,解决了属性约简可能出现多个约简结果需要靠人为选取满意结果的问题。  相似文献   

19.
邻域系统是一种数值信息粒度计算模型,该模型可以直接分析数值型数据,拓展了经典粗糙集理论的应用范围。邻域系统中现有的增量算法基本上都是从代数观下分析其变化情况。文章从信息观角度出发,分析了当批量增加样本后,新条件熵的变化机制,并分析出决定条件熵变化的是新增批量样本的不一致邻域,进而导致约简集的变化。基于此,提出一种信息观下批增量式属性约简算法,该算法只需找到新增的不一致邻域,并与新增样本一起进行约简,避免了有重复的约简,大大地减少了计算量,从而能够迅速得到更新后的约简集。最后分析了算法的复杂度,并且通过相关的实验验证了本文算法的有效性和高效性。  相似文献   

20.
构造了融合粗糙集与球形支持向量机的多分类识别模型,提出了基于相对距离的球形支持向量机多分类识别算法。首先,通过粗糙集对样本集进行属性约简;然后,对约简后的样本集运用球形支持向量机进行训练,对于未知样本,按照未知样本到各类球心相对距离的大小进行分类,将未知样本归入相对距离较小的一类中去;最后,仿真结果证明:该方法可以有效地消除冗余属性,降低支持向量机的样本输入维数,提高了泛化能力。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号