首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 31 毫秒
1.
基于邻域关系提出一种综合考虑正域和边界数据的属性约简方法.该方法利用邻域关系对数据进行离散化处理,通过定义基于邻域的正域属性重要度、边界属性重要度和邻域综合属性重要度概念,设计一种新的启发式属性简约算法.该算法从空约简集出发,利用邻域属性重要度启发式搜索属性空间以扩展约简属性集,理论分析和实验表明该算法有效可行.  相似文献   

2.
邻域粗糙集是经典Pawlak粗糙集的扩展,能够有效的处理数值型数据。因为引入了邻域粒化的概念,使用邻域粗糙集模型计算样本邻域度量属性重要度时,需要不断反复的对负域中的样本进行邻域划分操作,算法计算量很大。为此提出了一种基于Relief算法属性重要度的快速属性约简算法,降低计算邻域的算法时间复杂性。通过和现有算法运用多组UCI标准数据集进行比较,实验结果表明,在不降低分类精度的前提下,该算法能更快速地得到属性约简。  相似文献   

3.
对于数值型数据而言,邻域粗糙集模型是处理不确定信息的有效工具.现有的邻域粗糙集模型仅关注那些邻域中所有样本都属于同一个决策类的一致性情形,无法利用邻域中与多个决策类相交的边界样本所蕴含的信息.针对邻域粗糙集的这一局限性,将相容关系的极大相容块与邻域粗糙集相结合,选取样本邻域内的最大等价块作为最小的信息粒,通过重新定义邻域粗糙集的上下近似和属性重要度等概念,建立了一种基于极大相容块的邻域粗糙集模型.该模型可在更小的信息粒度下将原来边界样本转化成一致性样本来增大正域.运用前向贪婪策略构建了相应的属性约简算法.在七个公开的UCI数据集上的对比实验验证了提出模型的有效性.  相似文献   

4.
利用邻域粗糙集处理数值型数据,可以解决经典粗糙集不能直接处理数值型数据的问题,改进后的变精度邻域粗糙集可以增强抗噪声的能力。但变精度邻域粗糙集的属性约简有不同于邻域粗糙集的特性,需要考虑每个决策类的下近似分布。文中提出可以遵循平均错误率来约简属性,减少计算规模。实验证明,使用UCI数据集与其它算法进行了比较,该算法可以获得理想的结果。  相似文献   

5.
将基于单隐层前馈神经网络(SLFN)提出的极速学习机(ELM)算法和邻域粗糙集理论进行结合,提出基于邻域粗糙集的极速学习机算法,采用邻域粗糙集对样本集进行属性约简,去掉冗余属性,利用ELM对约简后的数据集进行学习,并对数据样本进行预测。实验表明ELM算法相比具有更高的训练精度和测试精度。  相似文献   

6.
δ-邻域计算是邻域粗糙集模型中操作最为频繁和复杂的。针对邻域计算,提出了利用多阈值替代单一阈值,并根据样本空间的分布,提出块集概念,证明了每个样本的邻域只存在于与之相邻的块集中。在此基础上,提出基于块集的多阈值邻域粗糙集的属性约简算法,降低了计算邻域的时间复杂性,并利用多个UCI标准数据集对该算法进行验证,结果表明,该算法行之有效。  相似文献   

7.
互补决策约简是一种多标记数据属性约简方法,当数据规模较大时,其启发式算法的计算耗时较大。基于粗糙集理论,对互补决策约简启发式算法的加速算法进行了研究。当粒度由粗变细时,在逐步去掉正域的数据集上,首先研究互补决策约简中属性外部重要度的保序性质;基于此,通过逐步缩小数据规模来降低计算约简的耗时,提出了互补决策约简加速算法。加速算法不仅减少了属性约简的计算时间,而且能够保持原始算法的约简结果。  相似文献   

8.
变精度邻域粗糙集相比于邻域粗糙集具有抗噪容错的能力,但由于重新定义了下近似,正域的划分不再严格,使得属性重要度的可信度降低,在精度改变的情况下无法优先选取最优的属性.针对这一问题,分析变精度邻域粗糙集的下近似,引入邻域内的正确分类率,定义属性质量度,提出一种基于正域的增量和平均正确分类率的增率相结合的属性度量方法.通过和现有的基于属性重要度的属性约简算法做比较,实验结果表明,改进后的属性度量方法对变精度有更好的适应性,在不同变精度阈值下能得到更优的约简结果.  相似文献   

9.
为了去除系统中的冗余属性,保持系统的分类能力,研究了连续值分布式数据的属性约简.给出了连续值分布式决策信息系统中邻域粗糙集的定义,讨论了分布式连续值决策信息系统中正域计算的可分解性.以保持分布式决策信息系统的正域不变为前提,探讨了分布式决策信息系统中属性的可约性,提出了分布式连续值决策信息系统的属性约简算法.为了验证该算法的有效性,在7份数据集上进行了3组实验.实验使用提出的算法对分布式数据进行属性约简,进而采用加权集成的方式进行分类测试.实验结果表明,该算法能够有效去除连续值分布式数据中的冗余属性,使得约简后的连续值分布式数据的集成分类能力与约简前相差不大.甚至更高.  相似文献   

10.
粗糙集理论是一种有效的属性约简方法,但不能直接处理实值数据。针对此问题,本文首先介绍了邻域和覆盖的概念,在此基础上构造了覆盖自约简和覆盖间约简(属性约简)算法;然后通过讨论邻域内各样本之间关系,提出了相斥元的定义,相斥元的存在可能导致决策正域计算错误,从而得到不符合数据表实际情况的属性依赖性,因此给出了分解相斥元的方法;最后在四个实值的基因表达数据库上进行了实验,结果表明该属性约简算法是有效的,并相对于现有其他算法具有较高的分类精度。  相似文献   

11.
基于邻域粗糙集的属性约简模型既受邻域半径参数值的影响,又不能评估属性与样本对象之间的内在关系.为此,本文先提出鲁棒近邻来确认对象的邻域,计算出若干个与样本对象最近同类与最近异类对象距离的平均值,然后依据分类区分函数的定义来确定近邻类的邻域半径大小,构造了鲁棒近邻粗糙集模型.最后按照其模型,基于样本对象对属性的评价准则提出了鲁棒近邻的属性约简算法.该算法模型分别在CART,KNN和LSVM三个分类器和10个样本数据集中测试运行,实验效果表明该模型不但可以筛选得到较少的属性集,而且还可以有效提高分类精度.  相似文献   

12.
为了更快速地得到属性约简结果,对现有F2HARNRS算法的正域计算进行了改进。采取保留策略,利用矩阵保留样本间的度量计算值的平方,使得增维后的度量计算量减少,并据此提出了一种快速属性约简算法。最后通过多个UCI数据集验证了该算法,实验结果表明该算法是有效的、可行的。  相似文献   

13.
经典的粗糙集理论对直觉模糊目标信息系统不能直接进行知识约简.为此,首先在直觉模糊目标信息系统中引入优势关系,给出了基于优势关系的直觉模糊粗糙集定义;然后将经典粗糙集理论中的相对正域、属性依赖度以及属性重要性等概念推广至直觉模糊环境中,同时证明了直觉模糊目标信息系统的相对正域具有单调性的特征;结合属性的不同特征以及正域约简的定义给出了正域约简的判定定理,从而设计出以属性重要性为启发式信息的正域约简算法,并给出算法的复杂度分析;最后通过数据实验验证了算法的有效性.  相似文献   

14.
在邻域粗糙集的研究中,往往借助给定的半径来约束样本之间的相似性进而实现邻域信息粒化,需要注意的是,若给定的半径较大,则不同类别的样本将落入同一邻域中,易引起邻域中信息的不精确或不一致.为改善这一问题,已有学者给出了伪标记邻域的策略,然而无论是传统邻域还是伪标记邻域,都仅仅使用样本间的距离来度量样本之间的相似性,忽略了邻域信息粒内部不同样本所对应的邻域之间的结构关系.鉴于此,通过引入邻域距离度量,提出一种共现邻域的信息粒化机制,并构造了新型的共现邻域以及伪标记共现邻域粗糙集模型,在此基础上使用前向贪心搜索策略实现了所构造的两种模型下的约简求解.实验结果表明,与传统邻域关系以及伪标记邻域关系所求得的约简相比,利用共现邻域方法求得的约简能够在不降低分类器准确率的前提下产生更高的约简率.  相似文献   

15.
在分析单一、给定的邻域大小设定方法弊端的基础上,提出了基于属性数据标准差的阁值设定方法,并将蚁群优化算法引入到属性约简中,以属性重要度为启发信息,构造了基于邻域粗糙集和蚁群优化的属性约简算法,使用了4个UCI数据集进行约简.实验结果表明,提出的算法在约简的分类精度和约简中属性个数方面具有更好的性能.  相似文献   

16.
冗余属性过多是影响分类算法运行效率和准确率的重要因素。为了提高分类算法的运行效率和分类准确率,提出一种基于改进邻域粗糙集属性重要度的快速属性约简算法。首先,提出一种改进的KNN属性重要度;其次,利用改进过属性重要度的邻域粗糙集对原始数据的条件属性进行重要度排序,利用排序结果对原始数据进行属性约简,得到约简后的特征子集;最后,将约简后的特征子集输入分类模型进行分类预测。实验仿真结果表明,与改进前的基于邻域粗糙集的属性约简算法相比,所提出的方法具有较高预测精度和较快运行速度。  相似文献   

17.
针对传统粗糙集算法准确率较低,精度较差,分析大规模数据时难以获得理想结果等问题,提出了基于互信息的属性约简改进算法。为了提高算法精度,引入了对条件熵的计算;采用条件概率考量属性重要性,降低了算法的复杂度;计算时,优先计算数据相容性,优化了样本计算数量;利用多组数据集,对比不同分类器和现有算法。实验结果表明,在不增加时间复杂度前提下,改进算法能得到更好的约简规则,获取理想的约简结果。  相似文献   

18.
在对网络安全发起攻击的恶意DoH流量数据中,存在属性特征影响恶意DoH流量攻击目标达成,使用基于邻域粗糙集的极限学习机决策分析方法建立恶意DoH流量预警模型,可为恶意DoH流量预警提供决策支持。首先运用邻域粗糙集属性约简算法对高维DoH流量特征进行降维,并得到约简后的属性重要度,然后利用极限学习机算法测试评估约简后的属性特征对数据样本的分类正确率。应用实例表明,在保证样本类别比例与原数据集一致的前提下,约简后的属性特征对样本数据具有足够高的分类准确率,验证了文中所提基于邻域粗糙集的极限学习机决策分析方法能有效地简化恶意DoH流量安全评价的复杂度。  相似文献   

19.
多标记学习研究的是一个对象同时具有多个标记的一类复杂问题.文本标注、视频内容标注、图像识别和蛋白质功能的发现等都属于这类任务.与单标记学习问题一样,多标记学习也遭遇到了数据维数大的挑战.针对多标记数据,目前已经设计出一些约简算法,但与单标记约简算法相比,方法数量有限且局限性大.随着大数据时代的到来,收集大量样本越来越容易,但标注收集到的全部样本不切实际.这给想要通过利用粗糙集模型来解决多标记学习问题的研究人员带来了三个挑战:数据维数更高、现有粗糙集的局限性和部分标记决策表的出现.为了解决这三个挑战,提出了面向多标记学习的局部粗糙集模型,并获得了一些有意思的性质.最后,通过利用局部粗糙集模型,设计了一个多标记的启发式约简算法,并在三个公开的多标记数据集上验证了算法的有效性.  相似文献   

20.
文中提出一种离散和连续混合属性的复杂信息系统增量式属性约简算法.首先,将粒计算模型中的知识粒度在混合型信息系统下进行推广,提出了邻域知识粒度,并构造出基于邻域知识粒度的非增量式属性约简算法,然后在混合型信息系统下研究了邻域知识粒度随对象增加时的增量式计算,理论证明了该计算方式的高效性,最后提出了基于邻域知识粒度的混合信息系统增量式属性约简算法.UCI数据集的实验结果表明,所提出的算法在混合型信息系统中具有很高的增量式属性约简性能.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号