期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

朱颢东周姝钟勇《重庆邮电大学学报(自然科学版)》2010,22(1):94-98

在中文文本分类中,由于中文词条总数较高,限制了中文文本分类算法的选择空间.特征选择是文本分类的一个核心研究课题.提出了一个优化的文档频(optimal document frequency,ODF),再结合粗糙集提出了一个新的基于辨识集的属性约简算法,最后把该属性约简算法同优化的ODF结合起来,提出了一个综合的特征选择方法.该综合选择方法首先使用优化的ODF进行特征初选以过滤掉一些词条来降低特征空间的稀疏性,然后再利用所提出的属性约简算法消除冗余,从而获得较具代表性的特征子集.实验结果表明该方法有较好的准确率和召回率. 相似文献

2.

结合ODF和辨识集的特征选择

朱颢东周姝钟勇《重庆邮电学院学报(自然科学版)》2010,(1)

在中文文本分类中,由于中文词条总数较高,限制了中文文本分类算法的选择空间。特征选择是文本分类的一个核心研究课题。提出了一个优化的文档频(optimal document frequency,ODF),再结合粗糙集提出了一个新的基于辨识集的属性约简算法,最后把该属性约简算法同优化的ODF结合起来,提出了一个综合的特征选择方法。该综合选择方法首先使用优化的ODF进行特征初选以过滤掉一些词条来降低特征空间的稀疏性,然后再利用所提出的属性约简算法消除冗余,从而获得较具代表性的特征子集。实验结果表明该方法有较好的准确率和召回率。相似文献

3.

基于粗糙集的数据挖掘改进属性约简算法研究

卢秀芸《镇江高专学报》2015,(1):55-57

研究基于粗糙集的属性约简算法在数据挖掘规则提取阶段的应用。数据挖掘中对属性进行约简时,经常采用粗糙集,再按照规则进行提取。考察差别矩阵的定义和信息系统比较复杂且核属性元素所占比例较少的情况,改进基于差别矩阵的属性约简算法,利用差别矩阵的结构建立一种新的选择属性的依据。相似文献

4.

面向属性的粗集数据挖掘方法研究 总被引：3，自引：2，他引：3

郑丽英王庆荣刘丽艳《兰州理工大学学报》2005,31(2):88-91

指出粗集理论的主要思想是在保持分类能力不变的情况下,利用等价类,通过属性约简和决策规则约简,达到挖掘知识并简化知识的目的.但约简问题是一个NP问题,只能通过启发式算法实现.针对这一问题,提出了属性约简和决策规则约简的启发式算法,构成了一个基于粗集理论的挖掘集成算法.最后通过实例表明,该集成算法能够以较高的效率发现良好的分类规则. 相似文献

5.

属性约简在数据挖掘中的应用 总被引：2，自引：0，他引：2

王万军《河北理工学院学报》2005,27(1):76-78

讨论了属性约简在数据挖掘中的应用，并通过应用实例证实了其有效性。相似文献

6.

基于NDF和优化的ID3的特征选择方法

朱颢东钟勇《暨南大学学报(自然科学与医学版)》2010,31(1)

特征选择是文本分类中一个重要的课题.首先给出了一个新型文档频,然后把属性依赖度引入ID3并提出了一个基于优化ID3的属性约简算法,紧接着以此为基础,提出了一个新的特征选择方法.该特征选择方法使用改进的文档频初选特征并用所提属性约简算法消除冗余.仿真结果证明该特征选择方法是有效的. 相似文献

7.

基于邻域粗糙集的不完整决策系统特征选择算法

谢娟英李楠乔子芮《南京大学学报(自然科学版)》2011,(4):383-390

针对不完整决策系统属性约简算法时间复杂度较高问题,基于正域不变条件下,决策系统分类能力保持不变原则,提出不完整决策系统前向顺序特征选择算法.该算法从约简集为空集开始,根据在约简集合中加入各属性后对正域影响程度大小将属性降序排列,采用顺序前向搜索,选择当前最佳特征加入特征约简集合,确定最佳特征子集.将该算法扩展到基于邻域... 相似文献

8.

基于Rough Sets的特征选择研究进展

梁吉业李超伟魏巍《山西大学学报(自然科学版)》2012,35(2):211-218

特征选择是机器学习领域中的重要研究问题.作为一种重要的特征选择方法,属性约简正在受到越来越多的关注,在许多应用领域已经得到了广泛应用.文章对基于Rough Sets理论的特征选择算法作了系统的回顾和分析,具体包括启发式属性约简、基于区分矩阵的属性约简和扩展粗糙集模型的属性约简三个方面.此外,论文还给出了粗糙特征选择算法的几种常见应用,并对该领域的进一步发展进行了展望. 相似文献

9.

基于K-S检验和邻域粗糙集的特征选择方法

刘艳程璐孙林《河南师范大学学报(自然科学版)》2019,47(2):21-28

传统的肿瘤基因选择算法挑选出的特征基因中存在大量噪声基因和冗余基因,从而对基因算法的准确性和分类精度产生影响.针对这一问题,将K-S检验与邻域粗糙集融合成为一种新的特征选择方法.首先,采用累积分布函数计算正负类样本的累积函数值和K-S检验统计量,对照显著性水平下的样本统计量,从而去除冗余基因和噪声基因;然后,使用邻域粗糙集进行约简,对比条件属性重要度得出最优约简结果;最后,对比K-S检验和两种基于K-S检验的特征选择方法得到的冗余度和分类精度,通过实验验证这种方法不仅能准确挑选出具有显著区分能力的肿瘤基因,且效率高具有可行性. 相似文献

10.

基于Rough集的数据挖掘在教学评价中的应用 总被引：2，自引：0，他引：2

周玉敏《重庆邮电大学学报(自然科学版)》2008,20(5):627-630

基于粗集的数据挖掘的主要过程是数据预处理、约简及规则提取.为了分析教师教学行为和教学效果之间的关系,以教学评价的数据为基础,利用基于粗糙集的数据挖掘技术进行挖掘.实例研究中采用基于分明矩阵的属性约简算法和启发式属性值约简算法,去掉决策表中的冗余属性和属性值,得到了影响教学效果的关键因素刎和相关规则. 相似文献

11.

基于改进扩展正域的属性核与属性约简方法

冯林罗芬方丹原永乐《山东大学学报(理学版)》2012,47(1):72-76

指出了不相容决策表中存在的正域扩展方法的不足,基于决策表局部最小确定性与条件属性对决策的最小确定性程度,构建了一种改进的扩展正域方法。基于改进的扩展正域方法,提出了计算不相容决策表中认知属性核和认知属性约简的算法。实验结果表明了本文方法的有效性。相似文献

12.

Attribute reduction based on background knowledge and its application in classification of astronomical spectra data

张继福 Li Yinhua Zhang Sulan 《高技术通讯(英文版)》2007,13(4):422-427

To improve the efficiency of the attribute reduction,we present an attribute reduction algorithm based on background knowledge and information entropy by making use of background knowledge from research fields.Under the condition of known background knowledge,the algorithm Can not only greatly improve the efficiency of attribute reduction,but also avoid the defection of information entropy partial to attribute with much value.The experimental result verifies that the algorithm is effective.In the end,the algorithm produces better results when applied in the classification of the star spectra data. 相似文献

13.

Combining rough set theory and instance selection in ontology mapping

钱鹏飞 Wang Yinglin Zhang Shensheng 《高技术通讯(英文版)》2008,14(3):258-265

This paper presents a novel ontology mapping approach based on rough set theory and instance selection .In this appoach the construction approach of a rough set-based inference instance base in which the instance selection （involving similarity distance, clustering set and redundancy degree） and discernibility matrix-based feature reduction are introduced respectively; and an ontology mapping approach based on multi-dimensional attribute value joint distribution is proposed. The core of this mapping aI overlapping of the inference instance space. Only valuable instances and important attributes can be selected into the ontology mapping based on the multi-dimensional attribute value joint distribution, so the sequently mapping efficiency is improved. The time complexity of the discernibility matrix-based method and the accuracy of the mapping approach are evaluated by an application example and a series of analyses and comparisons. 相似文献

14.

基于粗糙集的RDT决策树生成算法的研究及应用 总被引：1，自引：0，他引：1

江效尧胡林生《安徽工程科技学院学报：自然科学版》2004,19(3):50-53

介绍了一种基于粗糙集理论的决策树生成算法--RDT(Rought Set Decision Tree).该方法运用了粗糙集理论中条件属性相对于决策属性的核,引入启发式条件计算并选择条件属性作为决策树的根结点或子结点.通过一个例子,与运用信息熵概念建立决策树的算法进行比较,结果表明采用RDT方法得到的决策树优于采用信息熵方法得到的决策树.还讨论了RDT与ID3算法对决策树精度和规模的影响,分析数据分类和知识发现的过程及特点. 相似文献

15.

基于贝叶斯粗糙集的文本特征选择方法 总被引：2，自引：1，他引：2

朱颢东钟勇《河南师范大学学报(自然科学版)》2009,37(4)

特征选择是文本分类的一个核心研究课题.首先给出了一个基于最小词频的文档频,然后简单分析了经典粗糙集和变精度粗糙集的不足,紧接着把贝叶斯粗糙集引入进来并提出了一个属性约简算法,最后把该属性约简算法同基于最小词频的文档频结合起来,提出了一个综合的特征选择方法.该综合方法首先利用基于最小词频的文档频提取初始特征,然后利用所提属性约简算法消除冗余,从而获得较具代表性的特征子集.实验结果表明,该算法是有效的. 相似文献

16.

一种基于Rough集的海量数据属性约简方法

胡峰张杰刘静肖大伟《重庆邮电大学学报(自然科学版)》2009,21(4):455-460

海量数据属性约简的研究是数据挖掘研究中的一个难点.已有的许多属性约简算法对于空间复杂度考虑得不够,导致了算法不能适应大数据集的约简处理.结合分治法,在给定属性序下,提出了基于分治策略的属性约简算法.利用该算法可以快速得到海量数据的属性约简结果.仿真实验结果说明了该算法的高效性. 相似文献

17.

基于关系积的属性约简算法 总被引：1，自引：0，他引：1

焦吉成高学东邓君堂鄂旭《北京科技大学学报》2008,30(6)

粗糙集的属性约简是一个NP难问题,目前尚无高效的算法.基于集合理论,提出了关系积概念和基于关系积的属性约简算法,把决策表的属性约简过程转化为关系积的运算,减小了对决策表的扫描次数,提高了属性约简的效率;算法采用自底向上和宽度优先的搜索策略,可确保找到最小属性约简集.结合实例,给出了算法的具体实现. 相似文献

18.

基于粗糙集带结论域的关联规则挖掘算法及其优化

罗可童舟《长沙理工大学学报(自然科学版)》2008,5(1):69-74

针对Apriori-Hybrid算法的瓶颈,提出了一种使用支持度矩阵对频繁2项集快速挖掘的方法,采用改进的Apriori-Hybrid算法来挖掘关联规则,试验证明该算法提高了关联规则挖掘的效率和质量．相似文献

19.

一种基于Rough集的海量数据属性约简方法

胡峰张杰刘静肖大伟《重庆邮电学院学报(自然科学版)》2009,21(4):455-460

海量数据属性约简的研究是数据挖掘研究中的一个难点。已有的许多属性约简算法对于空间复杂度考虑得不够,导致了算法不能适应大数据集的约简处理。结合分治法,在给定属性序下,提出了基于分治策略的属性约简算法。利用该算法可以快速得到海量数据的属性约简结果。仿真实验结果说明了该算法的高效性。相似文献

20.

一种基于粗糙集的冠心病数据分类方法 总被引：1，自引：0，他引：1

李骞郑刚《天津理工大学学报》2007,23(1):70-73

当数据的维数增加后,经典粗糙集分类方法将难以使用.本文针对经典的分类规则获取方法,在应用于高维的数据时,重要度计算所出现的问题,提出了改进方法,计算出了各个条件属性的重要度.然后根据获得的重要度,针对冠心病数据维数很高的特点,提出了新的分类规则获取方法.将这一思路应用于具体数据后,推导出了最终的分类规则,达到了准确的分类冠心病数据的最终目的. 相似文献