共查询到20条相似文献,搜索用时 15 毫秒
1.
在中文文本分类中,由于中文词条总数较高,限制了中文文本分类算法的选择空间.特征选择是文本分类的一个核心研究课题.提出了一个优化的文档频(optimal document frequency,ODF),再结合粗糙集提出了一个新的基于辨识集的属性约简算法,最后把该属性约简算法同优化的ODF结合起来,提出了一个综合的特征选择方法.该综合选择方法首先使用优化的ODF进行特征初选以过滤掉一些词条来降低特征空间的稀疏性,然后再利用所提出的属性约简算法消除冗余,从而获得较具代表性的特征子集.实验结果表明该方法有较好的准确率和召回率. 相似文献
2.
在中文文本分类中,由于中文词条总数较高,限制了中文文本分类算法的选择空间。特征选择是文本分类的一个核心研究课题。提出了一个优化的文档频(optimal document frequency,ODF),再结合粗糙集提出了一个新的基于辨识集的属性约简算法,最后把该属性约简算法同优化的ODF结合起来,提出了一个综合的特征选择方法。该综合选择方法首先使用优化的ODF进行特征初选以过滤掉一些词条来降低特征空间的稀疏性,然后再利用所提出的属性约简算法消除冗余,从而获得较具代表性的特征子集。实验结果表明该方法有较好的准确率和召回率。 相似文献
3.
研究基于粗糙集的属性约简算法在数据挖掘规则提取阶段的应用。数据挖掘中对属性进行约简时,经常采用粗糙集,再按照规则进行提取。考察差别矩阵的定义和信息系统比较复杂且核属性元素所占比例较少的情况,改进基于差别矩阵的属性约简算法,利用差别矩阵的结构建立一种新的选择属性的依据。 相似文献
4.
5.
面向属性的粗集数据挖掘方法研究 总被引:3,自引:2,他引:3
指出粗集理论的主要思想是在保持分类能力不变的情况下,利用等价类,通过属性约简和决策规则约简,达到挖掘知识并简化知识的目的.但约简问题是一个NP问题,只能通过启发式算法实现.针对这一问题,提出了属性约简和决策规则约简的启发式算法,构成了一个基于粗集理论的挖掘集成算法.最后通过实例表明,该集成算法能够以较高的效率发现良好的分类规则. 相似文献
6.
特征选择是文本分类中一个重要的课题.首先给出了一个新型文档频,然后把属性依赖度引入ID3并提出了一个基于优化ID3的属性约简算法,紧接着以此为基础,提出了一个新的特征选择方法.该特征选择方法使用改进的文档频初选特征并用所提属性约简算法消除冗余.仿真结果证明该特征选择方法是有效的. 相似文献
7.
传统的肿瘤基因选择算法挑选出的特征基因中存在大量噪声基因和冗余基因,从而对基因算法的准确性和分类精度产生影响.针对这一问题,将K-S检验与邻域粗糙集融合成为一种新的特征选择方法.首先,采用累积分布函数计算正负类样本的累积函数值和K-S检验统计量,对照显著性水平下的样本统计量,从而去除冗余基因和噪声基因;然后,使用邻域粗糙集进行约简,对比条件属性重要度得出最优约简结果;最后,对比K-S检验和两种基于K-S检验的特征选择方法得到的冗余度和分类精度,通过实验验证这种方法不仅能准确挑选出具有显著区分能力的肿瘤基因,且效率高具有可行性. 相似文献
8.
特征选择是机器学习领域中的重要研究问题.作为一种重要的特征选择方法,属性约简正在受到越来越多的关注,在许多应用领域已经得到了广泛应用.文章对基于Rough Sets理论的特征选择算法作了系统的回顾和分析,具体包括启发式属性约简、基于区分矩阵的属性约简和扩展粗糙集模型的属性约简三个方面.此外,论文还给出了粗糙特征选择算法的几种常见应用,并对该领域的进一步发展进行了展望. 相似文献
9.
针对不完整决策系统属性约简算法时间复杂度较高问题,基于正域不变条件下,决策系统分类能力保持不变原则,提出不完整决策系统前向顺序特征选择算法.该算法从约简集为空集开始,根据在约简集合中加入各属性后对正域影响程度大小将属性降序排列,采用顺序前向搜索,选择当前最佳特征加入特征约简集合,确定最佳特征子集.将该算法扩展到基于邻域... 相似文献
10.
基于Rough集的数据挖掘在教学评价中的应用 总被引:2,自引:0,他引:2
周玉敏 《重庆邮电大学学报(自然科学版)》2008,20(5):627-630
基于粗集的数据挖掘的主要过程是数据预处理、约简及规则提取.为了分析教师教学行为和教学效果之间的关系,以教学评价的数据为基础,利用基于粗糙集的数据挖掘技术进行挖掘.实例研究中采用基于分明矩阵的属性约简算法和启发式属性值约简算法,去掉决策表中的冗余属性和属性值,得到了影响教学效果的关键因素刎和相关规则. 相似文献
11.
This paper presents a novel ontology mapping approach based on rough set theory and instance selection .In this appoach the construction approach of a rough set-based inference instance base in which the instance selection (involving similarity distance, clustering set and redundancy degree) and discernibility matrix-based feature reduction are introduced respectively; and an ontology mapping approach based on multi-dimensional attribute value joint distribution is proposed. The core of this mapping aI overlapping of the inference instance space. Only valuable instances and important attributes can be selected into the ontology mapping based on the multi-dimensional attribute value joint distribution, so the sequently mapping efficiency is improved. The time complexity of the discernibility matrix-based method and the accuracy of the mapping approach are evaluated by an application example and a series of analyses and comparisons. 相似文献
12.
指出了不相容决策表中存在的正域扩展方法的不足,基于决策表局部最小确定性与条件属性对决策的最小确定性程度,构建了一种改进的扩展正域方法。基于改进的扩展正域方法,提出了计算不相容决策表中认知属性核和认知属性约简的算法。实验结果表明了本文方法的有效性。 相似文献
13.
To improve the efficiency of the attribute reduction,we present an attribute reduction algorithm based on background knowledge and information entropy by making use of background knowledge from research fields.Under the condition of known background knowledge,the algorithm Can not only greatly improve the efficiency of attribute reduction,but also avoid the defection of information entropy partial to attribute with much value.The experimental result verifies that the algorithm is effective.In the end,the algorithm produces better results when applied in the classification of the star spectra data. 相似文献
14.
基于贝叶斯粗糙集的文本特征选择方法 总被引:3,自引:1,他引:2
特征选择是文本分类的一个核心研究课题.首先给出了一个基于最小词频的文档频,然后简单分析了经典粗糙集和变精度粗糙集的不足,紧接着把贝叶斯粗糙集引入进来并提出了一个属性约简算法,最后把该属性约简算法同基于最小词频的文档频结合起来,提出了一个综合的特征选择方法.该综合方法首先利用基于最小词频的文档频提取初始特征,然后利用所提属性约简算法消除冗余,从而获得较具代表性的特征子集.实验结果表明,该算法是有效的. 相似文献
15.
提出了一种基于论域离散度的适应度函数,在前向贪心搜索策略下,以该适应度函数评估条件属性的重要性,进而求取邻域粗糙集的约简。该算法与3个比较流行的属性约简算法进行对比实验,在12组UCI数据集上进行验证。实验结果表明,与另外3种算法相比,在不降低分类效果的情况下,本文算法在时间消耗和稳定性上具有较为明显的优势。 相似文献
16.
基于粗糙集的RDT决策树生成算法的研究及应用 总被引:1,自引:0,他引:1
介绍了一种基于粗糙集理论的决策树生成算法--RDT(Rought Set Decision Tree).该方法运用了粗糙集理论中条件属性相对于决策属性的核,引入启发式条件计算并选择条件属性作为决策树的根结点或子结点.通过一个例子,与运用信息熵概念建立决策树的算法进行比较,结果表明采用RDT方法得到的决策树优于采用信息熵方法得到的决策树.还讨论了RDT与ID3算法对决策树精度和规模的影响,分析数据分类和知识发现的过程及特点. 相似文献
17.
海量数据属性约简的研究是数据挖掘研究中的一个难点.已有的许多属性约简算法对于空间复杂度考虑得不够,导致了算法不能适应大数据集的约简处理.结合分治法,在给定属性序下,提出了基于分治策略的属性约简算法.利用该算法可以快速得到海量数据的属性约简结果.仿真实验结果说明了该算法的高效性. 相似文献
18.
在自动文本分类系统中,特征选择是有效降低文本向量维数的一种方法.在分析常用的一些特征选择的评价函数的基础上,提出了一种新的特征选择方法.在标准中文网页数据集上的分类实验表明,该方法提高了文本分类的准确率. 相似文献
19.
针对Apriori-Hybrid算法的瓶颈,提出了一种使用支持度矩阵对频繁2项集快速挖掘的方法,采用改进的Apriori-Hybrid算法来挖掘关联规则,试验证明该算法提高了关联规则挖掘的效率和质量. 相似文献
20.
基于关系积的属性约简算法 总被引:1,自引:0,他引:1
粗糙集的属性约简是一个NP难问题,目前尚无高效的算法.基于集合理论,提出了关系积概念和基于关系积的属性约简算法,把决策表的属性约简过程转化为关系积的运算,减小了对决策表的扫描次数,提高了属性约简的效率;算法采用自底向上和宽度优先的搜索策略,可确保找到最小属性约简集.结合实例,给出了算法的具体实现. 相似文献