首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到17条相似文献,搜索用时 62 毫秒
1.
基于属性约简的方法,放弃以往复杂的规则匹配算法,提出将约简后的多种属性组进行析取,筛选特征项,并构造分类器.实验结果表明,此算法不仅简单,还能降低维数和提高分类结果.  相似文献   

2.
陈胜  曾雪兰  梅良才 《广西科学》2009,16(4):389-391
在分析贝叶斯粗糙集模型已有的约简算法的基础上,从含有多个决策类情况下的全局相对增益函数的角度,利用二进制编码方法给出一种求贝叶斯粗糙集所有约简及核的算法,并基于实际应用,给出对求出的所有约简进行筛选的拓展算法。通过算例说明算法的实用性和有效性。  相似文献   

3.
一种基于粗糙集的文本分类规则抽取方法   总被引:10,自引:0,他引:10  
随着文本数据库的日益增大,寻找新的文本数据处理方法变得十分紧迫。本文将粗糙集理论应用于文本自动分类的规则提取,提出了基于粗糙集理论的文本分类方法。把文本特征项的权值进行离散化处理后,作为规则的条件属性,文本所属的类别用作决策属性,构造决策表,然后通过决策表的知识约简算法提取出文本的分类规则。实验结果表明,该方法提取规则的分类正确率较高,分类速度较快。  相似文献   

4.
结合粗糙集的属性约简和神经网络的分类机理,提出了一种混合算法. 首先应用粗糙集理论的属性约简作为预处理器,把冗余的属性从决策表中删去,然后运用神经网络进行分类. 这样可以大大降低向量维数,克服粗糙集对于决策表噪声比较敏感的缺点. 试验结果表明,与朴素贝叶斯、SVM、kNN传统分类方法相比,该方法在保持分类精度的基础上,分类速度有明显的提高,体现出较好的稳定性和容错性,尤其适用于特征向量多且难以分类的文本.  相似文献   

5.
为了从海量的信息资源库中快速、准确地进行分类并提取出有用的信息,提出了一种基于粗糙集和KNN混合的Web文本分类模型。利用粗糙集的属性约简理论降低了文本分类过程中的向量维数,使用一种基于分明矩阵的属性约简算法,特征选择过程采用互信息量计算方法,并对该混合算法进行了实验,同时结合传统的KNN方法对该混合算法进行比较,验证该算法的可行性。  相似文献   

6.
基于优化文档频和信息量的特征选择方法   总被引:1,自引:0,他引:1  
针对文本分类中几种典型的特征选择方法存在的不足,提出基于优化文档频和信息量的特征选择方法.该方法首先使用优化的文档频方法进行特征选择以降低文本向量的稀疏性,然后利用所提属性的约简算法消除冗余,从而获得较具代表性的特征子集.实验结果表明:该方法同3种经典特征选择方法相比,"互信息"和"统计量"以及"信息增益"都要好.  相似文献   

7.
结合优化文档频和变精度粗糙集的特征选择方法   总被引:1,自引:0,他引:1  
在文本分类中,特征空间的维数通常高达几万,甚至远远超出训练样本的个数,这是一种十分普遍的现象.为了提高文本挖掘算法的运行速度,降低占用的内存空间,过滤掉不相关或相关程度低的特征,必须使用特征选择算法.首先给出了一个基于最小词频的文档频方法,然后把变精度粗糙集引入进来并提出了一个基于信息熵的属性约简算法,最后把该属性约简算法同基于最小词频的文档频方法结合起来,提出了一个综合的特征选择算法.该综合算法首先利用基于最小词频的文档频方法进行特征选择,然后利用所提属性约简算法消除冗余,从而获得较具代表性的特征子集.实验结果表明,该算法比最好的3种经典特征选择方法"互信息"和"统计量"以及文档频都要好.  相似文献   

8.
张莹 《科技信息》2006,(11):215-216
该文改进了一种粗糙集决策表的值约简算法,并将其应用到文本分类规则的提取中,其生成的规则属性较少,分类准确度较高.  相似文献   

9.
在中文文本分类中,由于中文词条总数较高,限制了中文文本分类算法的选择空间.特征选择是文本分类的一个核心研究课题.提出了一个优化的文档频(optimal document frequency,ODF),再结合粗糙集提出了一个新的基于辨识集的属性约简算法,最后把该属性约简算法同优化的ODF结合起来,提出了一个综合的特征选择方法.该综合选择方法首先使用优化的ODF进行特征初选以过滤掉一些词条来降低特征空间的稀疏性,然后再利用所提出的属性约简算法消除冗余,从而获得较具代表性的特征子集.实验结果表明该方法有较好的准确率和召回率.  相似文献   

10.
一种基于粗糙集的朴素贝叶斯分类算法   总被引:3,自引:0,他引:3  
朴素贝叶斯分类器的计算过程只有在完全数据库中才成立,而基于相似关系的粗糙集模型具有处理空值的功能,并且提供了属性离散化和约简技术,可以改善属性间的依赖关系。因此,将两种不同的软计算方法相结合,利用粗糙集合理论先把决策表补齐,再对数据进行约简,然后结合朴素贝叶斯分类器,得出分类结果。实验证明这种方法不仅简化了数据和模型的规模,也具有对不完全数据的分类能力。  相似文献   

11.
特征选择是机器学习领域中的重要研究问题.作为一种重要的特征选择方法,属性约简正在受到越来越多的关注,在许多应用领域已经得到了广泛应用.文章对基于Rough Sets理论的特征选择算法作了系统的回顾和分析,具体包括启发式属性约简、基于区分矩阵的属性约简和扩展粗糙集模型的属性约简三个方面.此外,论文还给出了粗糙特征选择算法的几种常见应用,并对该领域的进一步发展进行了展望.  相似文献   

12.
LDA主题模型是一种有效的文本语义信息提取工具,利用在文档层中实现词项的共现,将词项矩阵转化为主题矩阵,得到主题特征;然而在生成文档过程中会蕴含冗余主题。针对LDA主题模型提取主题特征时存在冗余的不足,提出一种基于邻域粗糙集的LDA主题模型约简算法NRS-LDA。利用邻域粗糙集构造主题决策系统,通过预先设定主题个数,计算出每个主题的重要度;根据重要度进行排序,将排序后重要度低的主题删除。将提出的NRS-LDA算法应用于K-means文本聚类问题上并与传统的文本特征提取算法及改进的算法进行比较,结果表明NRS-LDA方法可以得到更高的聚类精度。  相似文献   

13.
特性选择是文本分类、机器学习以及模式识别领域的重要问题之一.特征选择能在保证数据完整性的情况下减少高维数据的特征维数,同时提高分类的精度.以往提出的基于同义词词林的特征选择方法虽然能有效避免提取出的特征值在概念上的重复性,但并未考虑到权值最优的特征向量构成的子集可能并非是最优的.为了解决此问题,结合同义词和遗传算法,提出了一种新的基于同义词词林的文本特征选择方法.该方法首先对特征词进行同义词过滤、合并,在降低特征向量维度的同时避免了同义词带来的影响.然后采用改进的遗传算法选出具有较好适应度值的特征向量.实验结果表明,这种方法较之以往提出的方法,在保证特征选择准确率的基础上能明显地减小特征向量的维度.  相似文献   

14.
在A.Skowron关于属性值约简研究的基础上,给出截断点集的逻辑抽取方法,并基于复杂度的考虑提出一种改进的启发式算法,使属性的值集规模有实质性的约简.  相似文献   

15.
文本特征选择是自然语言处理中的关键问题。针对文本特征的高维性和稀疏性问题,在过滤式特征选择算法文档-逆文档评率(term frequency-inverse document frequency, TF-IDF)的基础上,提出了用遗传算法对文本特征进行优化选择,使其最大程度地贴合后续的文本分类算法,在保证文本分类精确度的同时,降低特征维度以缩减预测时间。实验显示,该算法与单一的过滤式文本特征选择算法相比,能够有效减少所选文本特征数量(即降低特征维度),能有效提高文本的分类能力。  相似文献   

16.
文本分类中的特征选取算法   总被引:3,自引:0,他引:3  
分析了常用的几种特征选取方法,提出了改进互信息算法。实验结果显示改进的互信息算法是可行的。  相似文献   

17.
一种组合型中文文本分类特征选择方法   总被引:1,自引:1,他引:1  
根据基于频数分布和基于互信息的特征选择模式的特点,将传统的tf-idf因子以及基于互信息的特征选择方法分别进行了改进,并在此基础上提出了一种新的组合型特征选择方法。试验结果表明,该算法提高了文本分类的准确率。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号