首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到17条相似文献,搜索用时 78 毫秒
1.
粗糙集理论为研究不精确数据的分析、推理,挖掘数据间的关系、发现潜在的知识提供了有效的工具。在数据挖掘技术中KNN算法是一个实现简单和分类准确性较高的方法,但是,当用于样本容量较大以及特征属性较多的类似医疗图像挖掘这样的领域时,其效率受到了很大的影响,找到一个删除最大冗余属性的方法成了解决这个问题的关键。将粗糙集理论与KNN算法结合起来,用粗糙集方法进行属性约简,有效地解决了KNN算法分类的这个缺点。  相似文献   

2.
基于属性约简的方法,放弃以往复杂的规则匹配算法,提出将约简后的多种属性组进行析取,筛选特征项,并构造分类器.实验结果表明,此算法不仅简单,还能降低维数和提高分类结果.  相似文献   

3.
Web文本分类是Web数据挖掘的一个重要研究方向,它是在通过经验数据训练得到的分类体系下,根据网页的文本内容自动判别网页类别的过程,本文提出一种综合粗糙集与支持向量机的Web文本分类模型,利用粗糙集的属性约简方法,减少支持向量机训练数据的维数,提高Web文本分类的性能与效率.  相似文献   

4.
结合粗糙集的属性约简和神经网络的分类机理,提出了一种混合算法. 首先应用粗糙集理论的属性约简作为预处理器,把冗余的属性从决策表中删去,然后运用神经网络进行分类. 这样可以大大降低向量维数,克服粗糙集对于决策表噪声比较敏感的缺点. 试验结果表明,与朴素贝叶斯、SVM、kNN传统分类方法相比,该方法在保持分类精度的基础上,分类速度有明显的提高,体现出较好的稳定性和容错性,尤其适用于特征向量多且难以分类的文本.  相似文献   

5.
一种基于粗糙集的文本分类规则抽取方法   总被引:10,自引:0,他引:10  
随着文本数据库的日益增大,寻找新的文本数据处理方法变得十分紧迫。本文将粗糙集理论应用于文本自动分类的规则提取,提出了基于粗糙集理论的文本分类方法。把文本特征项的权值进行离散化处理后,作为规则的条件属性,文本所属的类别用作决策属性,构造决策表,然后通过决策表的知识约简算法提取出文本的分类规则。实验结果表明,该方法提取规则的分类正确率较高,分类速度较快。  相似文献   

6.
在文本分类中,数据规模过大或文本分布不均匀对传统KNN算法的准确率和效率具有重要影响。为了解决该问题,文章提出一种基于粗糙KNN(k-nearest neighbor)算法的文本分类新方法。首先引入粗糙集中的上下近似概念定义各类文本的上下近似空间,将文本向量空间分为核心和混合2大区域;然后改进传统KNN算法的隶属度函数;再针对不同的文本区域,采取差异化的分类策略以提高分类的效率和准确率。实验表明,基于粗糙KNN算法的文本分类方法在提高分类准确率的同时,分类的效率也有很大提高。  相似文献   

7.
文章提出了一种利用粗糙集理论生成文本分类规则的方法.首先,抽取特征词并计算权重.然后,在权值离散化之后,构造决策表.其中,特征词作为条件属性,类别作为决策属性.之后,将文本用属性约简和属性相对约简进行处理,得出决策规则.最后给出分类算法.  相似文献   

8.
苟和平 《科学技术与工程》2012,12(20):4926-4929
K最近邻算法(KNN)被认为是向量空间模型下最好的分类算法之一,在准确率和召回率方面比较出众,但随着样本数量的增加其相似度计算开销很大。本文提出一种改进算法RS-KNN,主要是利用粗糙集的相关理论,计算训练样本集中各样本子类的上近似空间和下近似空间,根据待分类文本出现在不同的近似空间,以缩减与待分类样本计算相似度的训练样本个数。实验表明此算法能够有效地降低分类计算开销。  相似文献   

9.
基于粗糙集的Web日志挖掘研究   总被引:1,自引:1,他引:0  
提出了一种基于粗糙集的Web日志挖掘模型,该模型采用粗糙集的方法对原始数据进行约简,然后应用粗糙集理论对数据进行定性分析和约简.最后结合一个Web日志实例验证了方法的可行性和有效性.  相似文献   

10.
张莹 《科技信息》2006,(11):215-216
该文改进了一种粗糙集决策表的值约简算法,并将其应用到文本分类规则的提取中,其生成的规则属性较少,分类准确度较高.  相似文献   

11.
基于样本重要性原理的KNN文本分类算法   总被引:1,自引:0,他引:1  
KNN是重要数据挖掘算法之一,具有良好的文本分类性能.传统的KNN方法对所有样本权重看作相同,而忽略了不同样本对于分类贡献的不同.为了解决该个问题,提出了一种样本重要性原理,并在此基础上构造KNN分类器.应用随机游走算法识别类边界点,并计算出每个样本点的边界值,生成每个样本点的重要性得分,将样本重要性与KNN方法融合形成一种新的分类模型——SI-KNN.在中英文文本语料上的实验表明:改进的SI-KNN分类模型相比于传统的KNN方法有一定的提高.  相似文献   

12.
将粗糙集优越的约简理论应用于多标签文本分类,提出了基于粗糙集理论的多标签文本分类算法,该算法利用训练阶段得到的各个类别的分类规则与测试实例逐一匹配,得出实例的类标签集合,扩展了粗糙集理论在文本分类中的应用,实验证明算法有效可行.  相似文献   

13.
K最近邻算法(KNN)在分类时,需要计算待分类样本与训练样本集中每个样本之间的相似度.当训练样本过多时,计算代价大,分类效率降低.因此,提出一种基于DBSCAN聚类的改进算法.利用DBSCAN聚类消除训练样本的噪声数据.同时,对于核心样本集中的样本,根据其样本相似度阈值和密度进行样本裁剪,以缩减与待分类样本计算相似度的训练样本个数.实验表明此算法能够在保持基本分类能力不变的情况下,有效地降低分类计算量.  相似文献   

14.
一种基于KNN的半监督分类改进算法   总被引:1,自引:0,他引:1  
本文提出一种新的基于KNN分类的半监督学习self-training改进算法,并以多个UCI数据集为实验,对基于KNN的半监督分类模型算法进行改进,充分利用已知类别标签数据的正确知识进行自训练,以得到最终分类结果.实验结果表明,该方法能显著提高分类准确率.  相似文献   

15.
针对KNN的K值难以确定的问题,提出一种基于并行遗传算法的KNN分类方法.该方法采用粗粒度模型的并行遗传算法进行设计,通过种群内的遗传、变异和种群间的并行进化、联姻得到优化的K值和分类结果.实验结果表明,该方法有效的提高了KNN算法的分类效果,是一种精确高效的分类方法.  相似文献   

16.
用于文本分类的快速KNN算法   总被引:1,自引:0,他引:1  
KNN(k Nearest Neighbor)算法是一种简单、有效、非参数的文本分类方法.传统的KNN方法有着样本相似度计算量大的明显缺陷,使其在具有大量高维样本的文本分类中缺乏实用性.提出了一种快速查找精确的k个最近邻的TKNN(Tree-k-Nearest-Neighbor)算法,该算法建立一棵用于查找的树,加速k个最近邻的查找.首先以整个样本集合中心为基准,按照距离中心的距离将所有样本进行排序,并等分L组,作为根结点的孩子,每个孩子以同样方式处理,直到每组样本数量在[k,2k]间为止.根据这棵树查找k个最近邻,减小了查找范围,极大地降低了相似度计算量.  相似文献   

17.
提出了超长方体与KNN相结合的分类算法.在训练阶段,该算法为训练集中的每一个类别构造多个超长方体,区域分离每一类训练样本.在测试阶段,该算法首先检查测试样本是否被某一个超长方体包围,如是则其类别被识别出,否则用KNN方法确定其类别.实验采用四个真实数据集进行测试.实验结果表明基于超长方体与KNN的分类算法在四个数据集全部优于两个基于多球覆盖的分类方法,是一种有效的分类方法.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号