首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到10条相似文献,搜索用时 15 毫秒
1.
不确定性推理在文本分类上的应用研究   总被引:1,自引:0,他引:1  
在文本分类中k-NN分类方法简洁而有效,但在多类分类问题中,由于类的重叠和属性的不足导致训练文本和类边界出现不确定性,而传统k-NN分类方法无法处理这种不确定性.该文借助于几种经典的不确定性推理方法:DS证据理论、模糊集理论、模糊-粗糙集理论,来改进传统k-NN文本分类方法,实验表明基于不确定性推理的方法能够提高文本分类的精度和召回率.  相似文献   

2.
针对影像分类中少量标记样本问题,提出了基于模糊粗糙集的影像半监督分类算法.首先,通过模糊粗糙集对数据的粗糙性与模糊性进行建模,采用归一化的模糊互信息来度量特征与类别信息的相关性,并利用模糊上下近似度量样本的类别隶属度;然后,结合归一化的模糊互信息改进正则化框架下的特征评价方法,在谱图分析的半监督特征选择框架下实现特征优选;其次,结合近邻约束提高模糊上下近似预测样本类别的准确性,设计基于模糊粗糙集的约束自学习,选择信息量大的未标记样本更新训练样本集;最后,利用新的样本集训练分类器,完成影像分类任务.多组实验表明所提算法能够在少量标记样本的条件下有效提高影像的分类精度.  相似文献   

3.
k-近邻(k NN)分类算法因具有不对数据分布做任何假设、操作简单且泛化性能较强的特点,在人脸识别、文本分类、情感分析等领域被广泛使用.k NN分类算法不需要训练过程,其简单存储训练实例并根据测试实例与存储的训练实例进行相似度比较来预测分类.由于k NN分类算法需要计算测试实例与所有训练实例之间的相似度,故难以高效地处理大规模数据.为此提出将寻找近邻的过程转化为一个优化问题,并给出了原始优化问题与使用数据划分优化问题的最优解下目标函数差异的估计.通过对此估计的理论分析表明,聚类划分可以有效的减小此差异,进而保证基于聚类的k-近邻分类(DC-k NN)算法具有较强的泛化性能.在公开数据集的实验结果显示,DC-k NN分类算法在很大程度上为测试实例提供了与原始k NN分类算法相同的k个近邻进而获得较高的分类精度.  相似文献   

4.
通过构建向量空间模型可以获得表征网页数据的词-文本权重矩阵,然而直接基于此高维矩阵进行分类学习效率较低,为此提出一种结合改进非负矩阵分解的模糊网页文本分类算法.首先,通过迭代的归一化压缩非负矩阵分解将高维的原数据映射到低维语义空间,以降低问题的复杂性.然后,将模糊逻辑引入分类模型,通过特征词与类别的模糊隶属度来生成文本的类别模糊集,以解决确定性矩阵难以判定语义模糊词所属类别的问题.实验结果表明,与其他方法相比,所提出的分类算法具有较高的分类准确度和较好的时间性能.  相似文献   

5.
基于k-近邻方法的渐进式中文文本分类技术   总被引:3,自引:0,他引:3  
针对k-近邻方法分类准确率较高、但分类效率较低的特性,提出了一种基于k近邻方法的渐进式中文文本分类技术,利用文本的标题、摘要、关键词、重点段落进行渐进式的分类处理.这样,不用分析全文就能将部分待分类文本成功分类,从而提高了文本分类的效率.实验结果表明,该方法在保证分类准确率的基础上能够有效地提高分类效率.  相似文献   

6.
为了提升分布不均匀样本的分类性能,该文提出了一种基于互邻信息的树型近邻(Tree-based k近邻,kTree)分类方法,以此提高k近邻分类的准确率。首先,采用回归模型刻画样本之间的紧密程度,获取每个样本的最优k值,从而获得最优邻居,并采用kTree提升搜索效率。其次,对于每一个测试样本,基于互邻信息准则,确定其邻域空间,完成k近邻分类。最后,数据集的试验结果表明,该文提出的基于互邻信息的kTree分类准确率高于传统k近邻分类等其他分类算法。该文提出的方法也为k近邻分类的改进提供了新的方向。  相似文献   

7.
模糊支持向量机中隶属度确定的新方法   总被引:4,自引:1,他引:3  
针对目前模糊支持向量机方法中,一般使用样本与类中心之间的距离关系构建隶属度函数的不足,提出一种改进的隶属度确定方法.该方法不仅考虑样本与类中心之间的关系,还考虑样本之间的关系根据样本的类中心与传统支持向量机构造的分类面构建2个超球,由样本点与超球的位置关系计算其隶属度,能够有效地区分样本点、噪音点以及孤立点.通过文本分类实验表明,与其他两种隶属度函数方法相比,基于双超球的模糊支持向量机方法可以更有效地将文本训练集中的噪音剔除,具有较好的分类性能.  相似文献   

8.
基于投影寻踪的kNN文本分类算法的加速策略   总被引:1,自引:1,他引:0  
传统的k近邻(k-nearest neighbors,kNN)文本分类中,由于文本被表示成向量空间模型后维数非常高,且训练文本的数目巨大,kNN分类算法通常被视为是一种虽然有效,但并非高效的文本分类算法。针对传统kNN分类算法效率低下的问题,提出了一种基于投影寻踪思想的kNN分类算法加速策略。基本思想是:通过投影的方法缩减训练集的规模,同时在寻找k近邻过程中对文本进行降维处理,从两方面着手降低算法的计算开销。实验数据表明,优化后的kNN算法比传统kNN算法在时间性能上有较大的提升,同时保证了分类的精度。  相似文献   

9.
粗糙集理论是一种新的处理模糊和不确定性知识的数学工具.相似度是用于比较2个相似的模糊粗糙集所包含信息的精确性大小的,是模糊集理论和粗糙集理论的热点问题之一.文章利用一种改进的相似度定义了模糊粗糙近似算子,重新定义了粗糙集的一些概念,给出并证明了模糊粗糙近似算子的几个性质.  相似文献   

10.
遥感图像类内地物的异质性和类间地物的模糊性,造成地物类别归属的不确定性.模糊集理论能够对分类模糊现象进行有效的刻画,而区间值数据模型能够反映类别数据的不确定性.因此,本文结合区间值数据模型与模糊C均值算法,提出一种偏向自适应区间的模糊C均值算法,通过归一化类内均方差调整类别的整体区间宽度,利用偏向因子对数据进行有选择性的动态区间建模,进而增加类内紧凑性与类间边界可分性.实验结果表明,该方法可以有效地应用于SPOT5遥感数据的地物分类,整体分类精度和Kappa系数较现有流行的模糊分类方法均有较大的提升.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号