首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到17条相似文献,搜索用时 62 毫秒
1.
一种改进的kNN方法及其在文本分类中的应用   总被引:25,自引:0,他引:25  
介绍了基于kNN的文本分类方法,分析了kNN方法实质,指出了该方法的不足,然后指出了一种改进方法。改进方法是基于文本属性关系和概念共现等基础上提出来的。它实质上是强化了文本中语义链属性因子的作用,修正了次要因素的噪声影响,使文本分类结果更加理想,已有的测试结果证明了这一点,尤其在测试文本与训练文本集中的某些文本直观上较相似时,结果更佳。  相似文献   

2.
传统的k近邻(k-nearest neighbors,kNN)文本分类中,由于文本被表示成向量空间模型后维数非常高,且训练文本的数目巨大,kNN分类算法通常被视为是一种虽然有效,但并非高效的文本分类算法。针对传统kNN分类算法效率低下的问题,提出了一种基于投影寻踪思想的kNN分类算法加速策略。基本思想是:通过投影的方法缩减训练集的规模,同时在寻找k近邻过程中对文本进行降维处理,从两方面着手降低算法的计算开销。实验数据表明,优化后的kNN算法比传统kNN算法在时间性能上有较大的提升,同时保证了分类的精度。  相似文献   

3.
kNN算法在文本分类中的改进   总被引:4,自引:0,他引:4  
kNN算法用已归类的数据训练分类器,它是一种基于实例研究(instance_based learning)文本分类算法,本文在研究kNN算法的基础上,结合k邻近法和最近特征线法的思想,提出了新的分类方法,k最近特征线法(k nearest feature line,kNFL),将其运用于文本分类中,汲取了kNN算法和NFL算法的优点,降低了偶然误差,提高了算法适应性和分类精度。  相似文献   

4.
一种基于模糊C均值的新分类算法   总被引:1,自引:0,他引:1  
以两种初始化类中心的选择算法为基础, 对传统聚类算法模糊C均值算法进行改进, 提出一种基于模糊C均值的新分类算法NFCM, 解决了数据分类问题, 并采用UCI上的标准数据集中多个常用数据集进行实验测试, 实验结果表明, 对于UCI上标准数据集的常用数据具有较好的分类结果.  相似文献   

5.
针对一类基于模糊感知器的神经模糊分类器,分析了隶属函数限制条件对分类结果的影响。并根据模糊密度的概念,提出一种为输入特征选择合适的模糊划分的方法。仿真结果表明了该方法的有效性。  相似文献   

6.
文本自动分类系统是信息处理的重要研究方向,在文献检索、信息过滤和文本管理等领域中有着广泛的应用。介绍了一种基于模糊模式识别以及向量空间模型提取特征向量的中文文本分类器的设计与实现。  相似文献   

7.
一种基于模糊C均值的新分类算法   总被引:1,自引:0,他引:1       下载免费PDF全文
以两种初始化类中心的选择算法为基础, 对传统聚类算法模糊C均值算法进行改进, 提出一种基于模糊C均值的新分类算法NFCM, 解决了数据分类问
题, 并采用UCI上的标准数据集中多个常用数据集进行实验测试, 实验结果表明, 对于UCI上标准数据集的常用数据具有较好的分类结果.  相似文献   

8.
介绍一种新的粗集编码模糊神经分类器。基于粗集理论的概念,讨论了知识编码、属性简化、分类系统简化的方法;并利用模糊隶属度函数将输入精确信息映射为模糊变量信息,解决分类中病态定义的数据问题和提高系统非线性映射的分类能力;提出了结合系统参数的重要性因子的网络的模糊推理方法和粗模糊神经分类器的网络结构以及有导师的最小平方误差学习训练算法。实现的粗集编码模糊神经分类器具有网络结构空间维数低、学习算法简单、网络训练时间短、非线性特性丰富等优点。  相似文献   

9.
通过引入模糊认知图进行文本分类模型研究,即在向量空间模型、粗糙集等方法基础上使用模糊认知图进行文本分类,指出这一研究不仅大大约简文本空间向量的冗余属性,降低研究的规模与复杂性,提高工作效率,而且该研究将使文本分类通过迭代计算考虑到各向量间的影响。  相似文献   

10.
为了有效地利用信息技术发展而产生的海量信息,信息检索与数据挖掘得到了快速的发展,通过对传统支持向量机的特点分析,针对其在文本分类中的局限性,采用了一种基于二叉树的模糊支持向量机的多分类算法,通过实验证明该算法有更好的抗干扰能力和更好的分类效果。  相似文献   

11.
文本自动分类是文本挖掘的基础,可广泛地应用于信息检索,web挖掘等领域.在分类前首先要将文本表示成计算机能处理的形式,提出了一种将隐含语义索引(LSI)与文本聚类相结合的中文文本自动分类的方法.在挖掘文本的语义信息,提高分类速度上均取得了较好的效果.通过实验验证了方法的有效性.  相似文献   

12.
基于汉字字频向量的中文文本自动分类系统   总被引:1,自引:0,他引:1  
提出了一种根据汉字统计特性和基于实例映射的中文文本自动分类方法。该方法采用汉字字频向量作为文本的表示方法。它的显著特点是引入线性最小二乘方估计(LinearLeastSquareFil,LLSF)技术建立文本分类器模型,通过对训练集语料的手工分类标引以及对文本和类别间的相关性判定的学习,实现了基于全局最小错误率的汉字———类别两个向量空间的映射函数,并用该函数对测试文本进行分类  相似文献   

13.
基于ELM特征映射的kNN算法   总被引:1,自引:0,他引:1  
研究了基于ELM特征映射的kNN算法,利用ELM特征映射,将原始数据映射到这种高维特征空间当中,使得数据间变得更加线性可分,即数据结构会变得简单,因此,在利用kNN算法进行分类时,利用ELM特征空间中对应的特征数据代替原始空间中的数据进行分类将会取得更好的分类效果.最后,来自MNIST和UCI中的几个数据集的仿真实验进一步验证了该算法的优良性能.  相似文献   

14.
基于SVM的分类方法综述   总被引:2,自引:0,他引:2  
本文介绍了文本分类的起源,常用的几类文本分类方法及基于SVM(Support Vector Machines)文本分类的基本原理和方法。并在分析文本分类的特点的基础上比较了在文本分类中应用SVM的优势及存在的问题。最后总结出了SVM在文本分类中应用的两个主要研究方向。  相似文献   

15.
讨论了在模糊商空间理论模型中模糊等价关系与X商空间的归一化距离等同这一特征在文本聚类搜索中的应用,并提出了模糊商空间下文本聚类的算法。  相似文献   

16.
提出了一种网络信息文本分类模型的建立方法。根据网络报文的特点,抽取其中关键词作为分类特征词条,并以报文关键词进行词频统计分析建立文本分模型。分别进行了基于最近邻决策和K-邻近决策的分类效果试验研究,结果显示:K-近邻决策的分类效果要优于最近邻决策的分类效果。  相似文献   

17.
分析了文本自动分类的关键理论及技术,给出一个已实现的基于向量空间模型(VSM)的文本自动分类系统的框架模型,重点描述此系统的实现算法.此算法在训练阶段通过部分训练集确定向量的特征提取维数,并提出一种平均值匹配阈值调整方法,从而在精度和效率方面优于传统的分类算法.实验表明此系统查准率为91.8%,查全率为85%.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号