首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 500 毫秒
1.
为了实现哈萨克语文本分类,根据哈萨克语语法规则,给出了哈萨克语文本词干的提取方法;结合DFR特征选择方法和VSM文本表示模型实现哈萨克语文本的预处理,提出了一种SVM和修正KNN协同的文本分类算法,分别在自行构建的语料集和整理的《新疆日报》哈萨克语数据集上进行大量文本分类仿真实验.结果表明,该方法在哈萨克语文本分类上具有良好的分类性能,并比SVM,KNN的测试性能优越.  相似文献   

2.
根据哈萨克语语法规则设计实现哈萨克语文本的词干提取,完成哈萨克语文本的预处理.提出基于最近支持向量机的样本距离公式,结合SVM与KNN分类算法实现了哈萨克语文本的分类.结合构建的哈萨克语文本语料库的语料进行文本分类仿真实验,结果表明所提出的算法是有效的.  相似文献   

3.
基于LSA降维的KNN文本分类算法   总被引:1,自引:0,他引:1  
针对文本自动分类问题,提出了一种基于LSA降维的KNN改进算法.通过对文本特征向量运用LSA理论进行降维处理,可以有效提高KNN算法的运行效率,提高分类精度.实验证明,改进的KNN算法具有很好的性能.  相似文献   

4.
利用改进的SVM分类算法处理汉语语音识别结果文本的分类问题,针对语音识别文本的特点简化了文本分类的预处理过程,调整支持向量机的分类超平面,并且自动优化参数,结合实际的识别结果文本集测试了改进的SVM性能,同时实现了KNN和贝叶斯分类算法,对3种分类性能进行了评价.  相似文献   

5.
在文本分类中,数据规模过大或文本分布不均匀对传统KNN算法的准确率和效率具有重要影响。为了解决该问题,文章提出一种基于粗糙KNN(k-nearest neighbor)算法的文本分类新方法。首先引入粗糙集中的上下近似概念定义各类文本的上下近似空间,将文本向量空间分为核心和混合2大区域;然后改进传统KNN算法的隶属度函数;再针对不同的文本区域,采取差异化的分类策略以提高分类的效率和准确率。实验表明,基于粗糙KNN算法的文本分类方法在提高分类准确率的同时,分类的效率也有很大提高。  相似文献   

6.
基于样本重要性原理的KNN文本分类算法   总被引:1,自引:0,他引:1  
KNN是重要数据挖掘算法之一,具有良好的文本分类性能.传统的KNN方法对所有样本权重看作相同,而忽略了不同样本对于分类贡献的不同.为了解决该个问题,提出了一种样本重要性原理,并在此基础上构造KNN分类器.应用随机游走算法识别类边界点,并计算出每个样本点的边界值,生成每个样本点的重要性得分,将样本重要性与KNN方法融合形成一种新的分类模型——SI-KNN.在中英文文本语料上的实验表明:改进的SI-KNN分类模型相比于传统的KNN方法有一定的提高.  相似文献   

7.
一种新颖的基于马氏距离的文本分类方法的研究   总被引:1,自引:0,他引:1  
KNN(k最近邻算法)是文本挖掘领域最成熟最简单的分类方法之一.该方法对文本分类中的距离参数的选取敏感,错误的选择将导致分类精度降低,影响最终分类效果,该缺陷限制了KNN分类器在文本数据挖掘中的应用.因此,本文将马氏距离引入到文本分类领域,并将其与KNN算法相结合,提出了一种基于马氏距离的新的文本分类方法(Mahala...  相似文献   

8.
针对文本分类存在的高维文本问题,提出文档频率(DF)-卡方统计量特征提取方式,对特征项进行有效约减,降低文本维度,提高分类精度.在K最近邻(KNN)算法的基础上,针对待分类文本需要和大量训练集样本进行相似度计算的问题,提出一种基于分组中心向量的KNN算法,对类别内的样本集分组求出各组中心向量,使其重新代表训练库计算相似度,降低计算复杂度,提升算法的分类性能.通过实验表明:相较传统KNN算法,改进的算法在准确率、召回率及F值方面都有提升,与其他分类算法相比,具有一定的优势.  相似文献   

9.
KNN文本分类算法中的特征选取方法研究   总被引:1,自引:0,他引:1  
曹勇  吴顺祥 《科技信息》2006,(12):26-28
对基于中文的文本分类过程进行了介绍,重点介绍了文本分类中几种特征选取的方法,详细介绍了KNN分类算法,最后介绍了文本分类的评估方法并通过实验测试对比了几种特征选择的方法在基于KNN技术的文本分类中的使用效果.  相似文献   

10.
阐述了注入式攻击及KNN算法的相关概念并探讨了注入式攻击行为检测与文本分类技术的关系.结合KNN算法的优点及注入式攻击行为检测与文本分类的相似性,提出了Web日志中基于KNN算法的注入式攻击检测方法,给出了其计算模型,并进行了检测对此.结果表明,该方法具有良好的检测准确度.  相似文献   

11.
在使用KNN算法进行大规模文本分类,需要处理频繁的迭代运算,针对现有Hadoop平台迭代运算效率较低的问题,本文提出一种基于Spark平台的并行优化KNN算法.主要从3个方面对算法进行优化,首先,对于训练数据集通过剪枝算法控制有效数据的规模,从而减少迭代运算的次数;其次,针对高维数据集采用ID3算法利用信息熵进行属性降维,减少文本相似度的运算量;最后,使用Spark并行计算平台,引入内存计算最大限度地减少了迭代运算的I/O次数,提高处理速度.通过实验,与常用的KNN算法相比,基于Spark的KNN文本并行分类算法在加速比、扩展性等主要性能指标上表现较优,能够较好地满足大规模文本分类的需求.  相似文献   

12.
应用特征聚合进行中文文本分类的改进KNN算法   总被引:14,自引:0,他引:14  
针对以KNN为代表的VSM模型存在的向量各特征项孤立处理问题 ,提出了一种应用特征聚合方式的改进算法·该算法通过CHI概率统计计算文本特征词对分类的贡献 ,将对分类有相同贡献的文本特征词聚合 ,使用它们共同的分类贡献模式代替传统算法中单个词对应向量一维的方式·该算法提高了稀有词对分类的贡献、强化了关联词的分类效果、并降低了文本向量的维数·与传统KNN算法进行的对比实验证明 ,该算法明显提高了分类的准确率和召回率  相似文献   

13.
文本分类是文本数据挖掘中的一个重要的内容,现阶段文本分类用到的主要算法有KNN,贝叶斯,神经网络等。KNN算法因为原理简单,分类效果较好,在文本分类中得到应用,但在数据量大时其运行效率上存在一定的局限性,本文提出一种基于中心抽样的KNN算法,并用20newsgroup数据集对其进行验证,在不影响准确率的情况下,提高了运行效率,取得了不错的效果。  相似文献   

14.
利用已经分类得到的类别标记结果之间的相关性,提出一种迭代的改进ML—KNN算法(I-ML-KNN),以提高多标记文本的分类效果.实验表明,改进的ML-KNN算法具有可行性和有效性.  相似文献   

15.
K-近邻分类(KNN)是著名的模式识别统计学方法之一,被广泛应用于文本分类、图像处理等领域。因其实现思想的简单性及基于实例的分类方法,可作为人工智能课程的入门案例算法。由于KNN分类识别过程中懒散的学习方式,在理论与实践教学上存在着一定的难度。通过对KNN算法的研究和软件教学系统的分析与设计,实现了基于Visual C#的KNN各种演示方法和辅助教学系统;改进了教学手段,提高了教学质量。  相似文献   

16.
针对k近邻(k-nearest neighbor,KNN)算法在土地覆盖分类中存在将山体阴影覆盖下植被误分成水体的问题,提出改进的KNN算法。改进算法充分利用神经网络能有效区分山体阴影覆盖下植被和水体的特性,实现BP神经网络与KNN算法的融合,整体提高了北京市密云区土地覆盖分类精度。实验结果表明:相对于支持向量机(support vector machine,SVM)、随机森林、BP神经网络和KNN算法,改进算法分类精度最高,达到了95.20%,分类精度比未改进KNN算法提高了6.43%。改进算法的Kappa系数在对比算法中也是最高的,达到0.93。此外,实验结果也表明改进算法可应用于中分辨率遥感图像分类中。  相似文献   

17.
分析了KNN分类算法的流程,然后在K值的动态获取和分类加权两个方面对分类算法进行改进;利用MapReduce编程思想完成KNN分类算法在Hadoop集群环境下的移植和实现。实验数据证明,改进后的KNN分类算法在人脸识别精度、识别效率和稳定性3个方面得到了有效提高。  相似文献   

18.
针对传统信息增益(IG)特征选择算法忽略词频分布的缺陷,该文提出一种新的IG特征选择算法.该算法通过引入均衡比和类内词频位置参数,解决了传统IG算法忽略词频分布对分类的弱化问题,修正传统类内词频位置参数,提高特征选择算法的文本分类精度,并将该改进IG特征选择算法用于最大熵模型(ME)对文本进行分类.实验结果表明:该文所提方法在进行文本分类时F1值高于传统IG算法.该文方法的ME分类精度高于K最近邻KNN(K-Nearest Neighbor)算法,说明本文方法是可行的、有效的.  相似文献   

19.
针对文本向量空间中特征项间的关联性及冗余性,提出了一种KNN算法运用于文本向量空间降维的方法,应用向量聚合理论和特征选择以降低特征空间维数,使得降维后的特征项更具有类别代表性.实验证明,KNN算法运用于文本降维方法中,有效地降低了向量空间的维数,提高了文本分类的精度.  相似文献   

20.
利用基于阈值聚类算法首先对带类标记的样本数据集进行有指导性聚类,其主要目的是压缩训练数据集,解决KNN分类算法的样本选择问题以及孤立点的发现,用少量的更具代表性的聚类中心替代KNN算法中巨大的样本集,然后利用聚类密度改进KNN分类算法,从而提高KNN分类检测的准确度和速度.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号