首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到17条相似文献,搜索用时 86 毫秒
1.
提出了一种网络信息文本分类模型的建立方法,根据网络报文的特点,抽取其中关键词作为分类特征词条,并以报文关键词进行词频统计分析建立文本分模型,分别进行了基于最近邻决策和K-近邻决策的分类效果试验研究,结果显示,K-近邻决策的分类效果要优于最近邻决策的分类效果。  相似文献   

2.
中文文本分类是中文信息处理过程中的关键技术。本文介绍了中文文本分类的基本过程和基本原理,讨论了朴素贝叶斯(NB)、K-最近邻(KNN)、支持向量机(SVM)这三种中文文本分类方法,并对这三种分类方法进行分析和比较。  相似文献   

3.
中文文本分类是中文信息处理过程中的关键技术。本文介绍了中文文本分类的基本过程和基本原理,讨论了朴素贝叶斯(NB)、K-最近邻(KNN)、支持向量机(SVM)这三种中文文本分类方法,并对这三种分类方法进行分析和比较。  相似文献   

4.
分析了分段对文本分类的影响,提出了与文本语义密切相关的最大语义标志原则(MSMR)和段落间的语义激励原则(SIR),在模糊K-最近邻分类算法的基础上,应用这2个原则设计并实现了一种基于上下文的文本片断模糊分类算法.该算法依据SIR判断文本片段分类的相互影响,降低了片段分类的错误率,当某一片断类隶属度大于某一阈值时,依据MSMR判定可知,同一文档的后续片断均属于同一类别,这样就不用计算所有片断的类隶属度.实验表明:与模糊K-最近邻分类算法相比,所提算法能有效提高系统的查准率、查全率和正确率,其中查全率可提高16%以上;在同一会话中,由于被明确分类后的后续片段不需要计算类隶属度,所以算法总计算时间明显少于模糊K-最近邻分类算法,具有较高的分类效率.  相似文献   

5.
虽然最邻近决策规则能很好地解决数据集的非线性和非平衡性问题,但其没有学习过程.在此基础上,提出了一种利用聚类方法来浓缩训练样本,再根据最近邻准则进行决策的方法——核最近表面分类方法.通过实验将其与几种常用的统计分类方法进行对比,结果表明,核最近表面分类方法具有决策速度快、存储空间需求小等优点,同时也能够很好地处理非平衡...  相似文献   

6.
基于eCognition软件分别采用K-最近邻(KNN)分类、支持向量机(SVM)分类和CART决策树分类对GF-2遥感影像进行面向对象分类,并对3种分类方法的结果进行比较分析。结果表明:K-最近邻分类在影像准确性、复杂多样性、影像光谱混淆以及分布边界模糊等方面具有较高的识别能力。  相似文献   

7.
K-最近邻分类技术的新发展与技术改进   总被引:1,自引:0,他引:1  
K-最近邻算法是数据挖掘分类方法中最常用的算法之一.在很多实际问题上都有应用.本文对近年来基于K-最近邻算法的各种改进技术进行了分析.从速度提高和准确度提高两个方面给予了归纳.  相似文献   

8.
提出一种基于关键词学习的文本分类方法.采用LDA主题模型抽取文本的关键词,通过关键词的词袋构造文本的特征矩阵并进行PCA降维,将低阶特征矩阵输入由卷积神经网络和BP神经网络的混合网络中对文本分类进行学习.为提高文本分类效果,引入与BP神经网络同构的深度神经网络对BP神经网络的初始权值进行初始化.在多数据集上的实验表明,本文方法明显提高文本分类的准确率.  相似文献   

9.
对互联网海量短文本进行分类挖掘是网络内容安全的一种主要方法。然而,短文本固有的关键词特征稀疏和样本高度不均衡等特点,使得难以直接使用现有针对常规文本的分类算法。为此,使用逻辑运算数学模型和统计方法等对互联网海量短文本进行规则建模,并对互联网海量短文本的样本进行分析后建立一系列分类规则,然后与基于KNN+SVM混合模型进行测试比较。测试结果表明,针对互联网海量短文本,基于规则的分类模型更适用于互联网海量短文本的分类挖掘,同时该模型已经成功应用在上百个项目上,应用效果较好。  相似文献   

10.
将BP神经网络与K-最近邻(KNN)算法耦合起来,建立BK(BP-KNN)模型,该模型以前期模拟流量和相应影响要素作为BP神经网络的输入,出口断面流量作为网络输出,对产汇流过程进行模拟;采用K-最近邻算法,基于历史样本的模拟误差和相应影响要素对网络输出进行修正,实现了非实时校正模式下的连续模拟。根据BK模型的计算流程将其参数分为3个层次,各层次分别使用NSGA-Ⅱ多目标优化算法进行参数优选,提高了模拟精度、优化效率和网络泛化能力。分别将新安江模型的产流、产流分水源计算模块与BK模型相耦合,建立 XBK (Xinanjiang runoff production-BK) 和 XSBK (Xinanjiang runoff production and separation-BK)模型,在呈村等3个不同类型的流域应用新安江模型、BK模型、XBK模型和XSBK模型进行模拟精度比较,结果表明改进的模型模拟精度更高,较好地解决了神经网络模型在水文模拟中存在的问题。  相似文献   

11.
针对网络文本信息的安全性判别问题,采取改进的邻近分类算法挖掘文本.该改进邻近分类方法在传统方法定义分类特征的同时,起用共线性判别矩阵,对具有共线属性的特征合并处理.这种改进策略,不仅可以增加分类特征的准确性,也可以加快文本信息的分类进程.对Spambase语料库开展实验研究,从精度、召回率、联判度、误差4个维度对分类效果进行评价.结果显示:改进的邻近分类方法具有明显的优势,可以更加准确地区分安全文本和危险文本.  相似文献   

12.
基于词向量空间模型的中文文本分类方法   总被引:4,自引:0,他引:4  
大多文本分类方法是基于向量空间模型的,基于这一模型的文本向量维数较高,导致分类器效率难以提高。针对这一不足,该文提出基于词向量空间模型的文本分类方法。其主要思想是把文本的特征词表示成空间向量,通过训练得到词-类别支持度矩阵,根据待分文本的词和词-类别支持度矩阵计算文本与类别的相似度。实验证明,这一分类方法取得了较高的分类精度和分类效率。  相似文献   

13.
根据模式聚合理论提出了一种文本特征降维的新方法.结合动态Kohonen网络理论检验了文本分类效果.在网络训练阶段引入了监督机制,提高了网络的分类速度和精度.应用模式聚合(PA)理论建立文本集的向量空间模型,从分类贡献的角度强化了词条的作用,消减了原词条矩阵中包含的冗余模式,有效地降低了向量空间的维数,提高了文本分类的精度和速度,并通过实验证明了该方法的泛化能力.  相似文献   

14.
邻区关系的自动建立和更新作为SON(self-organized network)的一个重要方面,直接影响到网络的整体性能和切换性能。基于传统的邻区列表优化方法,通过对传统邻区流程添加自优化功能,提出了一种新的邻区列表优化方法。在核心网和基站间建立X2接口连接,并通过对该接口中的连接信息进行分析和判断,解决PCI(physi-cal cell identity)冲突及PCI不稳定问题。仿真结果表明,该方法能够自动完成邻区列表更新,解决邻区列表的不合理配置,并且能够提高切换成功率,减小小区掉话率。  相似文献   

15.
基于两步策略的中文短文本分类研究   总被引:3,自引:0,他引:3  
为更好地挖掘文本信息,研究了将两步策略用于中文短文本分类的3个关键问题,提出了基于组合朴素贝叶斯(NB)和K近邻(KNN)分类器的两步中文短文本分类方法:(1)直接利用NB和KNN的输出构造其对应的二维空间,根据该空间内错误文本的分布将测试文本集分为3部分:能被KNN可靠分类的文本集A,不能被KNN可靠分类但能被NB可靠分类的文本集B,其他文本集C.(2)用KNN、NB分别对文本集A和B进行分类,根据训练语料的类别分布,直接给属于文本集C的文本分配标签.与NB、KNN和支持向量机(SVM)的对比实验表明,该方法可获得较高的分类性能.  相似文献   

16.
基于投影寻踪的kNN文本分类算法的加速策略   总被引:1,自引:1,他引:0  
传统的k近邻(k-nearest neighbors,kNN)文本分类中,由于文本被表示成向量空间模型后维数非常高,且训练文本的数目巨大,kNN分类算法通常被视为是一种虽然有效,但并非高效的文本分类算法。针对传统kNN分类算法效率低下的问题,提出了一种基于投影寻踪思想的kNN分类算法加速策略。基本思想是:通过投影的方法缩减训练集的规模,同时在寻找k近邻过程中对文本进行降维处理,从两方面着手降低算法的计算开销。实验数据表明,优化后的kNN算法比传统kNN算法在时间性能上有较大的提升,同时保证了分类的精度。  相似文献   

17.
一种提高文本聚类算法质量的方法   总被引:1,自引:0,他引:1  
针对基于VSM(vector space model)的文本聚类算法存在的主要问题,即忽略了词之间的语义信息、忽略了各维度之间的联系而导致文本的相似度计算不够精确,提出基于语义距离计算文档间相似度及两阶段聚类方案来提高文本聚类算法的质量.首先,从语义上分析文档,采用最近邻算法进行第一次聚类;其次,根据相似度权重,对类特征词进行优胜劣汰;然后进行类合并;最后,进行第二次聚类,解决最近邻算法对输入次序敏感的问题.实验结果表明,提出的方法在聚类精度和召回率上均有显著的提高,较好解决了基于VSM的文本聚类算法存在的问题.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号