首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 0 毫秒
1.
采用基因集的形式对传统遗传算法的编码方式进行改进,再引入模拟退火的思想,提出一种基于基因集编码的遗传退火算法的文本特征抽取方法(GSGAA),并与遗传算法(GA)和模拟退火GA算法(SA-GA)进行比较实验。结果表明,GSGAA算法用于文本分类的特征抽取所得出结果的正确率和执行时间都比采用单基因进行编码的GA算法和GA-SA算法好,具有一定的应用价值。  相似文献   

2.
文本分类中的特征选取算法   总被引:3,自引:0,他引:3  
分析了常用的几种特征选取方法,提出了改进互信息算法。实验结果显示改进的互信息算法是可行的。  相似文献   

3.
应用特征聚合进行中文文本分类的改进KNN算法   总被引:14,自引:0,他引:14  
针对以KNN为代表的VSM模型存在的向量各特征项孤立处理问题 ,提出了一种应用特征聚合方式的改进算法·该算法通过CHI概率统计计算文本特征词对分类的贡献 ,将对分类有相同贡献的文本特征词聚合 ,使用它们共同的分类贡献模式代替传统算法中单个词对应向量一维的方式·该算法提高了稀有词对分类的贡献、强化了关联词的分类效果、并降低了文本向量的维数·与传统KNN算法进行的对比实验证明 ,该算法明显提高了分类的准确率和召回率  相似文献   

4.
文中介绍了使用核覆盖算法进行中文文本分类.研究了采取不同的特征选取方法、利用核覆盖算法进行文本分类的区别.通过实验,除互信息外的其它几种特征选取方法在核覆盖算法分类过程中均取得了较优的实验结果,可看出核覆盖算法在文本分类中是一个不错的方法.  相似文献   

5.
Boosting算法在文本自动分类中的应用   总被引:7,自引:0,他引:7       下载免费PDF全文
随着网络信息的迅猛发展,如何快捷、准确地识别和获取有用信息显得更为重要。文本自动分类系统是信息处理的重要研究方向,它是指在给定的分类体系下,根据文本的内容自动判别文本类别的过程。Boosting算法是一种新兴的机器学习算法。在文本分类中应用Boosting算法经过试验证明是有效的,并且优于目前的大多数分类算法。  相似文献   

6.
基于最大熵模型的文本分类算法对不同测试文档的训练结果相差较大.利用Boosting机制改进基于最大熵模型的分类算法,以提高该分类算法的稳定性.实验结果表明,该改进方法可以有效改善基于最大熵模型分类算法的稳定性,且分类精度也有一定的提高.  相似文献   

7.
文本分类特征选择是文本自动分类中首先要解决的重要问题。主要介绍了11种文本分类特征选择的方法,并选择其中的4种进行实验分析。实验结果说明:好的特征选择,对于提高文本分类的效率和效果至关重要。  相似文献   

8.
中文文本分类技术比较研究   总被引:2,自引:0,他引:2  
文本分类中特征选择、权重计算及分类算法三个阶段中都存在一些经典方法,在实际的中文文本分类任务中,如何从各阶段不同方法的组合中找到一个好的组合成为值得研究的问题。比较研究中文文本分类中各阶段经典方法的不同组合对分类效果的影响结果表明:采用CHI特征选择方法、TFIDF权重计算方法及SVM分类方法的组合为最佳组合。  相似文献   

9.
文本分类系统的设计和实现   总被引:1,自引:0,他引:1  
介绍了文本分类的基本过程及其关键技术,提出了一个文本分类系统的结构模型,并对该模型进行了测试。  相似文献   

10.
针对中文微博句子倾向性分类问题,在充分降低由于情感词典的扩充工作带来系统开销的基础上,抽取了中文微博句子中标点符号、情感词权重、词汇级和句法级等新型平面和结构化特征,探索了有效的特征选择方法.在基准COAE和NLP&CC中文微博语料上进行双向交叉和独立实验,并研究了有效的不平衡性语料的处理方法.实验结果表明:采用该文提出的特征后,中文微博句子倾向性分类的性能得到显著提升.  相似文献   

11.
为方便中文文本分类过程算法研究,阐述中文文本分类的基础技术,提出基于构件的中文文本分类技术研究辅助平台.该平台对大多数分类中使用的算法在中文文本分类中的应用效果进行了研究.实验结果表明: 该平台可以通过计算分类器分类准确率的宏平均值比较分类算法与特征选择算法的性能,可以评估语料库的可用性,能够用于研究中文分词、特征选择、分类算法等中文文本分类技术问题.  相似文献   

12.
13.
基于关联规则的中文文本分类算法的改进   总被引:4,自引:1,他引:4  
随着中文电子刊物和Web文档数量的飞速增加,中文文本自动分类工作变得日益重要.将文档视为事务,将关键词视为项,文本预处理时提出特征权重阈值,用构造的分类器对未知文档分类时,采用了CDD(Class Differen-tiate Degree)改进算法,对基于关联规则挖掘的中文文本自动分类方法进行了改进.实验结果表明,该算法能较快地获得可理解的规则并且具有较好的宏平均和微平均值.  相似文献   

14.
刘洋 《科技信息》2007,(3):54-54
文本分类的主要任务是在预先给定的类别标记集合下,根据文本内容判定它的类别。特征选择是文本分类中的一个重要环节。本文对文档频率(DF)、信息增益(IG)、互信息(MI)、x2统计量(CHI)四种特征选择方法在中文语料上进行了性能比较。实验结果表明IG方法较其它三种方法有一定的优势。  相似文献   

15.
一种组合型中文文本分类特征选择方法   总被引:1,自引:1,他引:1  
根据基于频数分布和基于互信息的特征选择模式的特点,将传统的tf-idf因子以及基于互信息的特征选择方法分别进行了改进,并在此基础上提出了一种新的组合型特征选择方法。试验结果表明,该算法提高了文本分类的准确率。  相似文献   

16.
提出了一种基于特征项扩展的中文文本分类方法.该方法首先对文档的特征词进行分析,然后利用HowNet抽取最能代表主题的特征义原,接着根据这些义原对特征项进行扩展,并赋予扩展的特征项适当权值来说明其描述能力.最后利用扩展的特征项集提取特征进行分类.该文重点研究了如何抽取特征义原,如何给扩展项设定一个合适的权值.实验证明,该文方法能增加有效的特征项的数目,使分类正确率和稳定性均得到提高.  相似文献   

17.
特征选择是影响文本分类技术发展的关键因素之一.本文针对χ2统计和互信息两种特征选择评估函数存在的不足展开研究,根据两者之间的互补性提出了一种联合的特征抽取评估函数.试验结果表明:使用该评估函数所得到的查准率和查全率高于使用互信息和χ2统计所得到的查准率和查全率.  相似文献   

18.
胡鑫 《甘肃科技》2006,22(5):119-120
在自动文本分类系统中,特征选择是有效降低文本向量维数的一种方法。在分析了常用的一些特征选择评价函数的基础上,提出了一个新的评价函数,即互信息差值。实验证明这一方法简单可行,有助于提高所选特征子集的有效性。  相似文献   

19.
中文文本挖掘的特征导航机制   总被引:9,自引:0,他引:9  
文本挖掘是从非结构化的文本中发现潜在的概念以及概念间的相互关系·鉴于中文文本的特点,提出了基于因子分析的文本特征抽取机制·通过识别文本中潜在的概念结构来抽取特征项,而且有助于改善向量空间模型中各个分量间的斜交现象·同时给出了基于概念的信息导航机制,按概念层次和上下文环境展现用户所关心的内容  相似文献   

20.
面向微博短文本的细粒度情感特征抽取方法   总被引:1,自引:0,他引:1  
结合TF-IDF方法与方差统计方法, 提出一种实现多分类特征抽取的计算方法。采用先极性判断, 后细粒度情感判断的处理方法, 构建细粒度情感分析与判断流程, 并将其应用于微博短文本的细粒度情感判断。通过NLP&CC2013评测所提供的训练语料对该方法有效性进行验证, 结果表明该方法具有较好的抽取效果。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号