首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 125 毫秒
1.
针对传统的基于VSM的文本分类算法未能考虑到VSM中各特征向量间相互影响关系,构成VSM的词条集合并不能完全、准确地反映文本的内容,分类精度不是很理想的问题,提出了一种基于LSI和Rough集的文本分类方法.在构造VSM的过程中引入了LSI理论,将语义关系体现在VSM中,从而减少了向量空间的维数,然后再运用粗糙集理论中规则推理方法,建立文本分类的规则库,对于任意一个未知文本,只需要将其条件属性与规则库中的规则进行相似匹配,即可完成分类.实验表明,该方法在文本分类的精度和效率方面比传统的基于VSM的文本分类方法均有10%以上的提高.  相似文献   

2.
基于LSI和Rough集的文本分类研究   总被引:2,自引:0,他引:2  
针对传统的基于VSM的文本分类算法未能考虑到VSM中各特征向量间相互影响关系,构成VSM的词条集合并不能完全、准确地反映文本的内容,分类精度不是很理想的问题,提出了一种基于LSI和Rough集的文本分类方法.在构造VSM的过程中引入了LSI理论,将语义关系体现在VSM中,从而减少了向量空间的维数,然后再运用粗糙集理论中规则推理方法,建立文本分类的规则库,对于任意一个未知文本,只需要将其条件属性与规则库中的规则进行相似匹配,即可完成分类.实验表明,该方法在文本分类的精度和效率方面比传统的基于VSM的文本分类方法均有10%以上的提高.  相似文献   

3.
针对兼类文本分类的问题,本文提出了一个对不带任何类别标记的文本进行准确分类的方法。首先利用SVM的1-a-1兼类文本分类算法为不带类别标记的文本进行初始分类,不能准确分类的处于类属模糊区的文本让训练好的NBC分类器再分类。实验结果表明,可得到较准确的分类结果。  相似文献   

4.
对目前比较流行的4种中文文本分类器(Rocchio、KNN、Naive Bayes、最大熵)进行评价,其中,Naive Bayes和最大熵是基于概率统计的方法,而Rocchio和KNN是基于向量的相似度计算的方法.选用χ2作为文本特征选取方法,对一个中文文本分类语料库进行分类评测.实验结果表明,最大熵和Naive Bayes的分类性能十分接近,处于较好水平,而KNN和Rocchio分类性能稍差一些.  相似文献   

5.
对目前比较流行的4种中文文本分类器(Rocchio、KNN、Naive Bayes、最大熵)进行评价,其中,Naive Bayes和最大熵是基于概率统计的方法,而Rocchio和KNN是基于向量的相似度计算的方法.选用χ2作为文本特征选取方法,对一个中文文本分类语料库进行分类评测.实验结果表明,最大熵和Naive Bayes的分类性能十分接近,处于较好水平,而KNN和Rocchio分类性能稍差一些.  相似文献   

6.
文本自动分类是文本挖掘的基础,可广泛地应用于信息检索,web挖掘等领域.在分类前首先要将文本表示成计算机能处理的形式,提出了一种将隐含语义索引(LSI)与文本聚类相结合的中文文本自动分类的方法.在挖掘文本的语义信息,提高分类速度上均取得了较好的效果.通过实验验证了方法的有效性.  相似文献   

7.
对目前比较流行的4种中文文本分类器(Rocchio、KNN、Naive Bayes、最大熵)进行评价,其中,Naive Bayes和最大熵是基于概率统计的方法,而Rocchio和KNN是基于向量的相似度计算的方法。选用X2作为文本特征选取方法,对一个中文文本分类语料库进行分类评测。实验结果表明,最大熵和Naive Bayes的分类性能十分接近,处于较好水平,而KNN和Rocchio分类性能稍差一些。  相似文献   

8.
计算文本相似度常用的方法是计算以VSM表示的文本之间的夹角余弦值,但这种方法并没有考虑文本中词语之间的语义相似度.另外由于计算余弦值时要考虑VSM向量对齐,从而导致计算的高维度、高复杂性.《知网》作为一个汉语常用的知识库得到广泛的研究,利用该知识库能方便地求得汉语词语之间的相似度.利用《知网》计算每篇文本中词语之间的相似度,对VSM进行改进,用少量特征词的TF/IDF值作为改进后的VSM向量中的权重,进而计算文本之间的相似度.通过比较改进前后的VSM的维数、召回率和准确率,结果显示,改进后的算法明显降低了计算的复杂度并提高了召回率和准确率.  相似文献   

9.
针对网络文本信息的安全性判别问题,采取改进的邻近分类算法挖掘文本.该改进邻近分类方法在传统方法定义分类特征的同时,起用共线性判别矩阵,对具有共线属性的特征合并处理.这种改进策略,不仅可以增加分类特征的准确性,也可以加快文本信息的分类进程.对Spambase语料库开展实验研究,从精度、召回率、联判度、误差4个维度对分类效果进行评价.结果显示:改进的邻近分类方法具有明显的优势,可以更加准确地区分安全文本和危险文本.  相似文献   

10.
针对基于内容的文本分类问题,提出了一种Agent与朴素贝叶斯分类(Naive Bayes)相融合的反馈分类模型和算法(Agent-NB).朴素贝叶斯分类是一种简单而有效的文本分类方法,然而有限大小的训练样本集,一般不具备良好的数据完备性,难以一次性构造出高性能的分类模型.基于Agent-NB的反馈分类模型,可结合Age...  相似文献   

11.
提出了一种基于机器学习的Web文本自动分类的信息检索解决方案。采用层次约束法完成文本自动抓取功能,文本频度与词条频度相结合的文本特征选择算法实现特征提取,并采用特征加权技术进一步提高文本分类性能。该算法不仅实现中文文本的自动分类,有效地提高Web信息检索的精度,而且能大大降低人工二次浏览筛选的工作量,还可用于电子政务和电子商务信息的自动分类。  相似文献   

12.
研究了基于向量空间模型的自动文本分类方法,提出了位置权和词的位置区分度的概念,给出了一个带有位置信息的词权重计算方法,并给出了基于该方法的文本分类算法.实验结果表明,该方法是有效的,提高了文本分类的精度.  相似文献   

13.
Web multimedia information retrieval using improved Bayesian algorithm   总被引:2,自引:0,他引:2  
The main thrust of this paper is application of a novel data mining approach on the log of user‘ s feedback to improve web multimedia information retrieval performance. A user space model was constructed based on data mining, and then integrated into the original information space model to improve the accuracy of the new information space model. It can remove clutter and irrelevant text information and help to eliminate mismatch between the page author‘ s expression and the user‘ s understanding and expectation. User spacemodel was also utilized to discover the relationship between high-level and low-level features for assigning weight. The authors proposed improved Bayesian algorithm for data mining. Experiment proved that the au-thors‘ proposed algorithm was efficient.  相似文献   

14.
针对路由冲突下语义特征信息进行查准,一直存在查准率低的问题。提出一种新的语义特征信息查准算法,首先构建路由冲突下语义网的本体模型,提高语义网中数据的特征分类挖掘和检索能力;接着采用概念树三叉分割思想,实现路由冲突下的语义特征信息的分析;最后通过灰色关联度信息综合评价方法解决语义多属性决策问题,提高了路由冲突下语义特征信息查询的查准率。实验仿真结果证明,采用改进的查准算法在路由冲突下进行语义信息检索其查准率较高,语义特征提取结果准确,提高了语义搜索的准确度,应用价值较高。  相似文献   

15.
基于多类特征池化的文本分类算法   总被引:2,自引:0,他引:2  
文本分类是文本挖掘的一个内容,在信息检索、邮件过滤、网页分类等领域有着广泛的应用价值。目前文本分类算法在特征表示上的信息仍然不足,对此本文提出了基于多种特征池化的文本分类算法。在该算法中,本文首先对分词后的文本采用skip-gram模型获取词向量,然后对整个文本的词向量进行多种池化,最后将多种池化的特征作为一个整体输入到Softmax回归模型中得到文本的类别信息。通过对复旦大学所提供的文本分类语料库(复旦)测试语料的实验,该结果表明本文所给出的多种特征池化方法能够提高文本分类的准确率,说明了本文算法的有效性。  相似文献   

16.
一种提高文本聚类算法质量的方法   总被引:1,自引:0,他引:1  
针对基于VSM(vector space model)的文本聚类算法存在的主要问题,即忽略了词之间的语义信息、忽略了各维度之间的联系而导致文本的相似度计算不够精确,提出基于语义距离计算文档间相似度及两阶段聚类方案来提高文本聚类算法的质量.首先,从语义上分析文档,采用最近邻算法进行第一次聚类;其次,根据相似度权重,对类特征词进行优胜劣汰;然后进行类合并;最后,进行第二次聚类,解决最近邻算法对输入次序敏感的问题.实验结果表明,提出的方法在聚类精度和召回率上均有显著的提高,较好解决了基于VSM的文本聚类算法存在的问题.  相似文献   

17.
Bayesian方法的计算学习机制和问题求解   总被引:19,自引:0,他引:19  
从信息熵的角度讨论了无信息先验分布的Bayesian假设的合理性 ,着重分析了贝叶斯方法的计算学习机制 ,得出贝叶斯定理是将先验分布中的期望值与样本均值按各自的精度进行加权平均 ,精度越高者其权值越大 ,合理地综合了先验信息和后验信息。在共轭先验分布的前提下 ,可以将后验信息作为新的一轮计算的先验 ,用 Bayesian定理与进一步得到的样本信息进行综合。多次重复这个过程后 ,样本信息的影响越来越显著。因此 ,合理正确地指派先验分布对提高学习的效率和质量有重要意义。 Bayesian方法既可避免只使用先验信息可能带来的主观偏见 ,和缺乏样本信息时的大量盲目搜索 ,也可避免只使用后验信息带来的噪音的影响。因此 ,适用于具有概率统计特征的数据采掘和知识发现问题 ,尤其是样本难得或代价昂贵的问题。  相似文献   

18.
针对中文网页文本分类中特征降维方法和传统信息增益方法的缺陷和不足做出优化改进,旨在有效提高文本分类效率和精度.首先,采取词性过滤和同义词归并处理对特征项进行初次特征降维,然后提出改进的信息增益方法对特征项进行特征加权运算,最后采用支持向量机(SVM)分类算法对中文网页进行文本分类.理论分析和实验结果都表明本方法比传统方法具有更好的性能和分类效果.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号