首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到17条相似文献,搜索用时 62 毫秒
1.
分析了文本自动分类的关键理论及技术,给出一个已实现的基于向量空间模型(VSM)的文本自动分类系统的框架模型,重点描述此系统的实现算法.此算法在训练阶段通过部分训练集确定向量的特征提取维数,并提出一种"平均值"匹配阈值调整方法,从而在精度和效率方面优于传统的分类算法.实验表明此系统查准率为91.8%,查全率为85%.  相似文献   

2.
文本分类技术是文本挖掘的核心,本文简单介绍了该研究热点的研究动态、定义并针对其系统结构给出了一个简要的概述,然后分析了文本分类处理过程中的关键技术,最后对依然存在的某些问题进行了展望。  相似文献   

3.
文本分类是指在给定分类体系下,根据文本的内容自动确定文本类别的过程.阐述了一个文本分类系统的设计和实现。对文本分类系统的系统结构、预处理、特征提取、词义扩展、学习和识别过程、分类算法等进行了详细介绍。引入smooth技术改进词语权重,介绍向量空间模型.结果表明查全率和准确率均达到80%左右,而且smooth的引入有效地改善了分类性能.  相似文献   

4.
基于属性约简的方法,放弃以往复杂的规则匹配算法,提出将约简后的多种属性组进行析取,筛选特征项,并构造分类器.实验结果表明,此算法不仅简单,还能降低维数和提高分类结果.  相似文献   

5.
文本的自动分类   总被引:4,自引:3,他引:1  
主要介绍了文本分类的任务,给出了文本分类所用到的机器学习方法,并介绍了降维和几种文本自动分类器的算法,最后引入了评价分类器性能的两个参数。  相似文献   

6.
基于VSM的中文文本分类系统的设计与实现   总被引:25,自引:0,他引:25  
文本分类是指在给定分类体系下,根据文本的内容自动确定文本类别的过程。该文阐述了一个基于向量空间模型的中文文本分类系统的设计和实现。对文本分类系统的系统结构、预处理、特征提取、训练算法、分类算法等进行了详细介绍。引入标题权重系数改进词语权重,并提出了一种新的分类算法。实验测试结果表明查全率和准确率均达到90%左右,而且标题权重的引入和新分类算法的实施有效地改善了分类性能。  相似文献   

7.
基于投影寻踪回归文本自动分类的模型   总被引:2,自引:0,他引:2  
文本被表示为向量空间模型后,是维数非常高的数据,对其进行维数约简是必要的.投影寻踪正是一种稳健的、非参数化的维数约简方法.提出了一种基于投影寻踪回归的文本自动分类模型.应用该模型,可以真实地描述高维数据的客观内在规律,从而达到提高文本分类精度的目的,岭函数拟合函数的合理选择是提高分类精度的关键,故对拟合函数的选取做了初步的研究.采用标准文档集Reuters-21578进行了分类实验,同时在相同的预处理条件下,与目前常用的方法进行了对比实验.实验结果表明,该模型对文本自动分类具有较高的召回率和准确率.  相似文献   

8.
文本分类系统的设计和实现   总被引:1,自引:0,他引:1  
介绍了文本分类的基本过程及其关键技术,提出了一个文本分类系统的结构模型,并对该模型进行了测试。  相似文献   

9.
张浩  汪楠 《科技信息》2007,(23):95-96
文本分类就是在给定的分类体系下,让计算机根据文本内容自动确定相关类别的过程。介绍文本分类的研究背景,跟踪国内外文本分类技术研究动态。对文本分类过程中关键技术进行研究。讨论目前文本分类研究面临的问题,并对文本方向进行展望。  相似文献   

10.
一种基于VSM文本分类系统的设计与实现   总被引:10,自引:0,他引:10  
阐述了一个基于改进向量空间模型的中文文本分类系统的设计与实现 ,包括对该系统的结构、预处理、特征提取、训练算法 ,分类算法等关键技术的介绍 .通过引入结构层次权重系数来改进文本特征项权重 ,同时提出一种新的训练算法和文本相似度域值计算方法 .实验结果证明 :该分类系统能有效地提高文本分类效果 ,开放性测试的平均准确率在 80 %以上 ,且平均查全率达到了 86 % .  相似文献   

11.
基于命名实体的Web新闻文本分类方法   总被引:1,自引:0,他引:1  
文章对Web新闻领域的文本自动分类问题进行了研究,提出一种基于新闻实体要素的分类方法;在应用空间向量模型的基础上,充分考虑命名实体对Web新闻文本分类的特殊作用,并进行了实验.实验结果表明,以新闻实体要素为特征的文本分类系统可得到较高的分类精度,该方法具有一定的实用价值.  相似文献   

12.
一种改进的朴素贝叶斯分类器在文本分类中的应用研究   总被引:1,自引:0,他引:1  
文本分类是数据挖掘领域中重要的研究分支.通过对自适应遗传算法和朴素贝叶斯分类器的研究,提出一种基于自适应遗传算法的朴素贝叶斯分类算法.将该算法应用于中文文本分类中,可以生成最优贝叶斯分类器及最优属性集合,提高分类精度.  相似文献   

13.
针对传统特征选择算法的不足, 提出一种新的特征选择算法. 该算法能综合度量一个特征在类内和类间的重要性, 并在3个不同的数据集上利用2个分类器与5个现有的特征选择方法进行了对比实验. 实验结果表明, 该算法进一步降低了特征向量空间的维度, 并有效提高了分类器的分类性能.  相似文献   

14.
基于特征贡献度的特征选择方法在文本分类中应用   总被引:1,自引:0,他引:1  
在目前的文本分类问题中,特征选择方法被认为是提高分类精度和效率的一种有效方法.提出了一种基于特征贡献度FCD(feature contribution degree)的特征选择方法,本方法将某个特征对于类别之间区分能力的贡献度大小作为该特征被选取的条件,特征对于某一类别的FCD值为特征在该类中出现的文档数与在所有类别中出现的文档数的比值.对该方法进行了实验,并与一些常用的特征选择方法进行了比较,实验结果表明该方法具有更好的分类效果.  相似文献   

15.
传统的文本表示是在向量空间模型的基础上,采用特征选择方法降低文本的维数,这种方法认为文本中词语是相互独立的,没有考虑彼此之间的语义信息.文章提出一种新的基于语义特征选择的文本分类方法,在已有特征选择的基础上,利用词语之间的语义关联性,将那些与已选择的词语具有密切联系的词语加入词语特征空间.实验表明,该方法与已有的特征选...  相似文献   

16.
中文文本分类相关算法的研究与实现   总被引:2,自引:0,他引:2  
通过对分词歧义处理情况的分析, 提出一种基于上下文的双向扫描分词算法, 对分词词典进行改进, 将词组短语的固定搭配引入词典中. 讨论了特征项的选择及权重的设定, 并引进χ2统计量参与项的权值计算, 解决了目前通用TF-IDF加权法的不足, 同时提出了项打分分类算法, 提高了特征项对于文本分类的有效性.
 实验结果表明, 改进后的权重计算方法性能更优越.  相似文献   

17.
分析了传统的互信息特征选择算法的不足,针对可能赋予低频特征词过高权重的问题,利用词频、集中度这两个强信息特征指标对算法进行改进,提出了一种基于词频和文本类别的互信息改进算法(Improved Mutual Infonnation Algodthm based on Word Frequency and Text Category,简称改进的MIFC)。实验结果表明,改进的MIFC算法提取的特征空间比传统的互信息算法有更高的精确度。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号