首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 187 毫秒
1.
本文针对中文文本主题词提取的TFIDF算法不足进行了改进,综合考虑关键词在文本中出现的频率及位置权重,设计了贝叶斯推理和TFIDF主题词提取混合算法,并基于候选词排序位置进行了正向、逆向和中间向前后的提取测试,结果表明,本算法比单纯TFIDF算法正向提取平均准确率提高了6.2%.  相似文献   

2.
针对垃圾文本识别计算的需求特性,应用VSM文本聚类算法思想,综合现有TFIDF算法特点,提出一种基于VSM和改进的TFIDF特征项提取算法.本方法在对垃圾文本高聚类特征项权值进行放大的同时,有效减小由二类数据样本数量偏差对计算结果带来的影响,提高了垃圾文本过滤识别效率和准确率.为垃圾文本识别提供了一种新的改进算法选择.  相似文献   

3.
针对社区问答系统问句相似度计算问题,提出了一种改进的TFIDF算法.按照用户的查询意图对问句进行分类,根据特征词在类别中的分布对权值进行调整;将问句的主题词归入特征项进行TFIDF计算.实验结果表明,本文改进的TFIDF算法的P@3比传统的TFIDF算法提高了7.66%,比TFIDF-IG算法提高了5.31%,而且P@5和P@10也有不同程度的提高,与传统TFIDF算法和参考改进算法相比,该算法明显提高了检索性能.   相似文献   

4.
设计了一种基于主题的Web文本聚类方法(HTBC):首先根据文本的标题和正文提取文本的主题词向量,然后通过训练文本集生成词聚类,并将每个主题词向量归类到其应属的词类,再将同属于一个词类的主题词向量对应的文本归并到用对应词类的名字代表的类,从而达到聚类的目的.算法分四个步骤:预处理、建立主题向量、生成词聚类和主题聚类.同时,对HTBC与STC、AHC、KMC算法从聚类的准确率和召回率上做了比较,实验结果表明,HTBC算法的准确率较STC、AHC和KMC算法要好.  相似文献   

5.
基于多向量模型,给出一种将话题主题信息与话题文本信息相结合的多向量话题表示方式,使用较低的维度来准确表示一个话题.针对传统TFIDF方法在文本分类问题中对特征项在各个类中分布情况考虑不充分的问题,给出了一种TFIDF改进方法.在TDT4的中文语料上,与传统向量空间模型进行了对比实验.实验结果表明,给出的话题表示方法和TFIDF改进算法能够在较低的维度上,使聚类的准确率得到较大提升.  相似文献   

6.
针对传统关键词抽取方法统计特征单一,常用位置特征对文本写作结构有局限性的问题,提出了一种新的关键词抽取方法。该方法根据关键词在文中出现位置的分布特性,计算并提取出新的间距特征,更加适用于当下网络文本随意多变的写作方式,同时考虑影响关键词识别的各个因素,通过多个特征的提取与结合,改善了一般位置特征和传统统计方法的不足之处。最终和传统TFIDF方法的对比实验结果中,文中所提出的方法各方面性能都有所提高,表明该方法是有效可行的。  相似文献   

7.
设计了一种用于OA系统主题词提取算法,该算法包括单句聚类、抽取代表句、代表句分词和主题词提取几个步骤。采用层次凝聚法作为单句聚类算法,研究公文句子的特点,设计了代表句抽取算法,根据公文群体较为单一的特点,建立主题词词库以及主题词提取规则库,对机械分词法进行改进,设计了代表句的分词算法,实现了公文搜索主题词的自动生成。  相似文献   

8.
文本分类作为处理和组织大量文本数据的关键技术,为用户准确、快速查找所需信息提供依据。通过TFIDF算法计算文本词汇的词频,并根据词频排序选择特征项,再用Simhash和余弦相似度算法计算文本之间的相似度,最后采用准确率和召回率为评价标准,根据评价结果分析两种算法的优劣。  相似文献   

9.
图像中的文本区域为判别图像垃圾邮件提供了重要依据.为了获得图像中的文本区域信息,提出了基于Hough变换提取图像中倾斜文本区域的算法和降低图像背景干扰的八邻域细小边缘去除算法,实现了一种不受图像中文本颜色、字体、大小、位置、方向限制的文本区域的自动提取方法.在包含100幅垃圾图像的数据集上进行提取图像文本区域的实验.实验结果显示,新方法具有良好的文本区域提取性能.  相似文献   

10.
特征权值的选择是文本分类技术的基础环节.在详细分析文本分类技术特点的基础上,基于信息熵理论建立了TF_IDF的改进算法模型;并根据实际工程数据,验证了算法模型的有效性.理论分析和实例验证表明该算法弥补了传统TFIDF算法没有考虑词条文本类间分布的不足,能更好的体现特征词条的权重,从而能有效提高分类的精确度.  相似文献   

11.
特征词提取是一项提炼整个web页面内容的实用技术,同时也为文本分类,信息抽取应用提供了技术支持.在web页面内容上,利用段落间语义关系划分出网页内容的篇章结构,并以此为基础使用网页的元数据和特殊标签,设计了一个特征词的加权函数,综合考虑了词频、词长和位置因子,最后,实验对比了各类位置因子对系统的贡献度.实验结果表明,改进方法的F1值比传统的TFIDF提取技术提高了15.5%,其中,位置因子中的标题,关键词和摘要因素对系统的贡献最大.  相似文献   

12.
一种基于朴素贝叶斯分类的特征选择方法   总被引:11,自引:0,他引:11  
由于朴素贝叶斯文本分类中的独立假设前提,使得在特征选择步骤能否准确有效地选出能代表文本的特征显得尤为重要,而特征选择标准中的MI标准与TFIDF标准其优缺正好互补,因此在用朴素贝叶斯文本分类方法中的多项式模型实现了一个web页面分类系统-WEBCAT的基础上,提出将MI标准与TFIDF标准结合进行特征选择.实验显示:用改进的方法可以更准确地选出能代表文本的特征,文本分类结果也比单独使用TFIDF标准或单独使用MI标准进行特征选择的分类结果更加精确.  相似文献   

13.
基于示例的中文文本过滤模型   总被引:13,自引:0,他引:13  
简要描述了文本过滤的背景,提出了基于示例的中文文本过滤模型,其基本思想是首先对于用户提出的示例文本进行文本结构分析,采用文本层次分析方法,提取文本特征,形成主题词表示的用户模板,然后进行文本过滤。  相似文献   

14.
基于语义的汉语文献主题词提取算法研究   总被引:10,自引:0,他引:10  
为了适应信息时代的迅速发展,提高从汉语文献中自动提取主题词的准确率,给出一种基于语义理解的汉语文献主题词自动提取算法模型.该模型以中文文本为处理对象,结合领域背景,构建概念语义网络作为分词词典和知识库,用概念之间的联系和匹配取代传统的字面匹配,克服了仅局限于表面形式的缺陷;把自然语言处理从目前基于关键词层面提高到基于知识的层面,从而在概念层次上理解文献主题,突破了传统的关键词匹配的局限,在一定程度上解决了词汇差异问题.该方法能对自然语言进行某种程度的语义理解,利用领域知识来实现主题词的规范标引.实验表明,采用本方法对测试文档进行主题词提取的准确率可达到71.03%,与传统方法相比提高了近1.87倍.  相似文献   

15.
网络新闻文本的专题发现(Topic Detection)旨在从大规模网络新闻文本集合中自动提取属于相关于同一主题的新闻文本。由于专题的主题、类型和规模并未预先定义,并且不具备任何先验知识可供参考,从而,现有研究往往利用聚类方法实现专题的自动发现。然而,聚类算法对内容相近的新闻专题难以有效区分。针对上述问题,提出了一种基于"社交圈子"结构的文本归并方法,深入特定聚类内部,根据社交圈的差异,进行二次划分。将文本内容和社交网络共同作为判定专题内外关联程度的特征信息,形成联合的判定模型。实验结果显示,在采用TFIDF作为特征的聚类结果中使用"社交圈子"进行进一步聚类划分,可提高精度达3个百分点,此外,聚类结果的熵降低了0.258,显示了较高的确定性。  相似文献   

16.
用于文本挖掘的特征选择方法TFIDF及其改进   总被引:11,自引:0,他引:11  
文章使用TFIDF特征选择方法对数据源进行预处理,建立了空间矢量模型,为文本分类提供了便利的数据结构.通过分类结果测试该特征选择方法的精确度.根据实验结果分析TFIDF的优缺点,并提出改进的方法.  相似文献   

17.
基于同义词词林的中文文本主题词提取   总被引:3,自引:0,他引:3  
中文文本主题词的提取可以浓缩一篇文章,可以提炼一个中文网页,还可以帮助实现网上广告与网页的精确匹配。提出了一种基于同义词词林的中文文本主题词提取方法,不仅考虑了传统的影响主题词语权重的因素,还考虑到了同义词、相关词以及下位词的出现对于词语权重的影响。实验表明,用该方法对中文文本  相似文献   

18.
通过对甘肃省档案局数据资源的分析研究,并与朴素贝叶斯分类算法相结合,实现对档案资源分类应用的研究.根据档案数据的特征,选用TFIDF(term frequency-inverse document frequency)算法进行选取符合档案文本主题的属性.样本实验结果证明,该分类模型适用于档案文本资源的分类,实现了档案资源自动分类的功能.相较于传统朴素贝叶斯分类方法,所提出的分类模型针对档案资源的分类效率提高了1%~2%.  相似文献   

19.
赵源 《科技信息》2010,(35):58-58,49
本文在中文分词技术的基础上,提出了一种基于中文文本主题提取的分词方法,以概念语义网络的思想构造主题词典,描述词间概念语义关系,采用改进的最大匹配算法对文本进行切词,既提高了分词的准确性,又能识别文中的未登录词,并同步完成主题词的规范工作。从而在概念层次上理解用户的需求,实现概念检索,提高查准率。  相似文献   

20.
由于新闻文本种类较多、内容繁杂,为更好地提取文本主题特征词,提出了一种新的特征提取算法NewTF-IDF.传统的TF-IDF算法仅仅以逆文档率对词频进行加权,忽略了词性、词频、词位置、词跨度等其他方面的因素对词语信息量的影响,忽略了词语在不同文档中的分布对关键词重要度的影响.NewTF-IDF算法对TF-IDF算法做了多组合特征因子和离散度两个方面的改进,使特征词的加权方式更加科学.实验证明,NewTF-IDF算法在特征词提取方面具有更好的性能.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号