首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到10条相似文献,搜索用时 15 毫秒
1.
【目的】针对词主题信息与词相似性信息对关键词提取的影响进行了研究,提出一种改进的TextRank关键词提取方法。【方法】首先,使用隐含狄利克雷分布(Latent Dirichlet allocation,LDA)主题模型对文档建模计算词主题信息;其次,使用FastText生成词向量,并计算词相似性矩阵;最后,融合词主题信息与词相似性信息的综合权重来优化TextRank词汇节点的初始权重,并进行词图模型的迭代运算与关键词提取。【结果】实验表明,改进方法的提取结果优于传统方法。【结论】证明了考虑词主题信息的全局性与词相似性信息的局部性能有效提高TextRank算法提取关键词的性能。  相似文献   

2.
针对新闻文本摘要提取过程中,传统抽取式算法存在对文本内容概括不全面、摘要内容冗余、关键词提取时未考虑异词同义等问题,提出了一种基于最大边界相关算法(MMR)和词汇语义网(WordNet)的新闻文本摘要生成算法——WMMR.该算法综合考虑文本相似度、关键词、句子位置信息、线索词等特征对句子权重的影响,从而优化MMR算法中的句子得分,并在计算关键词得分时引入WordNet合并同义词.在NLPCC2017公开数据集上验证本文算法的有效性,结果表明WMMR算法的ROUGE值相较于TextRank算法提升4个百分点,相较于MMR算法提升7个百分点.在神策杯2018与SogouCS公开数据集上验证本文算法的普适性,结果表明WMMR算法的ROUGE值相较于传统TextRank,MMR等算法均有提升,证明WMMR算法有效提升了生成摘要的质量.  相似文献   

3.
新闻事件主题句识别任务是一项基于文本内容进行语义分析的自然语言处理技术。为准确计算新闻事件文本中与新闻主题语义最相关的句子,提出一种基于图的新闻事件主题句抽取方法。首先利用描述事件特征的触发词及命名实体构建候选新闻事件句子抽取模板,然后,计算候选事件句之间的关联关系构建事件关系无向图,最后基于TextRank算法思想将图中任意顶点的权值表征为与其有关联的顶点权值的加权和,并按权值进行排序实现事件主题句抽取。实验结果表明,提出的方法优于基于TFIDF和基于标题的事件主题句抽取方法,F值分别提升了6.26%和2%。  相似文献   

4.
在前期基于图网络的模型基础上,引入角色指代信息,提出融合角色指代的多方对话关系抽取模型.在构建图节点时加入角色节点,将其与对应角色指代的词节点进行连接,并使用图注意力网络进行编码.在DialogRE数据集上的实验效果与基线模型相比,F1值在验证集上提升2.9%,在测试集上提升4.6%.  相似文献   

5.
基于相邻词的中文关键词自动抽取   总被引:2,自引:0,他引:2  
文档关键词概括了文档的主题和内容,在信息检索、文本分类、文本聚类等领域有着重要应用.在总结前人研究成果的基础上,提出了一种基于相邻词的中文关键词自动抽取算法.在对50篇学术论文自动抽取关键词的实验中,采用精确匹配的评价获得了38.9%的精度和34.9%的召回率,采用近似匹配的评价获得了70.7%的精度和68.8%的召回率,能够为进一步的研究提供帮助.  相似文献   

6.
特征词提取算法大多以选取单个关键词为主,存在词与词关联度缺失,文本主题表达不准确的问题,为此提出一种基于词共现的文本分类算法。通过计算词间共现率,利用TextRank算法构建共现图得到共现词组,建立文本向量表示模型,并利用SVM算法实现文本分类。实验证明,共现词作为文本特征项相对于传统单个特征词有更好的分类效果。  相似文献   

7.
考虑到传统信息检索算法在检索数字文献推广信息时存在安全性差、检索效率低的问题,提出了基于语义相似度的数字文献推广信息智能检索算法.基于数字文献检索信息文档,计算了数字文献推广信息中检索词的相关度,根据语义相似度,计算数字文献推广信息的权重值,利用数字文献推广信息数据库的查询结果,结合李雅普诺夫定理,提取数字文献推广信息关键特征,根据采集原始数据集的时间,计算数字文献推广信息的平均检索概率,利用过滤器清理数字文献数据库的局部推广信息,采用全局过滤器,清洗数字文献数据库的推广信息,通过定义数字文献推广信息检索元素值,计算了关键词之间的语义相似度,结合数字文献推广信息检索算法设计,实现了数字文献推广信息的检索.实验结果表明,基于语义相似度的数字文献推广信息智能检索算法不仅可以提高数字文献推广信息的检索效率,还具有很高的安全性.  相似文献   

8.
针对经典TF-IDF算法在在文档特征词提取中因忽略了词之间连接关系而导致提取准确率较低的问题,提出一种基于word2vec加权的TextRank词图构建方法。首先通过爬虫获取网络产品评论语料,并进行分词、词性标注以及名词提取等预处理;其次利用word2vec形成词元与词元之间的相似度矩阵;最后将word2vec中获取到的词元之间的相似度作为词语影响力权值,对经典TextRank产品特征提取方法进行改进。实验数据表明,与传统的TextRank产品特征提取方法相比,改进后的方法查准率提高了5%,查全率提高了2.9%,在实际工程中能够有效的提高产品特征提取的准确率。  相似文献   

9.
基于改进汉宁窗的信息检索模型   总被引:5,自引:4,他引:1  
基于关键词匹配的检索方法检索时间长,检索结果质量差,无法适应用户群体的多样性。在此考虑了检索词含义、顺序及词密度,首先对用户提出的检索词进行基于知网的概念扩展,从词所表达的概念意义层次上来认识和处理用户的检索请求,并提出了基于改进汉宁窗的信息检索模型。实验表明,基于改进汉宁窗的信息检索模型较传统的基于关键词匹配的检索算法有更高的查准率及召回率,有效地改善了检索性能,可以更好地为用户提供检索服务。  相似文献   

10.
随着互联网的普及,非结构化文本数据的规模不断扩大且越来越多地用于大众传播。因此,从海量数据抽取热点信息已成为一个重要的研究课题。针对新闻的热点挖掘进行方法改进及分析,结合新闻及事件模型,使用TextRank算法提取关键词,运用相似度计算方法,提出了一种基于评论的热点新闻事件识别方法。研究结果表明该方法具有一定的可行性。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号