首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 109 毫秒
1.
提出了面向微博应用的新闻文本自动摘要研究方法.利用互信息对新闻文本中词语和句子之间的语义特征进行计算,根据其关联度对句子进行主题划分,赋予主题句较高的权重,同时从文本中抽取多种组合特征,利用Ranking SVM对句子进行排序,从而得到自动摘要.在NLPCC2015面向微博中文新闻自动摘要评测数据集上进行对比实验,取得了良好效果,证明该方法的有效性.  相似文献   

2.
文本自动摘要提取算法   总被引:1,自引:0,他引:1  
摘要是对文本内容的概括,在信息检索中起着重要的作用,提出一种文本自动摘要提取算法:按照词语权重提取出能表征文本主要内容的特征词,根据句子的物理信息以及句子中包含的特征词情况计算出句子的权重,按照句子权重大小等提取出候选摘要句.  相似文献   

3.
针对新闻文本摘要提取过程中,传统抽取式算法存在对文本内容概括不全面、摘要内容冗余、关键词提取时未考虑异词同义等问题,提出了一种基于最大边界相关算法(MMR)和词汇语义网(WordNet)的新闻文本摘要生成算法——WMMR.该算法综合考虑文本相似度、关键词、句子位置信息、线索词等特征对句子权重的影响,从而优化MMR算法中的句子得分,并在计算关键词得分时引入WordNet合并同义词.在NLPCC2017公开数据集上验证本文算法的有效性,结果表明WMMR算法的ROUGE值相较于TextRank算法提升4个百分点,相较于MMR算法提升7个百分点.在神策杯2018与SogouCS公开数据集上验证本文算法的普适性,结果表明WMMR算法的ROUGE值相较于传统TextRank,MMR等算法均有提升,证明WMMR算法有效提升了生成摘要的质量.  相似文献   

4.
王健 《科技信息》2007,(29):102-103
随着Internet的发展大量机读形式的文献潮水般涌来,自动文本摘要的意义尤为重要。本文从Web文本结构的特点入手,提出了计算主题词权重公式及句子的评价方法,并对LUHN算法进行了改进。  相似文献   

5.
现有的文本自动摘要技术大多是运用向量空间模型将文本作为一个整体进行处理,忽略了段落及段落之间的关联程度,导致提取的摘要不能够全面反映所包含的主题,针对这一问题,文章提出了基于互信息的文本自动摘要方法。该方法利用互信息对文本中词语、句子及段落之间的关联程度进行计算,依据关联程度将整个文本划分成包含不同主题的较小单元,并针对每一单元运用优化的句子权重计算方法进行主题句提取,然后利用主题句生成文本摘要。实验验证了方法的有效性,在自动摘要提取方面取得了良好效果。  相似文献   

6.
句子规划器的设计与实现   总被引:5,自引:1,他引:4  
介绍生成多语种天气预报文本系统中句子规划器的设计与实现.句子规划主要由两部分组成:句子优化和语言资源映射.前者按照一定的优化规则在句子之间消除冗余成分;后者根据具体语言特点对句子进行结构化处理,确定文本结构树并为树中各节点添加语言资源信息,以供表层生成处理时使用.  相似文献   

7.
目前的抽取式单文档摘要方法未考虑原文中句子和原文语义信息相关度,针对该问题,提出一种基于语义空间的抽取式单文档摘要方法.首先,利用Word2Vec训练词向量以获取语义空间,并基于该语义空间表示句子和原文;然后,基于余弦相似度计算句子与原文相似度值,并使用TextRank和词频-逆文本频率指数(TF-IDF)模型计算原文中句子的权重;最后,将相似度值与权重相结合得到句子的最终权重值.实验结果表明,该模型摘要质量优于基于深度学习的基线系统.  相似文献   

8.
Web文本分类是Web文本挖掘的主要内容,而特征项权重的计算是web文本分类中一个非常重要的步骤。Web文本一般由标题、描述和正文三部分组成。根据Web文本的这一特点,本文提出了一种基于位置的特征项权重算法,并使用此算法对Web文本进行了分类实验。实验结果表明该算法有效提高了Web文本分类系统的分类性能。  相似文献   

9.
互联网时代信息量庞大,简洁的标题可以提高信息阅读效率。在课堂场景下,知识点标题生成便于用户整理和记忆课堂内容,提高课堂学习效率。该文将标题生成应用于课堂教学领域,制作了课堂知识点文本—标题数据集;提出了一种改进的TextRank算法——考虑关键字和句子位置的文本排序(textranking considering keywords and sentence positions, TKSP)算法,该算法综合考虑了关键词和句子位置等因素对句子权重的影响,能够更准确地提取文本重点信息。使用以召回率为导向的摘要评价(recall-oriented understudy for gisting evaluation, ROUGE)方法,TKSP算法在ROUGE-1、 ROUGE-2和ROUGE-L指标上的得分率分别为51.20%、 33.42%和50.48%,将TKSP抽取式算法与统一语言模型(unified language model, UniLM)结合,并融合文本主题信息,提出统一语言模型结合考虑关键字和句子位置的文本排序算法的模型(unified language modeling co...  相似文献   

10.
对微博文本的向量化表达及摘要效果的评测问题进行了研究.引入Word2vec模型实现微博文本词语的向量化表达,进而对词向量聚类生成主题词类.计算微博文本到主题词类的隶属度,结合主题词类的权重,生成微博文本的加权主题分布表达.在此基础上划分类簇实现摘要句的提取.基于类簇H指数选出高频词作为标准摘要词集,考察了生成摘要与标准摘要词集中共现词的词频分布,实现对自动摘要效果的评测.实验结果表明,本文提出的方法有助于提升微博短文本集的摘要生成效果.  相似文献   

11.
基于命名实体的Web新闻文本分类方法   总被引:1,自引:0,他引:1  
文章对Web新闻领域的文本自动分类问题进行了研究,提出一种基于新闻实体要素的分类方法;在应用空间向量模型的基础上,充分考虑命名实体对Web新闻文本分类的特殊作用,并进行了实验.实验结果表明,以新闻实体要素为特征的文本分类系统可得到较高的分类精度,该方法具有一定的实用价值.  相似文献   

12.
由于文本中事件之间的时序关系可以帮助人们更好地理解文本内容,故针对新闻报道类文本,将事件作为其基本语义单元,并根据时序关系建立事件有向网络文本表示模型;利用PageRank算法结合主题相关度对时序网络进行节点重要度计算及调整;最后,按照重要度以及事件发生的顺序进行排序,并按照一定的压缩比提取摘要句,删除冗余的句子,将事件对应的原语句作为摘要。实验结果表明,基于事件时序关系的自动摘要方法效果较好。  相似文献   

13.
基于Web的新闻文本分类技术的研究   总被引:1,自引:0,他引:1  
从Web新闻网页中挖掘出有用的知识是当前研究的热点问题,将Web新闻网页进行解析,在此基础上进行Web新闻文本分类处理,可在一定程度上解决此问题.针对Web新闻网页的结构特点,提出了基于Web的新闻文本分类系统的实现框架.实验结果表明,基于KNN算法的分类系统具有较好的分类效果.  相似文献   

14.
基于NBA赛事新闻和文字直播的特点,提出一种NBA赛事新闻自动写作方法。首先根据两支球队的比分差,构建比分差函数,并提出基于比分差函数性质的数据分片算法和数据合成算法;然后对数据片进行分类处理,根据数据片的类别以及历史NBA赛事的新闻报道,构建NBA赛事报道模板库,并以球队和球员的表现为中心,将数据片的信息填入已构建好的模板,得到一篇自动生成的NBA赛事新闻稿。提出4种指标衡量NBA赛事新闻自动写作的质量。实验表明,该方法有效、可行,并且写作速度较快,能够对赛事新闻撰写者提供帮助。  相似文献   

15.
目前网络上存在着海量的农业信息,但是对于广大农民来说信息得不到有效的利用,迫切需要对信息进行集成推荐.针对网络上的农业种植方面的文本信息进行了深入研究,该系统首先利用爬虫技术自动地爬取海量农业种植信息,经清洗整理后构建数据集语料库.其次利用机器学习中KNN方法找到每个样本的k近邻对文章进行聚类,通过TF-IDF方法提取出关键词并构造词频矩阵,然后从文本中构建特征向量,进而对相似文档进行分类,最后将加权值经排序后的结果推荐给用户.该系统实现了对农业文本进行准确的自动分类以及自动提取出文章摘要,并对相似文章进行推荐展示的效果.  相似文献   

16.
针对当前生成式文本摘要模型在解码时对摘要整体语义信息利用不充分的问题,提出一种基于语义对齐的神经网络文本摘要方法.该方法以带注意力、Pointer机制和Coverage机制的Sequence-to-Sequence模型为基础,在编码器与解码器之间加入语义对齐网络,实现文本到摘要的语义信息对齐;将获得的摘要整体语义信息与...  相似文献   

17.
复杂网络在新闻网页关键词提取中的应用   总被引:1,自引:0,他引:1  
通过分析新闻网页文档的特征,引入节点权重、有向网络加权聚类系数、中心介数等特征量,并结合传统关键词提取算法的一些优点及网页文档的部分特征,提出了一种改进的基于加权复杂网络的新闻网页关键词提取算法,并通过实验证实了该算法的正确性.  相似文献   

18.
Web文本聚类是使文本之间具有最大的簇内相似性,同时具有最小的簇间相似性,它是一个将文本集分组的全自动处理过程。本文首先提出了Web文本聚类模型,然后对Web文本聚类关键技术进行了深入的研究,讨论了分词、特征表示、特征选择和K-means算法等相关技术。最后,实现了该文本聚类系统,对采集到的Web文本进行聚类,实验证明此算法具有很好的聚类结果。  相似文献   

19.
Web-services are highly distributed programs, and concurrent software is notoriously error-prone. Model checking is a powerful technique to find bugs in concurrent systems. However, the existing model checkers have no enough ability to support for the programming languages and communication mechanisms used for Web services. We propose to use Kripke structures as means of modeling Web service. This paper presents an automated way to extract formal models from programs implementing Web services using predicate abstraction for abstract model checking. The abstract models are checked by means of a model checker that implements automatic abstraction refinement. These results enable the verification of the applications that implement Web services.  相似文献   

20.
Web网页知识获取技术   总被引:2,自引:0,他引:2  
描述一种基于类自然语言理解的Web文本知识自动获取技术. 用领域文法描述Web网页文本,将该领域文法转换成描述句子信息的、符合正则表达式规范的规则,使用该规则把Web网页文本转换为表示网页知识的语义三元组,最后形成领域知识库. 试验数据表明,通过本技术生成的领域知识库中不同类型网页数据的召回率平均值是71.5%,准确率平均值是79.1%.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号