首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
研究了一种基于统计的Web新闻文本自动摘要生成方法.首先,根据Web新闻文本的特点,对词汇和句子赋予不同的权重,然后根据权重大小按给定的比例挑选句子,并进行平滑处理,生成文字流畅的摘要.  相似文献   

2.
针对当前生成式文本摘要模型在解码时对摘要整体语义信息利用不充分的问题,提出一种基于语义对齐的神经网络文本摘要方法.该方法以带注意力、Pointer机制和Coverage机制的Sequence-to-Sequence模型为基础,在编码器与解码器之间加入语义对齐网络,实现文本到摘要的语义信息对齐;将获得的摘要整体语义信息与...  相似文献   

3.
基于潜在语义索引的文本摘要方法   总被引:11,自引:0,他引:11  
因特网上的在线文本自动编制摘要可以帮助用户有选择地阅读。给出了基于潜在语义索引的文本摘要方法。它采用向量空间模型作文本表示方法,利用潜在语义索引来减少词汇间的“斜交”现象,在语义空间进行项、句子、段落与文本之间的相似度计算,而不是单纯地依赖于特征项的频率信息。依据对于文本主题的表现能力来确定摘要的各个组成部分及其组成方式,此外,给出了文本摘要的评估方法。  相似文献   

4.
自动文本摘要生成(ATS)与计算机科学和认知心理学密切相关.提出了一个自动文本摘要生成系统(EI-ATS).该系统借助句法和词法分析,将认知心理学中的事件-索引(Event-indexing)模型运用到自动文本摘要生成.评价结果表明:该系统在多文件摘要生成方面表现良好,成为整合两个相异但相关领域知识的研究范例.  相似文献   

5.
采用协同图排序模型, 为两个可比的新闻话题自动生成对比摘要。利用一个话题内句子之间的相似性, 以及不同话题中句子之间的对比性, 采用迭代增强的方法, 同时计算两个话题中每个句子的重要程度, 并考虑信息的新颖程度, 选择适当的句子组成对比摘要。实验结果表明了该方法的有效性。  相似文献   

6.
随着自然语言处理技术的发展,文本技术已经被广泛应用在生活的方方面面,并且发挥着重要的作用。在司法领域,人工智能促使司法向信息化、智能化发展,其中司法文本在这一发展进程中承担着重要作用,对司法文本进行处理能够实现“降维”的目的,对迅速了解案件详情,获取案件要素有很大的帮助。但是现有的生成模型应用在司法文本上,生成的质量不尽如人意,还存在着生成重复、冗余,与现实情况不相符等问题,特别是当行为人存在多项罪名和多项判罚时,使用常见生成模型生成的会出现罪罚不匹配的情况。为了解决这些问题,提出基于知识增强预训练模型的司法文本生成模型——LCSG-ERNIE(Legal Case Summary Generation Based on Enhanced language Representation with iNformatIve Entities),该模型在预训练语言模型中融入司法知识,并结合对比学习的思想生成,最终通过实验证明提出的模型取得了较好效果。  相似文献   

7.
本文引用语言学及符号学理论,综合自然语言文本生成所涉及的知识,构造了计算机文本生成的理论模型;探讨文本句法中的微观整合性和宏观整合性以及它们对文本生成的作用。这个以文本结构模型和文本意义模型为主体的文本生成理论框架,为进一步的计算机语言生成研究提供了方法依据。  相似文献   

8.
为了解决传统多文档抽取式摘要方法无法有效利用文档之间的语义信息、摘要结果存在过多冗余内容的问题,提出了一种基于分层最大边缘相关的柬语多文档抽取式摘要方法。首先,将柬语多文档文本输入到训练好的深度学习模型中,抽取得到所有的单文档摘要;然后,依据类似分层瀑布的方式,迭代合并所有的单文档摘要,通过改进的最大边缘相关算法合理地选择摘要句,得到最终的多文档摘要。结果表明,与其他方法相比,通过使用深度学习方法并结合分层最大边缘相关算法共同获得的柬语多文档摘要,R1,R2,R3和RL值分别提高了4.31%,5.33%,6.45%和4.26%。基于分层最大边缘相关的柬语多文档抽取式摘要方法在保证摘要句子多样性和差异性的同时,有效提高了柬语多文档摘要的质量。  相似文献   

9.
基于分类算法的专利摘要文本分割技术   总被引:1,自引:0,他引:1  
专利摘要是对专利的浓缩表述,将专利摘要按内容分割后,能更准确地定位对应的专利。由于专利摘要长度较短,而且不同内容间没有明显标志,使其分割不能使用传统的文本分割方法。本文将专利摘要的分割问题转化为句子分类问题,并尝试采用分类算法解决该问题。通过分析不同分类算法以及不同特征对本问题的解决效果,最终验证了利用句子分类方法进行专利摘要分割的可行性。  相似文献   

10.
11.
针对如何在语义层次上形成视频摘要问题,提出了一种基于场景的视频摘要生成算法.首先利用类内和类间损失对场景进行分类,然后根据语义概念"重要度"从镜头类和场景提取视频摘要的构成帧,最后将选取的关键帧根据时间顺序排序,构成静态浏览型的视频摘要.实验证明该方法可以用少量的视频帧有效地表示视频的主要内容,并能有效地保持视频内容的连续性.  相似文献   

12.
当前大部分的抽取式摘要方法主要关注对摘要句的表示和抽取,容易忽略对文本特征表示的充分性。为了解决这一问题,提出一种基于度量学习和层级推理网络的抽取式摘要方法。首先,在抽取式任务基础上提出基于度量学习和层级推理的抽取式摘要模型(MLHIN);其次,在CNN/DailyMail数据集上进行模型评估,并在英文摘要数据集CNN/DailyMail上进行测试;最后,对测试结果进行验证。结果显示,所提方法模型在Rouge-1,Rouge-2,Rouge-L上的得分明显优于其他模型,比Lead-3模型分别高出0.84%,1.29%和2.43%;通过将提出的度量损失metric和层级推理模型中的句子编码器替换掉,可以看出模型性能均有不同程度的下降,证明了提出的层级推理网络和度量损失的有效性。新算法能够提高模型捕捉长距离依赖的能力,增强模型对摘要句与非摘要句的分辨力,有效改善了抽取式摘要方法的性能。  相似文献   

13.
软件缺陷(Software Defeat/Bug)对于用户体验影响巨大,针对软件缺陷的快速定位与修复是软件工程领域一项重要研究内容。开源软件构建过程中会产生大量软件相关文本,为结合自然语言处理技术进行软件缺陷定位提供了可能。相关研究主要结合信息抽取工具对软件相关文本进行挖掘,对于文本相关的语义信息考虑较少。文章将预训练语言模型引入软件缺陷报告挖掘研究中以增强软件相关文本的语义理解,在分析开源软件文本特点基础上,提出一种基于预训练自然语言模型的深度文本摘要模型。在Summary DataSet(SDS)、Authorship DataSet(ADS)数据集上进行实验,结果表明本文提出的模型可达到约72%(ADS)准确率,与文本摘要常用基线模型相比有10%以上提升。  相似文献   

14.
话题检测的提出是为了帮助人们从海量的新闻报道中发现未知的新话题,其中文本聚类算法的研究,是实现藏文新闻文本的话题检测技术的核心.本文提出一种聚类算法,是基于简易聚类算法的改进,首先改进了文本顺序对聚类结果产生的影响,其次通过确定种子话题,来确定话题的类别.本研究的聚类算法在较小规模的语料中比改进前源算法有一定程度的提高.本文的研究对象是藏文网站中的新闻文本.  相似文献   

15.
自动生成技术在信息提取任务中具有重要作用,为此研究设计了基于双向Transformer编码器(Bidirectional Encoder Representation from Transformers, BERT)的摘要生成模型.模型的掩码方式由casual改为了seq2seq,模型使用改进的随机集束搜索算法(Random Beam Search Algorithm, RBSA)作为解码算法.实验结果显示,RBSA的多样性百分比最高为69.20%,高于对比算法.摘要模型的覆盖度分数为30.12,生成的摘要在数据集1上的ROUGE-1、ROUGE-2、ROUGE-L数值分别为39.11、17.20、29.71,在数据集2上分别为41.21、18.70、38.29,均优于对比模型,可以自动生成中文和英文文本摘要,通过快速提取原文信息提高翻译效率.  相似文献   

16.
随着互联网技术的发展,文本自动摘要技术的意义越来越重要,本文从句子重要性及自动摘要算法两个方面对自动摘要技术进行了分析与改进。  相似文献   

17.
语义词典是人工智能、语义网与知识工程等研究领域的热点,它可以支持机器学习、自然语义理解、数据挖掘及机器翻译等技术。文章在藏语独特的文法理论研究基础上,利用对比英文和藏文词之间的语义关系、构建双语大型数据库和制定映射过程中词汇空缺等方法,构建了基于半自动匹配的藏文语义词典。本语义词典既兼容了国际通用的英文WordNet,又保留了藏语的特点,为藏文信息处理提供了重要的数据资源。  相似文献   

18.
针对以往提出的模型生成的摘要准确性不够,且含有过多冗余信息的问题,提出一种生成式文本摘要模型——信息过滤-指针生成网络.该模型对神经网络编码解码结构进行扩展,引入信息过滤网络和指针生成网络,可以有效地捕获原文信息,免于无效信息的影响,且让指针网络的复制概率更加准确,生成的摘要内容更加丰富、连贯.在CNN/Ddily M...  相似文献   

19.
王健 《科技信息》2007,(29):102-103
随着Internet的发展大量机读形式的文献潮水般涌来,自动文本摘要的意义尤为重要。本文从Web文本结构的特点入手,提出了计算主题词权重公式及句子的评价方法,并对LUHN算法进行了改进。  相似文献   

20.
计算文本相似度常用的方法是计算以VSM表示的文本之间的夹角余弦值,但这种方法并没有考虑文本中词语之间的语义相似度.另外由于计算余弦值时要考虑VSM向量对齐,从而导致计算的高维度、高复杂性.《知网》作为一个汉语常用的知识库得到广泛的研究,利用该知识库能方便地求得汉语词语之间的相似度.利用《知网》计算每篇文本中词语之间的相似度,对VSM进行改进,用少量特征词的TF/IDF值作为改进后的VSM向量中的权重,进而计算文本之间的相似度.通过比较改进前后的VSM的维数、召回率和准确率,结果显示,改进后的算法明显降低了计算的复杂度并提高了召回率和准确率.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号