首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
自动生成技术在信息提取任务中具有重要作用,为此研究设计了基于双向Transformer编码器(Bidirectional Encoder Representation from Transformers, BERT)的摘要生成模型.模型的掩码方式由casual改为了seq2seq,模型使用改进的随机集束搜索算法(Random Beam Search Algorithm, RBSA)作为解码算法.实验结果显示,RBSA的多样性百分比最高为69.20%,高于对比算法.摘要模型的覆盖度分数为30.12,生成的摘要在数据集1上的ROUGE-1、ROUGE-2、ROUGE-L数值分别为39.11、17.20、29.71,在数据集2上分别为41.21、18.70、38.29,均优于对比模型,可以自动生成中文和英文文本摘要,通过快速提取原文信息提高翻译效率.  相似文献   

2.
抽取式摘要可读性、准确性较差,生成式摘要存在连贯性、逻辑性的不足,此外2种摘要方法的传统模型对文本的向量表示往往不够充分、准确。针对以上问题,该文提出了一种基于BERT-SUMOPN模型的抽取-生成式摘要方法。模型通过BERT预训练语言模型获取文本向量,然后利用抽取式结构化摘要模型抽取文本中的关键句子,最后将得到的关键句子输入到生成式指针生成网络中,通过EAC损失函数对模型进行端到端训练,结合coverage机制减少生成重复,获取摘要结果。实验结果表明,BERT-SUMOPN模型在BIGPATENT专利数据集上取得了很好的效果,ROUGE-1和ROUGE-2指标分别提升了3.3%和2.5%。  相似文献   

3.
序列到序列模型已经被广泛用于抽象文本摘要中,主要将源端语句的词序列通过神经网络生成摘要的词序列.在生成过程中,源端语句所携带的信息被编码,继而由解码器生成摘要.源端句子中包含有两种类型的信息,一类是与摘要有关联的信息,另一类是与摘要无关的冗余信息.为了区分这两类信息,提出了一种新的模型架构,在序列到序列模型的目标端加入冗余序列信息,通过解码器分别生成摘要文本以及冗余文本.将该模型应用于Gigaword英文测试集和LCSTS中文测试集,测试结果表明:相对于基准系统Transformer模型,加入冗余序列的Transformer模型在评估指标ROUGE-1(recall-oriented understudy for gisting evaluation-1)下的得分提高了0.7个百分点,证明该模型能够生成更高质量的抽象文本摘要.  相似文献   

4.
TextRank算法及SWTextRank等改进算法在抽取式摘要生成中得到了广泛的应用,但它们都没有有效地解决抽取式摘要所存在的冗余性问题。为此,提出一种基于子句抽取的文本摘要自动提取算法(PTextRank)。首先,使用Sinica Treebank(STB)对每个句子进行语法标记,进而基于子句设置抽取单元;接着,使用BERT(Bidirectional Encoder Representation from Transformers)构建标题和每个子句的特征向量,并计算子句特征向量间的相似性,将其存放在相似度矩阵中;最后结合子句位置、子句与标题的相似度等调整子句相似度矩阵,迭代计算直至收敛,进而选取得分最高的子句作为最终摘要。实验分析表明,PTextRank算法有效地避免了多个句子中存在的冗余信息,且相比于TextRank和SWTextRank,PTextRank生成摘要的准确率至少提高6%,同时生成的摘要质量更好。  相似文献   

5.
生成过程中利用词汇特征(包含n-gram和词性信息)识别更多重点词汇内容,进一步提高摘要生成质量,提出了一种基于sequence-to-sequence(Seq2Seq)结构和attention机制的、融合了词汇特征的生成式摘要算法。算法的输入层将词性向量与词向量合并后作为编码器层的输入,编码器层由双向LSTM组成,上下文向量由编码器的输出和卷积神经网络提取的词汇特征向量构成。模型中的卷积神经网络层控制词汇信息,双向LSTM控制句子信息,解码器层使用单向LSTM为上下文向量解码并生成摘要。实验结果显示,在公开数据集和自采数据集上,融合词汇特征的摘要生成模型性能优于对比模型,在公开数据集上的ROUGE-1,ROUGE-2,ROUGE-L分数分别提升了0.024,0.033,0.030。因此,摘要的生成不仅与文章的语义、主题等特征相关,也与词汇特征相关,所提出的模型在融合关键信息的生成式摘要研究中具有一定的参考价值。  相似文献   

6.
XML已经广泛的应用于多个领域。基于关键字检索的搜索引擎在商业上获得了巨大的成功。基于相关性进行XML信息检索,将相关性高的结果排在靠前的位置,直接关系到检索质量和用户的满意度。现有的ALCA算法效率较高,但未基于相关性对结果进行排序。在该算法的基础上增加相关性排序方法,先按根结点中是否包含关键字将所有结果分成相关性不同的两个等级,然后再分别对两个等级的结果排序。结果片段与用户信息需求的相关性是由其中的元素、属性和文本结点的总贡献决定的。实验结果表明改进后的算法取得了较好的排序有效性。  相似文献   

7.
针对新闻文本摘要提取过程中,传统抽取式算法存在对文本内容概括不全面、摘要内容冗余、关键词提取时未考虑异词同义等问题,提出了一种基于最大边界相关算法(MMR)和词汇语义网(WordNet)的新闻文本摘要生成算法——WMMR.该算法综合考虑文本相似度、关键词、句子位置信息、线索词等特征对句子权重的影响,从而优化MMR算法中的句子得分,并在计算关键词得分时引入WordNet合并同义词.在NLPCC2017公开数据集上验证本文算法的有效性,结果表明WMMR算法的ROUGE值相较于TextRank算法提升4个百分点,相较于MMR算法提升7个百分点.在神策杯2018与SogouCS公开数据集上验证本文算法的普适性,结果表明WMMR算法的ROUGE值相较于传统TextRank,MMR等算法均有提升,证明WMMR算法有效提升了生成摘要的质量.  相似文献   

8.
情感文摘旨在提取出文本中具有明显倾向性的情感信息,同时尽可能使得句子与句子之间的衔接连贯通顺.由于极性强度不一样,评论者表达观点的情感强弱就不一样,导致情感信息也不一样.提出了一种新的方法来度量情感文摘中的情感信息量,引入了极性强度概念,并利用点交互信息的原理,综合考虑其与评论者、评价对象、评价短语三者之间的关系.实验结果表明,新方法与未考虑极性强度的方法相比,评价指标ROUGE-2提升了2.21%,ROUGE-SU4提升了2.01%,ROUGE-SU9提升了2.45%  相似文献   

9.
目前,事件检测的难点在于一词多义和多事件句的检测.为了解决这些问题,提出了一个新的基于语言模型的带注意力机制的循环卷积神经网络模型(recurrent and convolutional neural network with attention based on language models,LM-ARCNN).该模型利用语言模型计算输入句子的词向量,将句子的词向量输入长短期记忆网络获取句子级别的特征,并使用注意力机制捕获句子级别特征中与触发词相关性高的特征,最后将这两部分的特征输入到包含多个最大值池化层的卷积神经网络,提取更多上下文有效组块.在ACE2005英文语料库上进行实验,结果表明,该模型的F1值为74.4%,比现有最优的文本嵌入增强模型(DEEB)高0.4%.  相似文献   

10.
基于大型预训练语言模型的有监督学习方法在可控文本生成任务上取得了优秀的成果,但这些研究都着重于控制生成文本的高级属性(比如情感与主题),而忽略了泛化性问题.现有的基于自监督学习的研究方法则通过句子级别的训练来使模型获得补全整句的能力,使模型做到单词和短语级别的控制生成,但生成与特定属性强相关句子的能力依旧待提升.所以本文提出了一种单词级别(细粒度)与句子(粗粒度)级别相结合的多粒度训练方式:单词级别的主题模型让模型学习主题层面的语义以获得主题到文本的生成能力,句子级别的自监督训练让模型学习整句的表征以获得补全句子的能力.通过主题模型与自监督学习的结合,使模型在单词与短语级别的可控生成阶段取得了更好的效果.实验表明,本文提出的模型在主题契合度以及常规文本生成指标方面优于现有的基线模型.  相似文献   

11.
以情感依存元组(EDT)作为中文情感表达的基本结构,把新闻文本主题情感倾向性判别任务分成主题识别、情感倾向性分析和主客观分类三个逐层递进的子任务。在主题识别前先对TF-IDF方法进行改进,再结合基于交叉熵方法提取主题特征词,同时考虑了新闻文章标题的主题表征作用,将标题词纳入主题特征集;然后基于空间向量模型计算句子与主题特征向量的相似度,在此基础上考虑句子位置、长度及句子与标题的相似度,计算句子的主题相关度以抽取主题句;最后建立情感依存元组判别模型计算主题句的情感,采用主、客观分类规则筛选出新闻倾向关键句。本方法在COAE 2014评测中各项指标皆逼近最好成绩,表明基于情感依存元组的分类方法具有较高的分类性能。  相似文献   

12.
为提高现有关键字查询结果的准确性,提出一种基于信息检索排序模型的关键字查询结果排序方法,该方法根据查询关键字在查询结果元组树和数据库中出现的频率来衡量查询结果的相关度,考虑了查询结果元组树中文本属性所包含字符串长度对排序分值的影响,使评分函数的计算更为合理.研究结果表明:提出的关键字查询结果排序方法的排序准确性高于现有典型排序方法,具有较高执行效率.  相似文献   

13.
为了提高效率,降低培训成本并推广使用计算机来取代管制模拟机中的飞行员席位,采用集成学习的策略来生成飞行员复诵指令。选用5个大规模预训练语言模型进行微调,并使用K折交叉验证来筛选出性能较好的4个模型作为基础模型来构建集成学习模型。所构建的集成学习模型在管制指令数据集上取得在本领域中的最优效果。在通用的ROUGE(recall-oriented understudy for gisting evaluation)评价标准中,取得ROUGE-1=0.998,ROUGE-2=0.995,ROUGE-L=0.998的最新效果。其中,ROUGE-1关注参考文本与生成文本之间单个单词的匹配度,ROUGE-2则关注两个连续单词的匹配度,ROUGE-L则关注最长公共子序列的匹配度。为了克服通用指标在本领域的局限性,更准确地评估模型性能,针对生成的复诵指令提出一套基于关键词的评价标准。该评价指标准基于管制文本分词后的结果计算各个关键词指标来评估模型的效果。在基于关键词的评价标准下,所构建模型取得整体准确率为0.987的最优效果,对航空器呼号的复诵准确率达到0.998。  相似文献   

14.
为提高机器人在不同家庭环境下的服务任务执行能力,提出一种环境适应性服务策略生成方法,可生成以当前环境物品信息为主导的服务策略.首先,利用词频-逆文本频率(TF-IDF)算法构建服务指令集、关键字序列集与服务策略数据集;然后,对无规则自然语言指令进行语义解析与组块分析,分解映射至结构化服务指令以简化语义空间,获取对应待选关键字序列;最后,对包含当前家庭环境信息的Protégé本体知识库进行匹配、推理,获得服务关键字序列,引导经服务策略数据集微调的GPT-2模型生成适应性服务策略.实验结果表明:该方法能够提高服务策略生成的准确性,且最终生成的策略在具体家庭环境下具有更高的可行性.  相似文献   

15.
针对关系分类主流模型中存在的空间信息丢失和旋转不变性差的缺点,提出一个基于BERT和多头注意机制-胶囊网络(MA-CapsNet)的算法模型.该模型首先在句子的实体两端插入特殊符号,增强模型对实体信息的表示能力,再通过预训练的BERT语言模型获得包含上下文信息的语义向量表示,然后传入改进后的注重空间位置信息的胶囊网络中学习句子的语义特征并分类.同时引入多头注意力机制进一步提升模型的分类效果.在SemEval-2010 task 8关系分类数据集上,该算法模型取得了90.15%的宏F值.实验表明该模型架构能强化对句子语义特征的捕捉,改善关系分类任务的分类效果.  相似文献   

16.
句子规划器的设计与实现   总被引:5,自引:1,他引:4  
介绍生成多语种天气预报文本系统中句子规划器的设计与实现.句子规划主要由两部分组成:句子优化和语言资源映射.前者按照一定的优化规则在句子之间消除冗余成分;后者根据具体语言特点对句子进行结构化处理,确定文本结构树并为树中各节点添加语言资源信息,以供表层生成处理时使用.  相似文献   

17.
比较关键字和移动记录是实现算法排序的两个基本操作。在经典排序算法中,基数排序是一种不通过比较关键字实现排序的方法。通过示例说明了基数排序算法的基本思想,用C程序设计语言以链表为存储结构实现了基数排序算法,并分析了基数排序算法的计算复杂性。  相似文献   

18.
研究了基于图结构XML文档的关键字检索方法。根据图结构XML文档的结构特点,结合用户输入的关键字及其类型,建立了用户查询语义模型;定义了拥有完整语义信息的查询结果模型,并从层次结构上分析来定义结果的语义相关性排序方案;提出基于语义的双层索引结构。实验结果表明,算法具有较高的准确率和效率。  相似文献   

19.
基于Mealy机的蒙古文排序算法   总被引:1,自引:0,他引:1  
排序是语言文字信息处理中的重要工作之一,它的目的是将单词(或词组)的任意序列重新排列成按关键字有序的序列,从而优化存储结构,提高检索速度.但由于蒙古文排序习惯和其"UCS"编码的特殊性,单词排序不能完全依靠字符编码的自然顺序.单词的排列顺序不仅与字符编码有关,而且与字符状态有着密切的关系.因此先给出字符状态和词状态的定义,然后提出一种基于Mealy机的字符串排序算法.该算法是传统的字符串排序算法的一种扩展,主要解决了编码相同状态不同情况下词的排序问题,并且在传统蒙古文排序中的应用证实了算法的有效性.该算法具有很好的适应性,能够解决其它一些复杂文本语言的排序问题.  相似文献   

20.
为从海量微博中高效地获取不同话题下的关键信息,微博观点摘要成为自然语言处理领域近期研究的热点之一。基线方法基于TF-IDF算法抽取微博句中的关键词,并据此计算微博的重要性分数,直接筛选出观点摘要;朴素改进方法在基线方法的基础上,增加了情感分类步骤,并利用微博句之间的语义距离,将摘要句候选集中语义重复、重要度较小的句子去除,生成观点摘要;基于语义图优化算法的方法在朴素改进方法的基础上,利用微博句的重要性分数及微博句之间的语义距离构建语义图结构,并通过图优化算法筛选出观点摘要。朴素改进方法在COAE2016评测任务一测试数据集上,10个话题的平均ROUGE-1值达到26.39%,平均ROUGE-2值达到0.68%,平均ROUGE-SU4值达到5.69%,且评测官方公布结果显示,该方法在9项评价指标中获得6项最佳性能。基于语义图优化算法的方法在评测样例数据集上进行了实验,结果显示,该方法比朴素改进方法在ROUGE-1,ROUGE-2,ROUGE-SU4值上分别提升了0.63%, 1.51%, 2.69%。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号