首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 484 毫秒
1.
基于潜在语义索引的文本摘要方法   总被引:11,自引:0,他引:11  
因特网上的在线文本自动编制摘要可以帮助用户有选择地阅读。给出了基于潜在语义索引的文本摘要方法。它采用向量空间模型作文本表示方法,利用潜在语义索引来减少词汇间的“斜交”现象,在语义空间进行项、句子、段落与文本之间的相似度计算,而不是单纯地依赖于特征项的频率信息。依据对于文本主题的表现能力来确定摘要的各个组成部分及其组成方式,此外,给出了文本摘要的评估方法。  相似文献   

2.
针对传统生成式模型在处理文本时出现梯度消失、爆炸及捕捉到文章前后语义信息不充分的问题,文章提出一种生成式自动文摘网络模型BiLSTM_MulAtten(BiLSTM and Multi-head Attention)。编码器端使用堆叠BiLSTM将文本编码成语义向量,并且使用多头注意力机制以降低序列信息损失;解码器端使用堆叠LSTM,并利用集束搜索方法对语义向量进行解码。实验结果表明,本文方法能够有效提升生成摘要质量,在语义获取方面有着更好的效果,在LCSTS测试集上比目前文摘效果最好的DRGD方法ROUGE分数提升了0.5%至5.8%。  相似文献   

3.
针对中文的象形性和结构性特点,本文提出了一种新的生成式自动摘要解决方案,包括基于笔画的文本向量生成技术和一个生成式自动摘要模型。基于笔画的文本向量方法针对组成汉字的最小粒度笔画进行编码,增强了通过Skip-Gram模型得到对应的中文词向量语义信息;然后通过对Seq2Seq模型进行优化,使用Bi-LSTM解决长序列文本信息丢失以及逆向信息的补充问题;并在编码端加入Attention机制以计算不同输入词对解码端的影响权重,在解码端加入Beam Search算法优化生成序列的流畅度。基于LCSTS数据集实验表明,本文提出的模型在中文文本摘要生成质量和可读性上有所提升。  相似文献   

4.
基于循环神经网络(recurrent neural network,RNN)注意力机制的序列到序列模型在摘要信息提取服务中已经取得了较好的应用,但RNN不能较好地捕捉长时序信息,这使现有模型受限。为此,提出了基于改进Transformer的生成式文本摘要模型。该模型利用Transformer提取全局语义,使用局部卷积提取器提取原文细粒度特征,并设计全局门控单元以防止信息冗余和弥补语义不足,筛选出利于摘要生成的文本关键信息。实验结果表明,所提模型在大规模中文短文本摘要数据集(large scale Chinese short text summarization,LCSTS)上的效果有明显的提升,在电力运维摘要数据集上,也有良好效果,具有可扩展性。  相似文献   

5.
针对当前文本分类算法未能充分利用标签的语义表示导致文本表示学习与分类预测割裂的问题,提出一种融合文本内容编码和标签引导文本编码的文本分类方法.在文本内容编码部分,通过长短时记忆网络获得文本序列累计语义表示,通过自注意力机制捕获和强化文本长距离语义依赖.在标签引导文本编码部分,设计交互注意力机制,通过标签引导得到经由标签的语义表示过滤下文本的新表示.最后将两部分输出融合,得到同时具有本地内容语义信息和全局任务指导信息的文本表示,使得模型在文本表示阶段即对分类任务具有早期感知力.实验结果表明本研究方法在真实数据集上可有效提升文本分类任务性能.  相似文献   

6.
付燕  马钰  叶鸥 《科学技术与工程》2021,21(14):5855-5861
为解决当前视频描述任务中,生成描述视频的文本整体质量不高的问题,提出一种融合深度网络和视觉文本的视频描述模型.首先在编码阶段,将注意力机制引入3D残差模块,通过一维通道注意力与二维空间注意力增强视频特征映射,降低无关目标与噪声的影响;其次,解码阶段利用双层长短期记忆(long short-term memory,LSTM)深度网络的时序性特征,输出表述视频高层语义的文本描述;最后,为有效利用视觉文本信息丰富视频生成的语义描述,利用基于神经网络的主题模型提取出视频中的主题作为视觉文本融合进模型中.实验结果表明,本文方法在不同性能指标方面具有较好的准确性,能够更加准确地利用自然语言描述视频高层语义信息.  相似文献   

7.
实体对齐能够发现不同知识图谱实体间的对齐关系,是多源知识融合的基础。现有的基于知识表示学习的方法依赖大量标注数据,且并未利用知识图谱中属性等结构化信息,限制了实体对齐的效果。针对这个问题,文章提出融合语义和结构信息的实体对齐方法,使用协同训练(Cotraining)框架,将特征分为语义视角和结构视角,在两个视角下分别训练基于两个图谱联合表示学习(Joint Embedding)的实体对齐模型,并不断选出最可信的实体对齐结果用于辅助另一视角下模型的训练,实现语义和结构信息的融合,从而提升实体对齐的效果。同时,提出使用属性强约束,限制协同训练过程中产生的漂移。实验证明,与传统方法相比,该方法在准确率和F1值上都有提升。  相似文献   

8.
软件缺陷(Software Defeat/Bug)对于用户体验影响巨大,针对软件缺陷的快速定位与修复是软件工程领域一项重要研究内容。开源软件构建过程中会产生大量软件相关文本,为结合自然语言处理技术进行软件缺陷定位提供了可能。相关研究主要结合信息抽取工具对软件相关文本进行挖掘,对于文本相关的语义信息考虑较少。文章将预训练语言模型引入软件缺陷报告挖掘研究中以增强软件相关文本的语义理解,在分析开源软件文本特点基础上,提出一种基于预训练自然语言模型的深度文本摘要模型。在Summary DataSet(SDS)、Authorship DataSet(ADS)数据集上进行实验,结果表明本文提出的模型可达到约72%(ADS)准确率,与文本摘要常用基线模型相比有10%以上提升。  相似文献   

9.
一种无监督文本特征计算模型   总被引:1,自引:0,他引:1  
提出一种基于语义显量子勾连模型和潜量子共现模型的无监督特征提取方法, 解决了当前文本聚类不支持增量式和分布式计算的问题, 为后续互联网环境下海量文本聚类、 单文本摘要以及多文本摘要的发展奠定了基础. 实验结果表明, 该模型无需领域知识库的支持, 在移走约96%的冗余信息后仍能保持较好的聚类效果.  相似文献   

10.
文本表示是自然语言研究的基础问题,也是帮助我们高效处理网络上文本信息的关键.针对当前基于词或短语的文本表示模型容易丢失语义信息的问题,采用图结构的思想构造一种面向事件的文本表示模型-事件语义网络,该模型用事件触发词代替事件作为节点,以事件之间的语义关系作为边,把文本表示为节点和边构成的图.基于该模型实现了自动摘要应用,...  相似文献   

11.
基于编码器共享和门控网络的生成式文本摘要方法   总被引:2,自引:0,他引:2  
结合基于自注意力机制的Transformer模型, 提出一种基于编码器共享和门控网络的文本摘要方法。该方法将编码器作为解码器的一部分, 使解码器的部分模块共享编码器的参数, 同时使用门控网络筛选输入序列中的关键信息。相对已有方法, 所提方法提升了文本摘要任务的训练和推理速度, 同时提升了生成摘要的准确性和流畅性。在英文数据集Gigaword和DUC2004上的实验表明, 所提方法在时间效率和生成摘要质量上, 明显优于已有模型。  相似文献   

12.
生成过程中利用词汇特征(包含n-gram和词性信息)识别更多重点词汇内容,进一步提高摘要生成质量,提出了一种基于sequence-to-sequence(Seq2Seq)结构和attention机制的、融合了词汇特征的生成式摘要算法。算法的输入层将词性向量与词向量合并后作为编码器层的输入,编码器层由双向LSTM组成,上下文向量由编码器的输出和卷积神经网络提取的词汇特征向量构成。模型中的卷积神经网络层控制词汇信息,双向LSTM控制句子信息,解码器层使用单向LSTM为上下文向量解码并生成摘要。实验结果显示,在公开数据集和自采数据集上,融合词汇特征的摘要生成模型性能优于对比模型,在公开数据集上的ROUGE-1,ROUGE-2,ROUGE-L分数分别提升了0.024,0.033,0.030。因此,摘要的生成不仅与文章的语义、主题等特征相关,也与词汇特征相关,所提出的模型在融合关键信息的生成式摘要研究中具有一定的参考价值。  相似文献   

13.
在商品描述、新闻评论等多模态场景下, 已有复述生成模型只能围绕文本信息生成复述。为了解决其因无法利用图像信息而导致的语义丢失问题, 提出多模态复述生成模型(multi-modality paraphrase generation model, MPG)来引入图像信息, 并用其生成复述。在MPG中, 为了引入与原句对应的图像信息, 首先根据原句构建抽象场景图, 并将与原句相关联的图像区域特征转换为场景图的结点特征。进一步地, 为了利用构建好的场景图来生成语义一致的复述句, 使用关系图卷积神经网络和基于图的注意力机制对图结点特征进行编码和解码。在评测阶段, 提出句对相似度计算方法, 从MSCOCO数据集中筛选出描述图像中相同物体的句对, 并将其作为复述测试集进行评测。实验结果显示, 所提出的MPG模型生成的复述拥有更好的语义忠实度, 表明在多模态场景下图像信息的引入对提高复述生成质量的有效性。  相似文献   

14.
提出基于双语合成语义的翻译相似度模型, 通过在翻译过程中引入双语语义相似度特征提高翻译性能。首先利用分布式方法分别在源端和目标端获取短语的单语合成语义向量, 然后利用神经网络将它们映射到同一语义空间, 获得双语合成语义向量。在该语义空间, 计算源语言短语和对应的目标语言短语之间基于合成语义向量的翻译相似度, 将其作为一个新特征加入解码器。在汉英翻译NIST06和NIST08测试数据集上, 相较于基准系统, 基于双语合成语义的翻译相似度模型获得0.56和0.42 BLEU值的显著性提高。  相似文献   

15.
针对传统端到端模型在输入文本语义较复杂情况下生成的问题普遍存在语义不完整的情形,提出一种基于语义特征提取的文本编码器架构.首先构建双向长短时记忆网络获得基础的上下文信息,然后采用自注意力机制及双向卷积神经网络模型分别提取语义的全局特征和局部特征,最后设计一种层次结构,融合特征及输入自身信息得到最终的文本表示进行问题生成.在数据集SQuAD上的实验结果表明,基于语义特征提取与层次结构进行问题生成效果显著,结果明显优于已有方法,并且语义特征提取和层次结构在任务的各评价指标上均有提升.  相似文献   

16.
冯毅雄  Tan  Jianrong  Wei  Zhe  Hao  He 《高技术通讯(英文版)》2007,13(4):373-378
The self-organized evolution technology of the mechanism kinetic scheme based on axiomatic design is presented.This technology tries to express the constraints between kinetic mechanisms briefly in a semantic form which is more familiar to the designers.Though the mapping process between the kinetic chain unit and the unit instance,the evolution from abstract unit to concrete engineering instance is achieved.The subdivision of unit coupling semantics is studied.and the evolution of semantics is finished.Also.the semantic constraints evolution of unit coupling semantics is described.The product structure models with function and assembly meanings are constructed based on the kinematic chain unit and unit coupling.It provides a basis to realize the inheritance and transfer of constraint information from conceptual design to design for assembly(DFA).As the engineering practice result shows,the method Can help the engineers express their design intension more clearly and naturally in a high semantic level.And the automation,recursion and visualization of the mechanism kinetic scheme design are realized.  相似文献   

17.
为解决已有复述语义计算方法未考虑句法结构的问题, 提出基于句法结构的神经网络复述识别模型, 设计基于树结构的神经网络模型进行语义组合计算, 使得语义表示从词语级扩展到短语级。进一步地, 提出基于短语级语义表示的句法树对齐机制, 利用跨句子注意力机制提取特征。最后, 设计自注意力机制来增强语义表示, 从而捕获全局上下文信息。在公开英语复述识别数据集Quora上进行评测, 实验结果显示, 复述识别性能得到改进, 达到89.3%的精度, 证明了提出的基于句法结构的语义组合计算方法以及基于短语级语义表示的跨句子注意力机制和自注意力机制在改进复述识别性能方面的有效性。  相似文献   

18.
针对重复缺陷报告检测研究中存在语义长距离依赖以及缺陷报告特征的单一性问题,提出一种强化文本关联语义和多特征提取的重复缺陷报告检测模型。引入自注意力机制捕获缺陷报告文本序列内部的语义关联性,从而动态计算上下文语义向量进行语义分析,解决长距离依赖问题;利用隐含狄利克雷分布算法捕获缺陷报告文本的主题特征,同时针对缺陷报告的类别信息,构建一种特征提取网络计算类别差异特征;最后基于3类特征向量进行综合检测。实验结果表明,该模型实现了更优的检测性能。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号