首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 46 毫秒
1.
生成过程中利用词汇特征(包含n-gram和词性信息)识别更多重点词汇内容,进一步提高摘要生成质量,提出了一种基于sequence-to-sequence(Seq2Seq)结构和attention机制的、融合了词汇特征的生成式摘要算法。算法的输入层将词性向量与词向量合并后作为编码器层的输入,编码器层由双向LSTM组成,上下文向量由编码器的输出和卷积神经网络提取的词汇特征向量构成。模型中的卷积神经网络层控制词汇信息,双向LSTM控制句子信息,解码器层使用单向LSTM为上下文向量解码并生成摘要。实验结果显示,在公开数据集和自采数据集上,融合词汇特征的摘要生成模型性能优于对比模型,在公开数据集上的ROUGE-1,ROUGE-2,ROUGE-L分数分别提升了0.024,0.033,0.030。因此,摘要的生成不仅与文章的语义、主题等特征相关,也与词汇特征相关,所提出的模型在融合关键信息的生成式摘要研究中具有一定的参考价值。  相似文献   

2.
互联网时代信息量庞大,简洁的标题可以提高信息阅读效率。在课堂场景下,知识点标题生成便于用户整理和记忆课堂内容,提高课堂学习效率。该文将标题生成应用于课堂教学领域,制作了课堂知识点文本—标题数据集;提出了一种改进的TextRank算法——考虑关键字和句子位置的文本排序(textranking considering keywords and sentence positions, TKSP)算法,该算法综合考虑了关键词和句子位置等因素对句子权重的影响,能够更准确地提取文本重点信息。使用以召回率为导向的摘要评价(recall-oriented understudy for gisting evaluation, ROUGE)方法,TKSP算法在ROUGE-1、 ROUGE-2和ROUGE-L指标上的得分率分别为51.20%、 33.42%和50.48%,将TKSP抽取式算法与统一语言模型(unified language model, UniLM)结合,并融合文本主题信息,提出统一语言模型结合考虑关键字和句子位置的文本排序算法的模型(unified language modeling co...  相似文献   

3.
抽取式摘要可读性、准确性较差,生成式摘要存在连贯性、逻辑性的不足,此外2种摘要方法的传统模型对文本的向量表示往往不够充分、准确。针对以上问题,该文提出了一种基于BERT-SUMOPN模型的抽取-生成式摘要方法。模型通过BERT预训练语言模型获取文本向量,然后利用抽取式结构化摘要模型抽取文本中的关键句子,最后将得到的关键句子输入到生成式指针生成网络中,通过EAC损失函数对模型进行端到端训练,结合coverage机制减少生成重复,获取摘要结果。实验结果表明,BERT-SUMOPN模型在BIGPATENT专利数据集上取得了很好的效果,ROUGE-1和ROUGE-2指标分别提升了3.3%和2.5%。  相似文献   

4.
为从海量微博中高效地获取不同话题下的关键信息,微博观点摘要成为自然语言处理领域近期研究的热点之一。基线方法基于TF-IDF算法抽取微博句中的关键词,并据此计算微博的重要性分数,直接筛选出观点摘要;朴素改进方法在基线方法的基础上,增加了情感分类步骤,并利用微博句之间的语义距离,将摘要句候选集中语义重复、重要度较小的句子去除,生成观点摘要;基于语义图优化算法的方法在朴素改进方法的基础上,利用微博句的重要性分数及微博句之间的语义距离构建语义图结构,并通过图优化算法筛选出观点摘要。朴素改进方法在COAE2016评测任务一测试数据集上,10个话题的平均ROUGE-1值达到26.39%,平均ROUGE-2值达到0.68%,平均ROUGE-SU4值达到5.69%,且评测官方公布结果显示,该方法在9项评价指标中获得6项最佳性能。基于语义图优化算法的方法在评测样例数据集上进行了实验,结果显示,该方法比朴素改进方法在ROUGE-1,ROUGE-2,ROUGE-SU4值上分别提升了0.63%, 1.51%, 2.69%。  相似文献   

5.
传统的关键词抽取算法不能够抽取那些没有在文本当中出现过的关键词,因此在抽取法律问题(短文本)的关键词任务上效果不佳。该文提出了一种基于强化学习的序列到序列(seq2seq)模型来从法律问题中抽取关键词。首先,编码器将给定法律问题文本的语义信息压入一个密集矢量;然后,解码器自动生成关键词。因为在关键词抽取任务中,生成的关键词的前后顺序无关紧要,所以引入强化学习来训练所提出的模型。该模型结合了强化学习在决策上的优势和序列到序列模型在长期记忆方面的优势,在真实数据集上的实验结果表明,该模型在关键词抽取任务上有较好的效果。  相似文献   

6.
序列到序列模型已经被广泛用于抽象文本摘要中,主要将源端语句的词序列通过神经网络生成摘要的词序列.在生成过程中,源端语句所携带的信息被编码,继而由解码器生成摘要.源端句子中包含有两种类型的信息,一类是与摘要有关联的信息,另一类是与摘要无关的冗余信息.为了区分这两类信息,提出了一种新的模型架构,在序列到序列模型的目标端加入冗余序列信息,通过解码器分别生成摘要文本以及冗余文本.将该模型应用于Gigaword英文测试集和LCSTS中文测试集,测试结果表明:相对于基准系统Transformer模型,加入冗余序列的Transformer模型在评估指标ROUGE-1(recall-oriented understudy for gisting evaluation-1)下的得分提高了0.7个百分点,证明该模型能够生成更高质量的抽象文本摘要.  相似文献   

7.
针对风电技术文献专业性强、摘要自动生成困难的问题,提出一种基于BART模型与观察者机制的中文风电文献摘要生成算法(SummarizationGenerationBasedontheObserverMechanism of BART and Baidu DNN,SG-BART-DNN).首先,根据风电文献的特征,利用Jieba分词算法,整理、搭建数据集,完成数据集的预处理工作;然后,引入BART模型,建立风电词汇向量空间,利用自建数据集,训练得到针对风电文献的生成者模型;最后,引入观察者DNN机制,设计基于联合损失函数的学习准则与训练方法,对生成者模型进行优化.实验结果表明:与同类算法进行对比,SG-BART-DNN模型对原文的理解更充分,生成的语句更准确,ROUGE-L得分更高,可以解决中文风电文献摘要生成的难题.  相似文献   

8.
针对桥梁锈蚀数据难获取、锈蚀病害数据集小的问题,基于生成对抗网络(GAN)对桥梁锈蚀数据集进行扩增,并采用IS和K均值聚类算法验证其有效性.采用扩增后的数据集,按4∶1的比例划分为训练集和验证集,分别对U-Net网络和DeepLab-V3+网络进行训练,对比分析2种网络对于锈蚀分割的精度、召回率及F1分数.结果表明,采用深度卷积生成对抗网络(DCGAN)生成虚拟数据集的IS值达到2.41,分类肘形图类别数为5,与原数据集吻合,可作为扩增数据集以提升模型泛化性;DeepLab-V3+网络模型在验证集上的精度为0.935,召回率为0.952,F1分数为0.943,均显著高于U-Net网络模型.DeepLab-V3+网络在点状锈蚀区域连通与分割方面优于U-Net网络,并实现了片状锈蚀区域分割,为桥梁锈蚀精准识别与分割提供了技术支撑.  相似文献   

9.
为解决侨情问句甚少导致训练的侨情语料较少的问题,提出一种基于模板学习的智能侨情问句生成方法。首先,对侨情篇章文本进行包含主题、关系、对象的三元组抽取;其次,构建训练数据集,输入数据由主题和关系构成,输出数据为问句模板;随后,采用以BERT+LSTM+Attention为核心算法的seq2seq框架,实现问句模板生成;最后,对模板问句进行主题文本替换,从而得到最终的实例化问句。采用BLEU,ROUGE-N,公开问答系统评测及人工评价方式对文中方法进行评价。结果表明:BLEU,ROUGE-N,公开问答系统评测及人工评价方式对文中方法的评测结果分别为0.77,0.67,81%,88%,较基线模型有较大的提升。  相似文献   

10.
针对新闻文本摘要提取过程中,传统抽取式算法存在对文本内容概括不全面、摘要内容冗余、关键词提取时未考虑异词同义等问题,提出了一种基于最大边界相关算法(MMR)和词汇语义网(WordNet)的新闻文本摘要生成算法——WMMR.该算法综合考虑文本相似度、关键词、句子位置信息、线索词等特征对句子权重的影响,从而优化MMR算法中的句子得分,并在计算关键词得分时引入WordNet合并同义词.在NLPCC2017公开数据集上验证本文算法的有效性,结果表明WMMR算法的ROUGE值相较于TextRank算法提升4个百分点,相较于MMR算法提升7个百分点.在神策杯2018与SogouCS公开数据集上验证本文算法的普适性,结果表明WMMR算法的ROUGE值相较于传统TextRank,MMR等算法均有提升,证明WMMR算法有效提升了生成摘要的质量.  相似文献   

11.
针对中文的象形性和结构性特点,本文提出了一种新的生成式自动摘要解决方案,包括基于笔画的文本向量生成技术和一个生成式自动摘要模型。基于笔画的文本向量方法针对组成汉字的最小粒度笔画进行编码,增强了通过Skip-Gram模型得到对应的中文词向量语义信息;然后通过对Seq2Seq模型进行优化,使用Bi-LSTM解决长序列文本信息丢失以及逆向信息的补充问题;并在编码端加入Attention机制以计算不同输入词对解码端的影响权重,在解码端加入Beam Search算法优化生成序列的流畅度。基于LCSTS数据集实验表明,本文提出的模型在中文文本摘要生成质量和可读性上有所提升。  相似文献   

12.
为了提高效率,降低培训成本并推广使用计算机来取代管制模拟机中的飞行员席位,采用集成学习的策略来生成飞行员复诵指令。选用5个大规模预训练语言模型进行微调,并使用K折交叉验证来筛选出性能较好的4个模型作为基础模型来构建集成学习模型。所构建的集成学习模型在管制指令数据集上取得在本领域中的最优效果。在通用的ROUGE(recall-oriented understudy for gisting evaluation)评价标准中,取得ROUGE-1=0.998,ROUGE-2=0.995,ROUGE-L=0.998的最新效果。其中,ROUGE-1关注参考文本与生成文本之间单个单词的匹配度,ROUGE-2则关注两个连续单词的匹配度,ROUGE-L则关注最长公共子序列的匹配度。为了克服通用指标在本领域的局限性,更准确地评估模型性能,针对生成的复诵指令提出一套基于关键词的评价标准。该评价指标准基于管制文本分词后的结果计算各个关键词指标来评估模型的效果。在基于关键词的评价标准下,所构建模型取得整体准确率为0.987的最优效果,对航空器呼号的复诵准确率达到0.998。  相似文献   

13.
在现有的医学影像诊断报告自动生成模型中,仅利用输入图像的视觉特征来提取相应的语义特征,并且生成词之间关联较弱和缺乏上下文信息等问题。为了解决上述问题,提出一种对比增强的关联记忆网络模型,通过对比学习提高模型区分不同图像的能力,设计了注意力增强关联记忆模块根据上一时间步生成的单词来持续更新,以加强生成医学图像报告中生成词之间的关联性,使得本模型可以为医学图像生成更准确的病理信息描述。在公开IU X-Ray数据集和私有胎儿心脏超声数据集上的实验结果表明,提出的模型在Cider评估指标方面明显优于以前的一些模型(与经典的AOANet模型相比较,在IU X-Ray上Cider指标提升了51.9%,在胎儿心脏超声数据集上Cider指标提升了3.0%)。  相似文献   

14.
GAN生成图像质量评价是指对GAN生成的图像进行评价,判断生成图像的失真度是否影响观察者的信息获取和主观感受.目前,GAN生成图像质量评价算法较少且算法运行效率不高.该文提出一种基于近邻算法的生成图像质量评价(Near-Neighbor based Generated Image Quality Assessment, NN-GIQA)算法,实现对GAN生成图像的自动、客观、高效评价.首先,基于ANN算法获取生成图像的近邻构成相似图像候选池,缩小生成图像对比范围;然后,基于KNN算法在相似图像候选池中获取与生成图像最相似的K个真实图像得到生成图像质量分数;最后,评价多个经典GAN模型在多个经典数据集上获取的生成图像的质量.实验结果表明本文方法有效提高了GAN生成图像质量评价的效率和准确性,运行时间仅为其他方法的1/9~1/28,其评价结果和人类主观评价结果的一致性达到80%以上,符合人类视觉感知.  相似文献   

15.
聚丙烯复合材料老化实验周期长, 且单次实验采集的数据样本少, 使用传统机器学习方法进行预测的准确度较低. 为了解决聚丙烯复合材料老化数据样本少与预测准确性低的问题, 提出了一种虚拟样本生成(virtual sample generation, VSG)的集成学习预测方法. 首先, 对聚丙烯复合材料老化数据使用高斯混合模型(Gaussian mixed model, GMM)虚拟样本生成方法平滑生成验证有效的虚拟样本; 然后, 使用生成后的数据集建立集成学习预测模型, 该模型包含随机森林(random forest, RF)、极端梯度提升(extreme gradient boosting, XGBoost)算法、轻量级梯度提升机(light gradient boosting machine, LightGBM)算法以及分类梯度提升(categorical boosting, CatBoost)算法. 实验表明: 集成学习模型的 LightGBM 算法与 CatBoost 算法性能最优, 在测试数据上均方误差为 0.001 3 与 0.000 1, 比 RF 算法与 XGBoost 算法分别高出 0.4 与 0.2. 聚丙烯复合材料老化虚拟样本生成与集成学习方法可以有效解决实验周期长、单次实验采集的数据样本少的问题, 并可取得比单一机器学习算法更优的性能.  相似文献   

16.
通过引入BERT(Bidirectional Encoder Representation from Transformers)词向量和胶囊神经网络架构,建立期刊文本自动分类模型.选取三个不同规模的Web of Science数据集,以期刊领域的文本分类作为研究任务.在分析文本的基础上,对论文摘要进行多种深度学习算法训练.利用向量化的胶囊神经元和动态路由机制获取文本的局部-整体关系,最终实现更加精准的文本分类模型.实验结果表明,在该数据集上,基于胶囊神经网络的文本分类器的准确率、精准率、召回率和F1值等多项指标均领先于其他基线算法,同时动态路由的迭代次数需要综合考虑模型的损失与训练速度.  相似文献   

17.
聚丙烯复合材料老化实验周期长,且单次实验采集的数据样本少,使用传统机器学习方法进行预测的准确度较低.为了解决聚丙烯复合材料老化数据样本少与预测准确性低的问题,提出了一种虚拟样本生成(virtual sample generation,VSG)的集成学习预测方法.首先,对聚丙烯复合材料老化数据使用高斯混合模型(Gaussian mixed model,GMM)虚拟样本生成方法平滑生成验证有效的虚拟样本;然后,使用生成后的数据集建立集成学习预测模型,该模型包含随机森林(random forest,RF)、极端梯度提升(extreme gradient boosting,XGBoost)算法、轻量级梯度提升机(light gradient boosting machine,LightGBM)算法以及分类梯度提升(categorical boosting,CatBoost)算法.实验表明:集成学习模型的LightGBM算法与CatBoost算法性能最优,在测试数据上均方误差为0.001 3与0.0001,比RF算法与XGBoost算法分别高出0.4与0.2.聚丙烯复合材料老化虚拟样本生成与集成...  相似文献   

18.
为了提高文本标记和分类的效率,提出了基于概念语义相关性和LDA的文本自动标记算法(Text Mark Label,TML),用以代替人工标记的文本分类标记. 该算法在概念语义相关性计算的基础上,使用LDA(Latent Dirichlet Allocation)提取文本的主题表示,通过计算文本主题从属于各分类目录的期望从而实现文本自动标记. 为验证TML算法的效果,在标准文本分类数据集上使用文本分类器进行有监督文本分类实验. 为对比数据集和分类器对分类效果的影响,在3个数据集(WebKB、Reuters-21578、20-NewsGroup)上分别使用3种不同的分类器(Rocchio、KNN、SVM)进行实验. 实验结果表明:TML算法有效地提高了文本分类效率及文本标记效率.  相似文献   

19.
自动文本摘要生成(ATS)与计算机科学和认知心理学密切相关.提出了一个自动文本摘要生成系统(EI-ATS).该系统借助句法和词法分析,将认知心理学中的事件-索引(Event-indexing)模型运用到自动文本摘要生成.评价结果表明:该系统在多文件摘要生成方面表现良好,成为整合两个相异但相关领域知识的研究范例.  相似文献   

20.
针对使用深度学习提取人脸表情图像特征时易出现冗余特征,提出了一种基于多 层感知机(MLP)的改进型 Xception 人脸表情识别网络 . 该模型将 Xception 网络提取的特征输 入至多层感知机中进行加权处理,提取出主要特征,滤除冗余特征,从而使得识别准确率得到 提升 . 首先将图像缩放为 48*48,然后对数据集进行增强处理,再将这些经过处理的图片送入 本文所提网络模型中. 消融实验对比表明:本文模型在CK+数据集、JAFFE数据集和MMI数据 集上的正确识别率分别为98.991%、99.02%和80.339%,Xception模型在CK+数据集、JAFFE数 据集和 MMI 数据集上的正确识别率分别为 97.4829%、90.476% 和 74.0678%,Xception+2lay 模 型在 CK+数据集、JAFFE 数据集和 MMI 数据集上的正确识别率分别为 98.04%、84.06% 和 75.593%. 通过以上消融实验对比,本文方法的识别正确率明显优于Xception模型与Xception+ 2lay模型. 与其他模型相比较也验证了本文模型的有效性.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号