首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 93 毫秒
1.
提出调度命令智能生成模型,该模型由神经网络和调度命令修正模块两部分组成。基于长短时记忆(LSTM)网络构建序列-序列(seq2seq)模型,将预警文本信息作为模型的输入进行训练,提出五种调度命令修正策略并分别对五种易错信息进行修正,最终得到调度命令。结果表明:该模型具有利用预警文本信息生成调度命令的能力,引入的调度命令修正模块能够有效提升调度命令生成质量。  相似文献   

2.
在“智慧法院”的建设中,法律信息抽取是法律人工智能任务中最基本的任务。目前,法律信息抽取方法主要基于深度神经网络的监督学习模型。由于现有的监督学习模型需要大量的标签数据,而人工标注的方式会提高法律信息抽取任务的成本,存在只有少样本情况下模型学习性能较差的问题。针对上述问题,提出一种结合预训练和自训练的法律信息抽取增强式方法。首先,利用大规模预训练模型和标签数据训练出一个教师模型;然后,利用改进的文本相似度计算公式从法律文书库中寻找出与训练集相似的无标签法律文本数据,再结合训练完成的教师模型对其生成伪标签数据;最后,将有标签数据和伪标签数据混合起来重新训练出一个学生模型用于下游的法律信息抽取任务。本文在2021法研杯提供的信息抽取数据集上进行验证。与基线模型进行对比,本文提出的结合预训练和自训练的法律信息抽取增强式方法取得了较好的抽取效果。  相似文献   

3.
针对NPM平台上存在大量的软件包没有标签或标记不完善的问题, 提出一种基于seq2seq模型的深度学习方法为软件包推荐标签. 首先, 利用ECMAScript工具分析软件包的源码构建出包的函数调用图, 遍历函数调用图从而将软件包转换成一组具有包语义信息的函数调用序列; 其次, 训练seq2seq模型, 并将训练好的模型用于软件包的标签推荐工作, 该模型能将包的函数调用序列映射到一组预测的标签序列上, 从而完成软件包的标签推荐. 实验结果表明, 该方法能为软件包推荐一组合理的标签, 准确率达82.6%.  相似文献   

4.
抽象语义表示(Abstract Meaning Representation,AMR)到文本生成(简称AMR-to-Text生成),可将给定的AMR图生成与其意义相同的文本。由于AMR-to-Text生成可使用的标准数据集规模较小,因此该任务生成文本的性能受模型影响较大。针对此问题,文章基于大规模自动标注语料来比较先进模型和基准模型生成文本的性能,探索了先进模型在使用大规模自动标注语料的基础上,是否还能够保持其显著的性能优势。使用了(Sequenceto-Sequence,Seq2Seq)的Transformer模型和当前AMR-to-Text生成性能最优的图到序列模型,通过不同方案比较模型生成文本的性能。实验结果表明,在大规模自动标注语料的基础上,AMR-to-Text生成任务的先进模型与基准模型生成文本的性能没有显著差异,先进模型的性能优势不明显。  相似文献   

5.
多标签文本分类任务存在难以从文本信息中提取标签关联的判别特征,建立标签相关性困难等问题。现有方法主要采用基于RNN的序列生成模型来建立标签高阶相关性,但缺乏对文本语义信息的充分利用。为此文章提出基于Transformer解码器的序列生成模型,使用标签嵌入作为查询,通过其多头自注意力机制建立标签之间的高阶相关性,并利用多头交叉注意力子层从文本信息中自适应地聚合标签相关的关键特征。文章的注意力权重可视化实验表明,序列生成Transformer在建立标签相关性的同时,能够更全面、更深层次地考虑文本和标签之间的语义相关性。与传统RNN类模型相比,序列生成Transformer在分类任务中兼具有效性和可解释性,并在AAPD和SLASHDOT两个数据集上取得了更优的结果。在AAPD数据集上分别取得了70.49%的Instance-F1值和52.04%的Label-F1值,比以往分类效果最好的set-RNN模型分别高1.44%和1.83%。  相似文献   

6.
序列到序列模型已经被广泛用于抽象文本摘要中,主要将源端语句的词序列通过神经网络生成摘要的词序列.在生成过程中,源端语句所携带的信息被编码,继而由解码器生成摘要.源端句子中包含有两种类型的信息,一类是与摘要有关联的信息,另一类是与摘要无关的冗余信息.为了区分这两类信息,提出了一种新的模型架构,在序列到序列模型的目标端加入冗余序列信息,通过解码器分别生成摘要文本以及冗余文本.将该模型应用于Gigaword英文测试集和LCSTS中文测试集,测试结果表明:相对于基准系统Transformer模型,加入冗余序列的Transformer模型在评估指标ROUGE-1(recall-oriented understudy for gisting evaluation-1)下的得分提高了0.7个百分点,证明该模型能够生成更高质量的抽象文本摘要.  相似文献   

7.
作为新兴的智慧法院技术之一,基于案情描述文本的法律判决预测越来越引起自然语言处理界的关注。罪名预测和法条推荐是法律判决预测的2个重要子任务。这2个子任务密切相关、相互影响,但常常当作独立的任务分别处理。此外,罪名预测和法条推荐还面临易混淆罪名问题。为了解决这些问题,该文提出一种多任务学习模型对这2个任务进行联合建模,同时采用统计方法从案情描述中抽取有助于区分易混淆罪名的指示性罪名关键词,并将它们融入到多任务学习模型中。在CAIL2018法律数据集上的实验结果表明:融入罪名关键词信息的多任务学习模型能够有效解决易混淆罪名问题,并且能够显著地提高罪名预测和法条推荐这2个任务的性能。  相似文献   

8.
为了提高实体关系联合抽取的效果,提出一种端到端的联合抽取模型(HSL).HSL模型采取一种新的标记方案,将实体和关系的联合抽取转化成序列标注问题,同时采用分层的序列标注方式来解决三元组重叠问题.实验证明,HSL模型能有效地解决三元组重叠问题,在军事语料数据集上F1值达到80.84%,在公开的WebNLG数据集上F1值达...  相似文献   

9.
为了提高效率,降低培训成本并推广使用计算机来取代管制模拟机中的飞行员席位,采用集成学习的策略来生成飞行员复诵指令。选用5个大规模预训练语言模型进行微调,并使用K折交叉验证来筛选出性能较好的4个模型作为基础模型来构建集成学习模型。所构建的集成学习模型在管制指令数据集上取得在本领域中的最优效果。在通用的ROUGE(recall-oriented understudy for gisting evaluation)评价标准中,取得ROUGE-1=0.998,ROUGE-2=0.995,ROUGE-L=0.998的最新效果。其中,ROUGE-1关注参考文本与生成文本之间单个单词的匹配度,ROUGE-2则关注两个连续单词的匹配度,ROUGE-L则关注最长公共子序列的匹配度。为了克服通用指标在本领域的局限性,更准确地评估模型性能,针对生成的复诵指令提出一套基于关键词的评价标准。该评价指标准基于管制文本分词后的结果计算各个关键词指标来评估模型的效果。在基于关键词的评价标准下,所构建模型取得整体准确率为0.987的最优效果,对航空器呼号的复诵准确率达到0.998。  相似文献   

10.
多序列比对(multiple sequence alignment, MSA)在生物信息学中是一项重要的研究领域,常被用于描述物种之间的进化关系、药物设计和药物开发.MSA是一个NP完全问题,因计算过于复杂,无法获得最优解.强化学习方法在MSA中表现出了优异的性能,但其计算复杂度与空间复杂度都很高,因此无法应用于大规模数据集.提出一种新的强化学习模型CDRL(contextual deep reinforcement learning)来解决多序列比对问题,该模型采用上下文关系,将网络输入维度从O(n2)降为O(n),其中n是输入的序列数量.该模型建立的网络收敛速度快于当前其他模型.实验结果表明,CDRL的性能优于业内其他强化学习MSA.相较于其他方法目前只能运行在12条序列数据上,CDRL成功地在100条序列上取得较快速度和较好性能.这提高了强化学习MSA应用在较大规模数据集上的可能性.  相似文献   

11.
针对基于编码-解码的生成式摘要模型不能充分提取语法知识导致摘要出现不符合语法规则的问题,循环神经网络易遗忘历史信息且训练时无法并行计算导致处理长文本时生成的摘要主旨不显著以及编码速度慢的问题,提出了一种融合序列语法知识的卷积-自注意力生成式摘要方法.该方法对文本构建短语结构树,将语法知识序列化并嵌入到编码器中,使编码时能充分利用语法信息;使用卷积-自注意力模型替换循环神经网络进行编码,更好学习文本的全局和局部信息.在CNN/Daily Mail语料上进行实验,结果表明提出的方法优于当前先进方法,生成的摘要更符合语法规则、主旨更显著且模型的编码速度更快.   相似文献   

12.
为克服传统TF-IDF概念思想与关键词抽取的逻辑相冲问题,引入卡方校验的方法优化TFIDF算法,设计了一个包含文件存储、文本预处理、度量值计算、排序抽取和优化输出4个流程的关键词抽取系统。实验结果表明,该系统能够很好地完成关键词分类抽取的任务,可为数据检索、文本聚类、摘要生成等提供基础支持。  相似文献   

13.
基于文本交互信息对文本语义匹配模型的重要性,提出一种结合序列生成任务的自监督学习方法.该方法利用自监督模型提取的文本数据对的交互信息,以特征增强的方式辅助基于神经网络的语义匹配模型,构建多任务的文本匹配模型.9个模型的实验结果表明,加入自监督学习模块后,原始模型的效果都有不同程度的提升,表明所提方法可以有效地改进深度文...  相似文献   

14.
知识抽取任务是从非结构化的文本数据抽取三元组关系(头实体-关系-尾实体)。现有知识抽取方法分为流水式方法和联合抽取方法。流水式方法将命名实体识别和实体知识抽取分别用各自的模块抽取,这种方式虽然有较好的灵活性,但训练速度较慢。联合抽取的学习模型是一种通过神经网络实现的端到端的模型,同时实现实体识别和知识抽取,能够很好地保留实体和关系之间的关联,将实体和关系的联合抽取转化为一个序列标注问题。基于此,本文提出了一种基于字词混合和门控制单元(Gated Recurrent Unit,GRU)的科技文本知识抽取(MBGAB)方法,结合注意力机制提取中文科技资源文本的关系;采用字词混合的向量映射方式,既在最大程度上避免边界切分出错,又有效融入语义信息;采用端到端的联合抽取模型,利用双向GRU网络,结合自注意力机制来有效捕获句子中的长距离语义信息,并且通过引入偏置权重来提高模型抽取效果。  相似文献   

15.
基于定长序列的双向LSTM标注模型,提出强化中心字模型和强化逆向序列模型的分词优化方法.在Bakeoff2005微软亚洲研究院语料上的实验表明,优化方法的分词效果得到了提升.提出的优化模型,对于其他序列标注任务,具有一定的借鉴作用.  相似文献   

16.
文本生成任务需要对大量词汇或语句进行表征,且可将其建模为序列决策问题.鉴于深度强化学习(deep reinforcement learning,DRL)在表征及决策方面的优良性能,DRL在文本生成任务中发挥了重要的作用.基于深度强化学习的文本生成方法改变了以最大似然估计为目标的训练机制,有效解决了传统方法中存在的暴露偏...  相似文献   

17.
自动生成技术在信息提取任务中具有重要作用,为此研究设计了基于双向Transformer编码器(Bidirectional Encoder Representation from Transformers, BERT)的摘要生成模型.模型的掩码方式由casual改为了seq2seq,模型使用改进的随机集束搜索算法(Random Beam Search Algorithm, RBSA)作为解码算法.实验结果显示,RBSA的多样性百分比最高为69.20%,高于对比算法.摘要模型的覆盖度分数为30.12,生成的摘要在数据集1上的ROUGE-1、ROUGE-2、ROUGE-L数值分别为39.11、17.20、29.71,在数据集2上分别为41.21、18.70、38.29,均优于对比模型,可以自动生成中文和英文文本摘要,通过快速提取原文信息提高翻译效率.  相似文献   

18.
文本关键词的抽取作为文本摘要、文本检索以及文本挖掘任务的基础工作,在自然语言领域得到广泛应用.通过对文本关键词抽取方法和研究现状的详述,将文本关键词抽取方法分为传统文本关键词抽取方法和基于深度学习的文本关键词抽取方法,并对比分析各类方法的基本思想和优缺点,归纳了文本关键词抽取方法的评价指标.进一步调研了民族语言关键词抽...  相似文献   

19.
针对在文本信息抽取研究中传统的监督学习方法存在标注工作量大和时间代价高等缺点,提出一种改进的半监督学习模型。该模型利用支持向量机的分类优势以及直推式学习在未标注样本上的泛化特点,先用少量标注语料进行学习,同时测试新语料,然后再加入到模型当中一起训练,调整预测规律。在领域实体属性抽取试验中,与传统的支持向量机学习方法相比,该模型能够在小语料条件下取得较好的抽取效果,泛化学习能力较强,可以节省大量的人力成本。  相似文献   

20.
属性抽取的目标是从非结构化文本中抽取与文本实体相关的属性和属性值,然而在电商场景下基于序列标注的模型缺少应对大规模属性抽取任务的可扩展性和可泛化性能力。本文提出基于阅读理解的商品属性抽取模型,通过额外加入问句来强化模型对属性的理解,结合双仿射注意力机制捕获问句和文本之间的语义特征,进一步提高模型的抽取性能。本文在电商数据集上对不同类型问句和不同解码器进行了对比实验,结果表明本文提出的方法优于多个基线模型,相较于OpenTag和SUOpenTag模型,属性抽取的F1值分别提升7.70%和3.26%,未登录词识别的F1值分别提升15.51%和8.12%。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号