首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 31 毫秒
1.
自然语言处理(Natural Language Processing,NLP)可分为自然语言理解(Natural Language Understanding,NLU)和自然语言生成(Natural Language Generation,NLG)两大类子任务。预训练语言模型和神经语言模型在自然语言理解的整个流程中占据重要地位。本文梳理了文本预训练语言模型的发展流程,并分析当下主流的预训练语言模型以及深度学习模型的不足,基于经典预训练语言模型(Word2Vec)和卷积神经网络分类模型(CNN),提出一种简化的文本分类模型(Simplified CNN),在多个情感分析(Sentiment Analysis,SA)基准数据集上进行实验测试,实验结果表明,在文本分类任务上,简单网络可以得到与复杂网络相媲美的分类效果并且运行时间优于复杂网络,与传统的分类模型相比较,在分类效果上表现出了优势。  相似文献   

2.
针对科研学术论文推荐数据稀疏的问题,提出一种基于预训练语言模型特征扩展的科研论文推荐方法.通过预训练语言模型学习论文摘要的特征表示,将其作为辅助信息构建推荐模型,再将辅助特征和用户-论文标签矩阵共同输入半自编码机模型进行训练,最终实现推荐任务.实验结果表明,相比自编码机等神经网络方法,该方法推荐的科研论文更为准确,可提高科研工作效率.  相似文献   

3.
<正>随着人工智能技术的飞速发展,GPT等大型语言模型在各个领域得到l广泛应用。本文着重探讨GPT在健康大数据专业中的应用与探索,分析其在疾病诊断、治疗建议、流行病学研究以及患者健康管理等方面的潜力。GPT是OpenAI开发的一种大型自然语言处理模型,基于Transformer架构,通过对大量文本数据进行预训练,旨在学习并掌握丰富的语言知识和一定程度的常识知识。在预训练阶段完成后,  相似文献   

4.
作为目前自然语言处理及人工智能领域的主流方法,各种预训练语言模型由于在语言建模、特征表示、模型结构、训练目标及训练语料等方面存在差异,导致它们在下游任务中的表现各有优劣。为了更好地融合不同预训练语言模型中的知识及在下游任务中的学习能力,结合语义文本相似性判断任务的特点,提出一种多模型集成方法MME-STS,给出相应的模型总体架构及相应的特征表示,并针对多模型的集成问题分别提出基于平均值、基于全连接层训练和基于Adaboost算法的3种不同集成策略,同时在两个常用的经典基准数据集上验证该方法的有效性。实验结果表明,MME-STS在国际语义评测SemEval 2014任务4的SICK和SemEval 2017 STS-B数据集上的Pearson共关系值和Spearman相关系数值均超过单个预训练语言模型方法。  相似文献   

5.
中文拼写错误主要集中在拼音相似和字形相似两个方面,而通用的预训练语言模型只考虑文本的语义信息,忽略了中文的拼音和字形特征.最新的中文拼写纠错(Chinese Spelling Correction,CSC)方法在预训练模型的基础上利用额外的网络来融入拼音和字形特征,但和直接微调预训练模型相比,改进的模型没有显著提高模型的性能,因为由小规模拼写任务语料训练的拼音和字形特征,和预训练模型获取的丰富语义特征相比,存在严重的信息不对等现象.将多模态预训练语言模型ChineseBert应用到CSC问题上,由于ChineseBert已将拼音和字形信息放到预训练模型构建阶段,基于ChineseBert的CSC方法不仅无须构建额外的网络,还解决了信息不对等的问题.由于基于预训练模型的CSC方法普遍不能很好地处理连续错误的问题,进一步提出SepSpell方法 .首先利用探测网络检测可能错误的字符,再对可能错误的字符保留拼音特征和字形特征,掩码对应的语义信息进行预测,这样能降低预测过程中错误字符带来的干扰,更好地处理连续错误问题.在三个官方评测数据集上进行评估,提出的两个方法都取得了非常不错的结果 .  相似文献   

6.
为了解决汉英平行语料中带噪声的问题,通过设计规则方法、统计方法(包括Zipporah系统、词对齐模型、语言模型)以及神经网络方法(包括翻译模型和双语预训练模型),从不同侧重点对汉英句对平行程度进行度量.结果表明翻译模型和双语预训练模型在过滤优质平行语料任务上有良好表现.最后,对于表现优异的方法,按照加法和乘法两种方式进...  相似文献   

7.
预训练语言模型能够表达句子丰富的句法和语法信息,并且能够对词的多义性建模,在自然语言处理中有着广泛的应用,BERT(bidirectional encoder representations from transformers)预训练语言模型是其中之一。在基于BERT微调的命名实体识别方法中,存在的问题是训练参数过多,训练时间过长。针对这个问题提出了基于BERT-IDCNN-CRF(BERT-iterated dilated convolutional neural network-conditional random field)的中文命名实体识别方法,该方法通过BERT预训练语言模型得到字的上下文表示,再将字向量序列输入IDCNN-CRF模型中进行训练,训练过程中保持BERT参数不变,只训练IDCNN-CRF部分,在保持多义性的同时减少了训练参数。实验表明,该模型在MSRA语料上F1值能够达到94.41%,在中文命名实体任务上优于目前最好的Lattice-LSTM模型,提高了1.23%;与基于BERT微调的方法相比,该方法的F1值略低但是训练时间大幅度缩短。将该模型应用于信息安全、电网电磁环境舆情等领域的敏感实体识别,速度更快,响应更及时。  相似文献   

8.
与服药相关的社交文本中隐藏着更具时效和更广泛的药物不良反应信息,但是从相对短小、稀疏的社交短文本中提取药物不良反应非常困难。基于此,本文提出一种双向语言预训练模型和注意力机制相结合的神经网络识别方法。该方法利用双向字符级语言预训练模型提取特定字符级特征,而且在提取药物不良反应的同时,通过注意力机制捕获局部和全局语义上下文信息。此外,为了提高该方法的效率,将字符级特征与词级特征相结合,并采用词级预训练和字符级预训练模型代替协同训练。在PSB 2016社交媒体挖掘共享任务2中的实验结果表明,字符特征在形态学上有助于区分药物不良反应,而注意力机制通过捕获局部和全局语义信息提高了对药物不良反应的识别性能,宏平均F1值为82.2%。  相似文献   

9.
与服药相关的社交文本中隐藏着更具时效和更广泛的药物不良反应信息,但是从相对短小、稀疏的社交短文本中提取药物不良反应非常困难。基于此,本文提出一种双向语言预训练模型和注意力机制相结合的神经网络识别方法。该方法利用双向字符级语言预训练模型提取特定字符级特征,而且在提取药物不良反应的同时,通过注意力机制捕获局部和全局语义上下文信息。此外,为了提高该方法的效率,将字符级特征与词级特征相结合,并采用词级预训练和字符级预训练模型代替协同训练。在PSB 2016社交媒体挖掘共享任务2中的实验结果表明,字符特征在形态学上有助于区分药物不良反应,而注意力机制通过捕获局部和全局语义信息提高了对药物不良反应的识别性能,宏平均F1值为82.2%。  相似文献   

10.
语言模型是自然语言处理领域最重要的任务之一,并以迁移学习的方式影响着机器翻译、机器阅读理解、自动文本摘要等诸多下游任务。依托多头自注意力构建的大规模预训练语言模型在特征提取和文本表征能力上相较之前的神经网络模型取得了较大提升,却也极大地增加了模型训练的时空复杂度。为此,从模糊群决策的角度出发,将毕达哥拉斯模糊非偏好函数用作多头注意力跨度范围的先验,提出一种自适应的注意力跨度调节机制,较大程度地改善了模型捕捉长距离文本依赖的能力,并使模型的整体计算复杂度相较原始Transformer结构维持在较低水平。公开语言模型数据集上的实验表明:所提方法在困惑度指标上取得了较好的性能,超越了多种以往的方法。  相似文献   

11.
机器翻译的质量评估作为不依赖参考译文而预测翻译质量的任务,在机器翻译领域中起到了重要的作用.相较于机器翻译,质量评估的数据资源非常稀缺,将跨语言预训练模型应用到该任务中,不但能受益于从大规模语料中学习到的跨语言知识,解决数据量不足的问题,而且极大地节约了计算资源.但与建立跨语言预训练模型采用的正常数据不同,译文质量评估面对的是正常的源端文本和错误程度不同的目标端文本,即它需要应对更大的两端语义差异.因此,本文为基于跨语言预训练模型的译文质量评估系统引入了特殊的语义关联处理层,通过相似度增强的拼接机制来增强原文与译文的语义关联性,从而提高质量评估的准确性.该方法在WMT19质量评估任务数据集上的实验结果验证了上述方法的有效性.  相似文献   

12.
语义依存图分析(Semantic Dependency Graph Parsing)以有向无环图的形式来表示句子的语义信息,常用来帮助计算机理解语句的含义。基于转移的方法通过在每一步局部选择最优的转移动作,可以方便地构造语义依存图,然而因局部选择而导致的错误传播问题一直影响着系统的准确率。另外,转移系统复杂的转移过程也给批量化解码造成了困难,限制了系统的效率。文章针对基于转移的方法设计了一个简单有效的使用原子特征的神经网络模型。减少传统模型在编码时的计算量。在训练阶段采用动态Oracle缓解错误传播问题,以提高模型的准确率,并在此模型上实现批量化训练和解码,来提高模型的效率。此外,还使用预训练语言模型来进一步增强模型。实验表明,本文模型在SemEval-2015-task18领域内和领域外测试集上分别比以往的转移方法提高了1.8%和2.7%的F值,并大幅度提高了转移方法的效率,达到了与目前最先进模型相当的水平。  相似文献   

13.
针对文本立场检测中目标话题在微博文本中隐式出现以及文本语义隐含表达这2个核心问题,本文提出一种基于多类型知识增强与预训练语言模型相结合的立场检测新方法KE-BERT。该模型同时从知识图谱和百度百科中引入多类型的相关常识知识来弥补语义缺失,使用改进的预训练语言模型BERT作为编码器,然后通过卷积注意力机制对常识知识进行融合与聚焦,最后通过Softmax分类获得立场。该模型在NLPCC-2016语料库上实验的宏平均F1值达到0.803,分类性能超越现有主流模型,验证了模型的有效性。  相似文献   

14.
近年来,多模态预训练学习在视觉-语言任务上蓬勃发展。大量研究表明,多个模态特征的表征学习预训练有利于视觉-语言下游任务的效果提升。多模态表征预训练旨在采用自监督的学习范式,包括对比学习,掩码自监督等,在大规模的图文相关性数据上进行训练,通过学习模态自身与模态间的知识先验,使模型获得通用的、泛化性较强的视觉表征能力。后BERT时代,本文介绍了视觉多模态领域基于Transformer的相关工作;对主流多模态学习方法的发展脉络进行梳理,分析了不同方法的优势和局限性;总结了多模态预训练的各种监督信号及其作用;概括了现阶段主流的大规模图像-文本数据集;最后简要介绍了几种相关的跨模态预训练下游任务。  相似文献   

15.
中文命名实体识别方法中采用较多的是神经网络模型,但该模型在训练过程中存在字向量表征过于单一的问题,无法很好地处理字的多义性特征.因此,提出一种基于Bert-BLSTM-CRF模型的中文命名实体识别研究方法,使用Bert预训练语言模型,根据字的上下文信息来丰富字的语义向量,将输出的字向量序列作为输入送入BLSTM-CRF模型进行训练.实验结果表明,此方法在中文命名实体识别任务上其准确率、召回率和F1值分别取得了94.80%、95.44%和95.12%的成绩,相较于其他传统方法,效果显著.  相似文献   

16.
软件缺陷(Software Defeat/Bug)对于用户体验影响巨大,针对软件缺陷的快速定位与修复是软件工程领域一项重要研究内容。开源软件构建过程中会产生大量软件相关文本,为结合自然语言处理技术进行软件缺陷定位提供了可能。相关研究主要结合信息抽取工具对软件相关文本进行挖掘,对于文本相关的语义信息考虑较少。文章将预训练语言模型引入软件缺陷报告挖掘研究中以增强软件相关文本的语义理解,在分析开源软件文本特点基础上,提出一种基于预训练自然语言模型的深度文本摘要模型。在Summary DataSet(SDS)、Authorship DataSet(ADS)数据集上进行实验,结果表明本文提出的模型可达到约72%(ADS)准确率,与文本摘要常用基线模型相比有10%以上提升。  相似文献   

17.
韵律结构预测作为语音合成系统中的一个关键步骤,其结果直接影响合成语音的自然度和可懂度.本文提出了一种基于预训练语言表示模型的韵律结构预测方法,以字为建模单位,在预训练语言模型的基础上对每个韵律层级设置了独立的输出层,利用韵律标注数据对预训练模型进行微调.另外在此基础上额外增加了分词任务,通过多任务学习的方法对各韵律层级间的关系及韵律与词间的关系建模,实现对输入文本各级韵律边界的同时预测.实验首先证明了多输出结构设置的合理性及使用预训练模型的有效性,并验证了分词任务的加入可以进一步提升模型性能;将最优的结果与设置的两个基线模型相比,在韵律词和韵律短语预测的F1值上与条件随机场模型相比分别有2.48%和4.50%的绝对提升,而与双向长短时记忆网络相比分别有6.2%和5.4%的绝对提升;最后实验表明该方法可以在保证预测性能的同时减少对训练数据量的需求.  相似文献   

18.
针对中文司法领域信息抽取数据集中实体专业性较强、现有机器阅读理解(MRC)模型无法通过构建问句提供充足的标签语义且在噪声样本上表现不佳等问题,本研究提出了一种联合优化策略。首先,通过聚合在司法语料中多次出现的实体构建司法领域词典,将专业性较强的实体知识注入RoBERTa-wwm预训练语言模型进行预训练。然后,通过基于自注意力机制来区分每个字对不同标签词的重要性,从而将实体标签语义融合到句子表示中。最后,在微调阶段采用对抗训练算法对模型进行优化,增强模型的鲁棒性和泛化能力。在2021年中国法律智能评测(CAIL2021)司法信息抽取数据集上的实验结果表明:相较于基线模型,本研究方法F1值提高了2.79%,并且模型在CAIL2021司法信息抽取赛道中获得了全国三等奖的成绩,验证了联合优化策略的有效性。  相似文献   

19.
提出一种结合ALBERT预训练语言模型与卷积循环神经网络(convolutional recurrent neural network,CRNN)的弹幕文本情感分析模型ALBERT-CRNN.首先使用ALBERT预训练语言模型获取弹幕文本的动态特征表示,使得句子中同一个词在不同上下文语境中具有不同的词向量表达;然后利用...  相似文献   

20.
针对在小数据集上开发个性化语言模型仍存在的障碍,提出基于迁移学习的个性化循环神经网络语言模型。设计了基于预训练词向量、预训练电影剧本数据集、基于参数微调和特征提取分类器的迁移学习训练模式,在小数据集上建立了具有较高辨识度的个性化语言模型,降低了模型的困惑度,改进了模型的性能。模型的实验以电视剧Seinfeld角色为基础。结果表明:该模型在特定角色测试数据集上的困惑度比其他角色数据集平均低17.65%,证明其已经学会了该角色的个性化风格;迁移学习使得模型最低困惑度平均降低了36.38%,较好地解决了基于小数据集开发个性化语言模型存在的障碍问题。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号