首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
语义相似计算是自然语言处理领域一个常见问题,现有的基于深度学习的语义相似计算模型大多数是通过卷积网络或者长短时记忆模型来提取语义特征,但是这种语义特征的提取方式存在语义信息丢失的问题。提出两点改进传统深度学习模型在提取语义特征时的语义丢失现象。首先是改进注意力相互加权模型。基于相互加权方式做出改进,使用多个加权权重矩阵加权语义,同时提出新的正则项计算方法。其次在语义相似计算模型中引入强化学习的方法对文本进行自动分组处理,在语义相似计算领域最常用的Siamese Network模型上使用强化学习算法,改善长短时记忆模型在提取句子的语义时所面临的语义丢失现象。通过实验验证,改进的方法处理中文句子有不错的效果。  相似文献   

2.
在搜索引擎中对用户问题直接给出简要的答案(即答案摘要)可以帮助用户更快捷的获取信息。针对这一任务,设计一种基于特征的答案摘要抽取方法。为了进行句子相似性的计算,提出通过使用卷积神经网络表示句子语义和计算相似性,同时给出基于最大间隔学习的网络训练方法。在百度知道问答语料上的实验结果表明,所提出的答案摘要抽取方法能够生成质量良好的简短回答。与基于词袋的相似性计算相比,使用卷积神经网络能够更好地描述句子语义,计算问题和句子之间的相似性,有效地改善答案摘要的质量。  相似文献   

3.
为解决已有复述语义计算方法未考虑句法结构的问题, 提出基于句法结构的神经网络复述识别模型, 设计基于树结构的神经网络模型进行语义组合计算, 使得语义表示从词语级扩展到短语级。进一步地, 提出基于短语级语义表示的句法树对齐机制, 利用跨句子注意力机制提取特征。最后, 设计自注意力机制来增强语义表示, 从而捕获全局上下文信息。在公开英语复述识别数据集Quora上进行评测, 实验结果显示, 复述识别性能得到改进, 达到89.3%的精度, 证明了提出的基于句法结构的语义组合计算方法以及基于短语级语义表示的跨句子注意力机制和自注意力机制在改进复述识别性能方面的有效性。  相似文献   

4.
作为目前自然语言处理及人工智能领域的主流方法,各种预训练语言模型由于在语言建模、特征表示、模型结构、训练目标及训练语料等方面存在差异,导致它们在下游任务中的表现各有优劣。为了更好地融合不同预训练语言模型中的知识及在下游任务中的学习能力,结合语义文本相似性判断任务的特点,提出一种多模型集成方法MME-STS,给出相应的模型总体架构及相应的特征表示,并针对多模型的集成问题分别提出基于平均值、基于全连接层训练和基于Adaboost算法的3种不同集成策略,同时在两个常用的经典基准数据集上验证该方法的有效性。实验结果表明,MME-STS在国际语义评测SemEval 2014任务4的SICK和SemEval 2017 STS-B数据集上的Pearson共关系值和Spearman相关系数值均超过单个预训练语言模型方法。  相似文献   

5.
为满足用户对某一主题下科技政策扩散关系挖掘的分析需求,构建了科技政策扩散识别模型。通过从科技政策文本中提取组织结构相似性特征、语义结构相似性特征、关键词承继性特征及基于Doc2vec的文本相似性特征,实现多个特征的一体化处理;提出了基于识别模型评分的科技政策文本距离计算方法,根据政策间的文本距离与扩散概率的关系,寻找使扩散关系成立的最大文本距离,并将扩散经验值融入识别模型中,实现检索过程中科技政策扩散对和扩散集的自动计算和输出。实验结果表明,所构建的科技政策扩散识别框架能有效地提取出扩散集合。  相似文献   

6.
句子特征提取与相似度计算是自然语言处理中的重要问题.目前汉语句子相似度计算方法不能全面考虑句子语义,因而导致相似度计算结果不够准确.提出了基于深层稀疏自动编码器的句子语义特征提取及相似度计算算法.首先将句子表示为高维、稀疏向量,进一步利用深度无监督学习句子非线性特征,即将高维、稀疏向量变换到低维、本质特征空间,此过程是一种更为纯粹的端到端的学习,避免了建立停用词表、分词等工作,最终得到可直接用于句子相似度计算的低维特征表示.实验结果表明,提取到的句子特征应用于句子相似度计算,与基于关系向量模型的句子相似度计算方法相比,提高了相似度计算准确率,计算的时间复杂度仅为O(n).  相似文献   

7.
提出了一种基于改进堆叠自动编码器提取低维度句子特征的方法,同时采用自动编码器的降噪技术以增加鲁棒性和表达能力。接着用提取的特征计算文本间句子的相似度并组成相似矩阵,用对应的文本生成文本特征矩阵,然后分别通过对应的深度卷积网络训练并提取特征。最后用特征融合技术将两个深度卷积网络提取的特征融合,经全连接的多层感知机计算相似度。实验结果证明,提出的方法能够表达句子的语义特征和文本的上下文特征,有效提高文本相似度计算的准确度。  相似文献   

8.
句子相似度计算是自然语言处理的一项基础任务,其准确性直接影响机器翻译、问题回答等下游任务的性能。传统机器学习方法主要依靠词形、词序及结构等浅层特征计算句子相似度,而深度学习方法能够融入深层语义特征,从而取得了更好效果。深度学习方法如卷积神经网络在提取文本特征时存在提取句子语义特征较浅、长距离依赖信息不足的缺点。因此设计了DCNN(dependency convolutional neural network)模型,该模型利用词语之间的依存关系来解决该不足。DCNN模型首先通过依存句法分析得到句子中词语之间的依存关系,而后根据与当前词存在一跳或者两跳关系的词语形成二元和三元的词语组合,再将这两部分信息作为原句信息的补充,输入到卷积神经网络中,以此来获取词语之间长距离依赖信息。实验结果表明,加入依存句法信息得到的长距离依赖能有效提升模型性能。在MSRP(microsoft research paraphrase corpus)数据集上,模型准确度和F1值分别为80.33%和85.91,在SICK(sentences involving compositional knowledge)数据集...  相似文献   

9.
为了提高文本语义相似性度量的准确性,该文从深度学习的角度出发提出了一种新的文本语义相似性度量框架,充分利用深度神经网络实现词级别、句子级别、文本级别的表示学习,使得学习到的表示向量能提供融合上下文信息的丰富语义信息,在此基础上,设计了相似性度量层,采用简单的三层网络实现任意两个文本向量的相似性值计算.在两个基准数据集上...  相似文献   

10.
自动问答是自然语言处理领域中的一个研究热点,自动问答系统能够用简短、精确的答案直接回答用户提出的问题,给用户提供更加精确的信息服务.自动问答系统中需解决两个关键问题:一是实现自然语言问句及答案的语义表示,另一个是实现问句及答案间的语义匹配.卷积神经网络是一种经典的深层网络结构,近年来卷积神经网络在自然语言处理领域表现出强大的语言表示能力,被广泛应用于自动问答领域中.本文对基于卷积神经网络的自动问答技术进行了梳理和总结,从语义表示和语义匹配两个主要角度分别对面向知识库和面向文本的问答技术进行了归纳,并指出了当前的研究难点.  相似文献   

11.
本文旨在研究论点抽取技术,该技术的目的在于识别、抽取和分析文本信息中的论辩成分与结构。通过从若干句子中提取与辩题相关的论点,并判断该论点的立场为支持或反对,来完成对论辩事实文本的智能分析。以往的研究主要基于卷积神经网络和循环神经网络等深度学习模型,网络结构简单,无法从论辩中学习到更深层次的特征。为学习到论辩文本中更丰富的语义信息来对论辩立场进行分类,本文提出一种增强的RoBERTa模型EnhRoBERTa。该模型以预训练语言模型RoBERTa为基础,充分利用多层次的多头注意力机制,并且提取浅层和深层语义表示进行融合,从多个特征维度进一步理解论点和辩题之间的关系,完成对论点的立场分类。然而,考虑到论点对立场的分布不均衡问题,本文采用数据增强技术,增强对少样本的学习能力。在CCAC2022比赛数据集上的实验结果表明:本文模型相较于基线模型可以提取到更丰富的文本特征,取得61.4%的F1-score,比未使用预训练的基线模型TextCNN和BiLSTM提高约19个百分点,比RoBERTa提高3.8个百分点。  相似文献   

12.
提出了面向微博应用的新闻文本自动摘要研究方法.利用互信息对新闻文本中词语和句子之间的语义特征进行计算,根据其关联度对句子进行主题划分,赋予主题句较高的权重,同时从文本中抽取多种组合特征,利用Ranking SVM对句子进行排序,从而得到自动摘要.在NLPCC2015面向微博中文新闻自动摘要评测数据集上进行对比实验,取得了良好效果,证明该方法的有效性.  相似文献   

13.
立场检测任务的目的是通过分析用户对特定话题发表的评论以判断其对该话题是支持还是反对的,该任务的关键是捕捉文本信息与其对应话题的相关特征。针对目前已有的微博立场检测模型存在仅考虑文本特征,而未结合话题特征,以及忽略了情感信息对微博立场检测的影响而导致分类效果差的问题,文章提出基于卷积注意力的情感增强微博立场检测模型。该模型通过卷积注意力对文本信息和其对应的话题信息提取特征,同时捕捉其相关特征,然后通过情感增强中词语级情感增强获得带有情感信息的词向量表示,将其与相关特征点相乘得到针对话题的情感增强句向量,其次通过拼接句子级情感增强特征以丰富最终的语义表示,最后对该语义表示进行分类。该模型在NLPCC-2016数据集中取得了较好的结果,相对于目前最优模型在五个话题上分别提高了7.9%、5.8%、5.3%、1.3%和5.2%。  相似文献   

14.
深度学习作为机器学习领域新的研究方向,现已在图像处理、语音识别和机器翻译等领域取得了突破性的进展.在处理自然语言任务中,深度学习建立在低层特征基础上,组合形成更加抽象的高层特征,用以完成复杂的语言模型构建、语义理解和文本分类等任务,深受研究人员的关注.文本分类是自然语言处理中的一个重要应用,在文本信息处理过程中有着关键...  相似文献   

15.
隐式情感分析是情感计算的重要组成部分,尤其是基于深度学习的情感分析近年来成为了研究热点.本文利用卷积神经网络对文本进行特征提取,结合长短期记忆网络(LSTM)结构提取上下文信息,并且在网络中加入注意力机制,构建一种新型混合神经网络模型,实现对文本隐式情感的分析.混合神经网络模型分别从单词级和句子级的层次结构中提取更有意义的句子语义和结构等隐藏特征,通过注意力机制关注情绪贡献率较大的特征.该模型在公开的隐式情感数据集上分类准确率达到了77%.隐式情感分析的研究可以更全面地提高文本情感分析效果,进一步推动文本情感分析在知识嵌入、文本表示学习、用户建模和自然语言等领域的应用.  相似文献   

16.
语义相似性度量能够提高信息检索的准确性和效率,已成为文本处理中的一个核心任务.为解决一词多义等词汇歧义问题,提出一种基于低维向量组合的语义向量模型.该模型引入了知识库与语料库的多语义特征的融合,主要的语义融合对象包括连续的分布式词向量和从WordNet结构中的语义特征信息.首先利用深度学习技术中的神经网络语言模型,预先从文本语料中学习得到连续的低维词向量;然后从知识库WordNet中抽取多种语义信息和关系信息;再将多语义信息融入词向量进行知识扩展和强化,生成语义向量,从而实现基于向量空间的语义相似性度量方法.在基准测试集上的实验结果表明,该方法优于基于单一信息源(知识库WordNet或文本语料)的语义相似性度量方法,其皮尔森相关系数比基于原始词嵌套向量的方法提高了7.5%,说明在向量特征层面上的多语义信息的融合有助于度量词汇间的语义相似性.  相似文献   

17.
药物相互作用是指药物与药物之间相互促进或抑制.针对现有的药物关系抽取方法利用外部背景知识和自然语言处理工具导致错误传播和积累的问题,以及现有大多数研究在数据预处理阶段对药物实体进行盲化,忽略了有助于识别关系类别的目标药物实体信息的问题.论文提出了基于预训练生物医学语言模型和词汇图神经网络的药物相互作用关系抽取模型,该模型通过预训练语言模型获得句子的原始特征表示,在基于数据集构建的词汇图上进行卷积操作获得与句子相关的全局特征信息表示,最后与药物目标实体对特征进行拼接从而构建药物相互作用关系提取任务的特征表示,在获得丰富的全局特征信息的同时避免了使用自然语言处理工具和外部背景知识,提升模型的准确率.论文的模型在DDIExtraction 2013数据集上的F1值达到了83.25%,优于目前最新方法2.35%.  相似文献   

18.
针对传统情感分析方法对微博短文本应用效果不佳的问题,提出将文本情感特征与深度学习模型融合的微博情感分析新机制.通过词向量计算文本的语义特征,结合基于表情字符的情感特征,利用卷积神经网络挖掘特征集合与情感标签间的深层次关联,训练情感分类器.实验结果表明,相比基于词典的机器学习模型,该机制将情感分析准确率与F度量分别相对提升21.29%和19.20%.该机制结合语义和情感特征,利用卷积神经网络的抽象特征提取能力,改善微博短文本的情感分析精度.  相似文献   

19.
现有的句子相似度计算方法仅考虑句子的依存关系或者组成句子的词性、词序、词义等信息,没有考虑到整个句子的语义信息,文章提出了一种基于语义扩展的句子相似度计算方法,解决了句子相似度计算时忽略句子语义的问题。利用搜索引擎对句子语义扩展,从而将简短的句子转化为长文本,然后使用主题模型对长文本进行特征提取,即将句子的相似度计算转化为求两个句子的语义间的差别运算。实验结果表明,基于语义扩展的句子相似度计算准确率能达到87%,而且计算结果符合常识判断。  相似文献   

20.
针对文本表示模型中语义信息提取不充分的问题,提出基于点互信息的CLSVSM (Co-occurrence Latent Semantic Vector Space Model)和语义增强的CLSVSM.首先利用点互信息计算关键词间的语义相似性,建立基于点互信息的CLSVSM;其次,通过潜在语义分析对关键词权重的修正,构...  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号