首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到17条相似文献,搜索用时 321 毫秒
1.
句子间语义相似性的计算已成为自然语言处理领域的重要研究内容,如何有效地对句子建立语义模型已成为释义识别、文本相似性计算、问答和文本蕴涵等自然语言处理应用的基础任务.文中提出了一种并行的卷积神经网络模型,该模型的两个卷积网络不仅对句子对中的单个句子建立句子向量表示,还对句子经卷积池化后的特征进行相似性度量,并获得句子间的相似性特征.采用释义识别及文本相似性两项任务进行模型性能的实验评测,结果显示,该模型能够较好地表示句子语义信息,其释义识别F1值相比基准实验提高了7.4个百分点,语义相似性评测的皮尔森相关系数比逻辑回归方法有7.1个百分点的提高.  相似文献   

2.
从生物医学文本中抽取药物相互作用对可以快速更新药物数据库,具有非常重要的意义与医学应用价值.现有的神经网络模型往往仅从句子序列或其他外部信息中学习到单一片面的特征,难以充分挖掘句中潜在的长距离依赖特征获得全面的特征表示.本文提出一种结合语义和依存关系的药物相互作用关系抽取方法,该方法在利用Bi-GRU网络分别从句子序列...  相似文献   

3.
卷积神经网络(CNN)和循环神经网络(RNN)已经被证明在文本情感分析中是有效的文本表示模型。然而,CNN只考虑连续词之间的局部信息,忽略了词语之间长距离的上下文依赖信息,在前向传播的过程中池化操作会丢失一部分语义信息; RNN在文本长度较短的情况下相比CNN并没有展现应有的优势。本文通过融合CNN和基于注意力机制的双向长短期记忆(ATTBiLSTM)网络提取的特征,提高模型的文本表示能力,同时为了防止过拟合,采取dropout策略。在中科院谭松波博士整理的酒店评论数据集上进行实验,结果表明本文提出的模型相比基线模型可以提取出更丰富的特征,效果较基线模型有所提升。  相似文献   

4.
针对传统情感分析模型将单词或词语作为单一嵌入,而忽略句子之间依存信息和位置信息的问题,提出基于双向门控机制和层次注意力的方面级情感分析模型(Based on Bi-GRU and Hierarchical Attention,BGHA)。首先,将文本数据转成词向量再加入位置编码信息,得到包含位置和语义信息的词向量后通过双向门控机制提取上下文特征;接着,分别在单词注意力层和句子注意力层用注意力机制对特征分配权重,突出重点词和重点句信息;最后,结合给定的方面信息选择性提取与其较匹配的情感特征。在SemEval 2014、SemEval 2016和Twitter短文本评论数据集上的实验结果表示,BGHA模型的准确率对比其他模型都有不同程度的提高,证明了模型的有效性。  相似文献   

5.
采用图神经网络模型为整个语料库构建异构图处理文本分类任务时,存在难以泛化到新样本和词序信息缺失的问题。针对上述问题,提出了一种融合双图特征和上下文语义信息的文本分类模型。首先,为每个文本独立构建共现图和句法依存图,从而实现对新样本的归纳式学习,从双图角度捕获文本特征,解决忽略单词间依存关系的问题;其次,利用双向长短期记忆网络(bi-directional long short-term memory,BiLSTM)编码文本,解决忽略词序特征和难以捕捉上下文语义信息的问题;最后,融合双图特征,增强图神经网络模型的分类性能。在MR,Ohsumed,R8,R52数据集上的实验结果表明,相较于经典的文本分类模型,该模型能够提取更丰富的文本特征,在准确率上平均提高了2.17%,5.38%,0.61%,2.48%。  相似文献   

6.
针对目前大多数非分类关系抽取方法忽略词性和部分局部特征的问题,提出融合词性信息和注意力机制的BiLSTM模型.利用预训练词向量和词性标注工具,将舆情信息语义词向量和词性词向量作为BiLSTM的输入来获取句子高维语义特征,解决长距离依赖问题.利用词语层注意力机制计算2个概念与上下文词语的相关性,获取句子的上下文语义信息.通过构建句子层的注意力来降低噪声数据的权重,减少错误标签的干扰,进而完成舆情本体概念间非分类关系的抽取.最终在新闻网站上抽取11227条数据进行了验证.结果表明,该方法的精确率(P)和召回率(R)相比于其他方法更好地实现了非分类关系的抽取,验证了该方法的有效性.  相似文献   

7.
细粒度情感分析是自然语言处理的关键任务之一,针对现有的解决中文影评情感分析的主流方案一般使用Word2Vector等预训练模型生成静态词向量,不能很好地解决一词多义问题,并且采用CNN池化的方式提取文本特征可能造成文本信息损失造成学习不充分,同时未能利用文本中包含的长距离依赖信息和句子中的句法信息。因此,提出了一种新的情感分析模型RoBERTa-PWCN-GTRU。模型使用RoBERTa预训练模型生成动态文本词向量,解决一词多义问题。为充分提取利用文本信息,采用改进的网络DenseDPCNN捕获文本长距离依赖信息,并与Bi-LSTM获取到的全局语义信息以双通道的方式进行特征融合,再融入邻近加权卷积网络(PWCN)获取到的句子句法信息,并引入门控Tanh-Relu单元(GTRU)进行进一步的特征筛选。在构建的中文影评数据集上的实验结果表明,提出的情感分析模型较主流模型在性能上有明显提升,其在中文影评数据集上的准确率达89.67%,F1值达82.51%,通过消融实验进一步验证了模型性能的有效性。模型能够为制片方未来的电影制作和消费者的购票决策提供有用信息,具有一定的实用价值。  相似文献   

8.
针对中文分词序列标注模型很难获取句子的长距离语义依赖,导致输入特征使用不充分、边界样本少导致数据不平衡的问题,提出了一种基于机器阅读理解模型的中文分词方法。将序列标注任务转换成机器阅读理解任务,通过构建问题信息、文本内容和词组答案的三元组,以有效利用句子中的输入特征;将三元组信息通过Transformer的双向编码器(BERT)进行预训练捕获上下文信息,结合二进制分类器预测词组答案;通过改进原有的交叉熵损失函数缓解数据不平衡问题。在Bakeoff2005语料库的4个公共数据集PKU、MSRA、CITYU和AS上的实验结果表明:所提方法的F1分别为96.64%、97.8%、97.02%和96.02%,与其他主流的神经网络序列标注模型进行对比,分别提高了0.13%、0.37%、0.4%和0.08%。  相似文献   

9.
新闻事件检测是自动检测新闻文本中出现的相关事件,需要大量人力设计模板,而且难以获取句中隐含的语义信息,识别触发词时多存在歧义.为解决以上问题,利用融合依存句法信息的卷积神经网络(Dependency Parsing Convolutional Neural Networks,DPCNN),针对句子级别越南语新闻事件进行检测.该模型在编码过程中融合了词义、位置信息、词性信息和命名实体信息,利用传统卷积编码连续词之间的特征,利用融合依存句法信息的卷积编码非连续词之间的特征,再融合两部分特征作为事件编码,进而实现事件检测.实验结果表明,该方法在越南语新闻事件检测中取得了很好的效果.  相似文献   

10.
为解决已有复述语义计算方法未考虑句法结构的问题, 提出基于句法结构的神经网络复述识别模型, 设计基于树结构的神经网络模型进行语义组合计算, 使得语义表示从词语级扩展到短语级。进一步地, 提出基于短语级语义表示的句法树对齐机制, 利用跨句子注意力机制提取特征。最后, 设计自注意力机制来增强语义表示, 从而捕获全局上下文信息。在公开英语复述识别数据集Quora上进行评测, 实验结果显示, 复述识别性能得到改进, 达到89.3%的精度, 证明了提出的基于句法结构的语义组合计算方法以及基于短语级语义表示的跨句子注意力机制和自注意力机制在改进复述识别性能方面的有效性。  相似文献   

11.
综合考虑关键词、词向量及句法结构对句子相似度计算的影响,将平滑逆频率(smooth inverse frequency,SIF)与依存句法相结合以提高句子相似度计算的精准性。SIF的核心思想为利用加权和去除非信息噪音得到的句向量来计算句子相似度。借助哈尔滨工业大学的语言技术平台,将句子的结构信息添加到句子相似度计算中,通过句子中"词语依存关系"三元组的相似性来度量句子间的相似度。实验结果表明,基于SIF和依存句法的句子相似度计算方法所得的反映准确率和召回率平衡度的指标为84. 4%,与同类的句子相似度计算方法相比,能更为有效衡量句子间的相似程度。  相似文献   

12.
以双向长短期记忆网络(Bi-LSTM)为核心,结合多层卷积神经网络以及单向长短期记忆网络构建了多层面隐喻识别模型.基于多特征协同作用的思想,利用依存关系特征、语义特征、词性特征等多特征融合输入方法,丰富了模型的学习信息.为降低信息干扰,利用基于统计学的规范化文本输入方法提升模型识别效果.在英文语料词层面和句层面实验中,各个特征均表现出明显的正向作用.裁剪和填充处理及多特征协调作用在英文语料词层面研究中使F_1值分别提升2.5%和5.1%,在句层面研究中F_1值分别提升3.1%和1.9%.在中文语料句层面实验中,最优效果的F_1值可达88.8%.  相似文献   

13.
为了增强语句内关键信息和语句间交互信息的表征能力,有效整合匹配特征,提出一种融合多路注意力机制的语句匹配模型。采用双向长短时记忆网络获取文本的编码信息,通过自注意力机制学习语句内部的关键信息;将编码信息和自注意力信息拼接之后,通过多路注意力机制学习语句间的交互信息;结合并压缩多路注意力层之前和之后的信息,通过双向长短时记忆网络进行池化获得最终的语句特征,经过全连接层完成语句匹配。实验结果表明,该模型在SNLI和MultiNLI数据集上进行的自然语言推理任务、在Quora Question Pairs数据集上进行的释义识别任务和在SQuAD数据集上进行的问答语句选择任务中均表现出了更好效果,能够有效提升语句匹配的性能。  相似文献   

14.
关系抽取是许多信息抽取系统中的一个关键步骤, 旨在从文本中挖掘结构化事实. 在应用传统的远程监督方法完成实体关系抽取任务时存在 2 个问题: ① 远程监督方法将语料库中的文本与已标注实体和实体间关系的知识库启发式地对齐, 并将对齐结果作为文本的标注数据, 这必然会导致错误标签问题; ② 目前基于统计学的方法过于依赖自然语言处理工具, 提取特征处理过程中生成的噪声积累严重影响抽取结果. 为了解决远程监督存在的弊端, 提出了一种基于注意力机制的端到端的分段循环卷积神经网络(convolutional neural network, CNN)模型. 为了检测更加细微的特征, 在网络输入层添加了注意力机制, 自动学习句子中与关系抽取相关的内容; 基于位置特征和词向量特征对句子进行编码, 并使用分段卷积神经网络(piecewise CNN, PCNN)抽取句子特征进行分类, 在网络中使用了效率较高的最大边界损失函数来衡量模型的性能. 该方法在 New York Times (NYT)数据集上的准确率比经典的 PCNN+MIL 模型提高了 2.0%, 比经典的 APCNN+D 模型提高了 1.0%, 与其他几种基线模型相比, 该模型准确率表现出色.  相似文献   

15.
隐式情感分析是情感计算的重要组成部分,尤其是基于深度学习的情感分析近年来成为了研究热点.本文利用卷积神经网络对文本进行特征提取,结合长短期记忆网络(LSTM)结构提取上下文信息,并且在网络中加入注意力机制,构建一种新型混合神经网络模型,实现对文本隐式情感的分析.混合神经网络模型分别从单词级和句子级的层次结构中提取更有意义的句子语义和结构等隐藏特征,通过注意力机制关注情绪贡献率较大的特征.该模型在公开的隐式情感数据集上分类准确率达到了77%.隐式情感分析的研究可以更全面地提高文本情感分析效果,进一步推动文本情感分析在知识嵌入、文本表示学习、用户建模和自然语言等领域的应用.  相似文献   

16.
针对使用句法可控的复述生成模型生成对抗样本时模型性能受限于复述平行语料的领域和规模的问题, 提出仅需要单语语料训练的无监督的句法可控复述生成模型, 用以生成对抗样本。采用变分自编码方式学习模型, 首先将句子和句法树分别映射为语义变量和句法变量, 然后基于语义变量和句法变量重构原始句子。在重构过程中, 模型可以在不使用任何平行语料的情况下学习生成句法变化的复述。在无监督复述生成和对抗样本生成任务中的实验结果表明, 所提方法在无监督复述生成任务中取得最佳性能, 在对抗样本生成任务中可以生成有效的对抗样本, 用以改进神经自然语言处理(NLP)模型的鲁棒性和泛化能力。  相似文献   

17.
IntroductionMuch recent research on statistical parsers hasfocused on English.English has a large syntacticcorpus,the English UPenn Treebank.Everysentence in this corpus corresponds to a syntacticstructure[1] .Many kinds of parsers for Englishhave been developed based on this corpus[2 4 ] .Thestructure of the Chinese language is quite differentfrom English and there have been only a fewefforts to build syntactic corpora in recent years.Two syntactic corpora were just announced in2 0 0 0 ,t…  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号