首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 562 毫秒
1.
文本情感分析旨在对带有情感色彩的主观性文本进行分析、处理、归纳和推理,是自然语言处理中一项重要任务。针对现有的计算方法不能充分处理复杂度和混淆度较高的文本数据集的问题,提出了一种基于TF-IDF(Term Frequency-Inverse Document Frequency)和多头注意力Transformer模型的文本情感分析模型。在文本预处理阶段,利用TF-IDF算法对影响文本情感倾向较大的词语进行初步筛选,舍去常见的停用词及其他文本所属邻域对文本情感倾向影响较小的专有名词。然后,利用多头注意力Transformer模型编码器进行特征提取,抓取文本内部重要的语义信息,提高模型对语义的分析和泛化能力。该模型在多领域、多类型评论语料库数据集上取得了98.17%的准确率。  相似文献   

2.
为了提高模型在文本分类任务中的分类性能,针对图神经网络中存在的过度平滑问题,同时增强模型在处理文本特征与文本表示方面的能力,提出了一种基于多状态图神经网络的文本分类算法(multi-state graph neural network, MSGNN)。多状态图神经网络是利用网络层的多个历史状态信息对图神经网络进行强化,构建合理的文本图结构数据作为模型输入。在缓解网络层过度平滑问题的同时,结合2种改进后的不同类型的图神经网络来增强模型的特征提取与特征聚合能力。利用多头自注意力机制对文本关键词的挖掘与利用能力,从多个文本子空间来生成高质量的文本表示,进而完成文本分类。通过在几个公开的文本分类数据集上进行实验分析,相较于其他神经网络的文本分类算法,该方法取得了较好的分类准确率。  相似文献   

3.
针对中文新闻主题因缺乏上下文信息而造成语义模糊和用词规范性不高的问题,提出一种基于RoBERTa-RCNN和多头注意力池化机制的新闻主题文本分类方法。利用数据增强技术对部分训练数据进行回译处理,再通过自编码预训练模型和RCNN对文本进行初步和深度的特征提取,并结合多头注意力思想改进最大池化层。该方法采用融合机制,改善了RCNN中最大池化策略单一和无法进行动态优化的缺陷。在三个新闻主题数据集上进行实验,使用更适用于新闻主题分类的Mish函数代替ReLU函数,并利用标签平滑来解决过拟合问题。结果表明,所提方法相比传统分类方法效果突出,并通过消融实验验证了模型在分类任务上的可行性。  相似文献   

4.
文本序列中各单词的重要程度及其之间的依赖关系对于识别文本类别有重要影响。胶囊网络不能选择性关注文本中重要单词,并且由于不能编码远距离依赖关系,在识别具有语义转折的文本时有很大局限性。为解决上述问题,该文提出了一种基于多头注意力的胶囊网络模型,该模型能编码单词间的依赖关系、捕获文本中重要单词,并对文本语义编码,从而有效提高了文本分类任务的效果。结果表明:该文模型在文本分类任务中效果明显优于卷积神经网络和胶囊网络,在多标签文本分类任务上效果更优,能更好地从注意力中获益。  相似文献   

5.
命名实体是电子病历中相关医学知识的主要载体,因此,临床命名实体识别(Clinical Named Entity Recognition,CNER)也就成为了临床文本分析处理的基础性任务之一.由于文本结构和语言等方面的特殊性,面向中文电子病历(Electronic Medical Records,EMRs)的临床命名实体识别依然存在着巨大的挑战.本文提出了一种基于多头自注意力神经网络的中文临床命名实体识别方法.该方法使用了一种新颖的融合领域词典的字符级特征表示方法,并在BiLSTM-CRF模型的基础上,结合多头自注意力机制来准确地捕获字符间潜在的依赖权重、语境和语义关联等多方面的特征,从而有效地提升了中文临床命名实体的识别能力.实验结果表明本文方法超过现有的其他方法获得了较优的识别性能.  相似文献   

6.
针对特定目标的情感分析是文本情感细粒度理解任务的重要内容.已有研究大多通过循环神经网络和注意力机制来建模文本序列信息和全局依赖,并利用文本依赖解析树作为辅助知识,但这些方法没有充分利用目标词与文本词之间的依赖关系,也忽略了训练语料库中的词共现关系,而词共现信息往往意味着一种语法搭配.为了解决上述问题,提出一种目标依赖的多头自注意力网络模型.该模型首先设计内联和外联两种不同的注意力机制用于建模文本词和目标词的隐藏状态和语义交互;其次,该模型构建了语料库级别和句子级别的词共现图,并通过图卷积网络将词共现信息融合进文本的特征表示学习并用于下游分类任务.在五个标准数据集上进行了对比实验,实验结果表明,提出的模型在方面级情感分析任务中的性能优于所有对比模型.  相似文献   

7.
针对关系分类主流模型中存在的空间信息丢失和旋转不变性差的缺点,提出一个基于BERT和多头注意机制-胶囊网络(MA-CapsNet)的算法模型.该模型首先在句子的实体两端插入特殊符号,增强模型对实体信息的表示能力,再通过预训练的BERT语言模型获得包含上下文信息的语义向量表示,然后传入改进后的注重空间位置信息的胶囊网络中学习句子的语义特征并分类.同时引入多头注意力机制进一步提升模型的分类效果.在SemEval-2010 task 8关系分类数据集上,该算法模型取得了90.15%的宏F值.实验表明该模型架构能强化对句子语义特征的捕捉,改善关系分类任务的分类效果.  相似文献   

8.
针对半导体生产过程中的晶粒缺陷检测任务,提出了一种融入多头注意力机制的新型CNN模型(Attn-Net).该模型使用深度可分离卷积和标准卷积累加的卷积结构提取输入图像特征,借助多头注意力机制更新特征权重,输出注意力机制筛选的图像分类结果.在13513张晶粒图像构成的数据集上训练、验证及测试,并与VGG-16、ResNe...  相似文献   

9.
与服药相关的社交文本中隐藏着更具时效和更广泛的药物不良反应信息,但是从相对短小、稀疏的社交短文本中提取药物不良反应非常困难。基于此,本文提出一种双向语言预训练模型和注意力机制相结合的神经网络识别方法。该方法利用双向字符级语言预训练模型提取特定字符级特征,而且在提取药物不良反应的同时,通过注意力机制捕获局部和全局语义上下文信息。此外,为了提高该方法的效率,将字符级特征与词级特征相结合,并采用词级预训练和字符级预训练模型代替协同训练。在PSB 2016社交媒体挖掘共享任务2中的实验结果表明,字符特征在形态学上有助于区分药物不良反应,而注意力机制通过捕获局部和全局语义信息提高了对药物不良反应的识别性能,宏平均F1值为82.2%。  相似文献   

10.
与服药相关的社交文本中隐藏着更具时效和更广泛的药物不良反应信息,但是从相对短小、稀疏的社交短文本中提取药物不良反应非常困难。基于此,本文提出一种双向语言预训练模型和注意力机制相结合的神经网络识别方法。该方法利用双向字符级语言预训练模型提取特定字符级特征,而且在提取药物不良反应的同时,通过注意力机制捕获局部和全局语义上下文信息。此外,为了提高该方法的效率,将字符级特征与词级特征相结合,并采用词级预训练和字符级预训练模型代替协同训练。在PSB 2016社交媒体挖掘共享任务2中的实验结果表明,字符特征在形态学上有助于区分药物不良反应,而注意力机制通过捕获局部和全局语义信息提高了对药物不良反应的识别性能,宏平均F1值为82.2%。  相似文献   

11.
相似词分析是自然语言处理领域的研究热点之一,在文本分类、机器翻译和信息推荐等领域中具有重要的研究价值和应用意义。针对新浪微博短文本的特点,给出一种带词性的连续词袋模型(POS-CBOW)。该模型在连续词袋模型的基础上加入过滤层和词性标注层,对空间词向量进行优化和词性标注,通过空间词向量的余弦相似度和词性相似度来判别词向量的相似性,并利用统计分析模型筛选出最优相似词集合。实验表明,基于POS-CBOW语言模型的相似词分析算法优于传统CBOW语言模型。  相似文献   

12.
细粒度情感分析是自然语言处理的关键任务之一,针对现有的解决中文影评情感分析的主流方案一般使用Word2Vector等预训练模型生成静态词向量,不能很好地解决一词多义问题,并且采用CNN池化的方式提取文本特征可能造成文本信息损失造成学习不充分,同时未能利用文本中包含的长距离依赖信息和句子中的句法信息。因此,提出了一种新的情感分析模型RoBERTa-PWCN-GTRU。模型使用RoBERTa预训练模型生成动态文本词向量,解决一词多义问题。为充分提取利用文本信息,采用改进的网络DenseDPCNN捕获文本长距离依赖信息,并与Bi-LSTM获取到的全局语义信息以双通道的方式进行特征融合,再融入邻近加权卷积网络(PWCN)获取到的句子句法信息,并引入门控Tanh-Relu单元(GTRU)进行进一步的特征筛选。在构建的中文影评数据集上的实验结果表明,提出的情感分析模型较主流模型在性能上有明显提升,其在中文影评数据集上的准确率达89.67%,F1值达82.51%,通过消融实验进一步验证了模型性能的有效性。模型能够为制片方未来的电影制作和消费者的购票决策提供有用信息,具有一定的实用价值。  相似文献   

13.
针对短文本具有稀疏性强和文本长度较小等特性, 为更好地处理短文本分类问题, 提出一个基于集成神经网络的短文本分类模型. 首先, 使用扩展词向量作为模型的输入, 从而使数值词向量可有效描述短文本中形态、 句法及语义特征; 其次, 利用递归神经网络(RNN)对短文本语义进行建模, 捕获短文本内部结构的依赖关系; 最后, 在训练模型过程中, 利用正则化项选取经验风险和模型复杂度同时最小的模型. 通过对语料库进行短文本分类实验, 验证了所提出模型有较好的分类效果, 且该分类模型可处理变长的短文本输入, 具有良好的鲁棒性.  相似文献   

14.
智能问答系统(Question Answering System,QAS)是一种让人类通过自然语言与机器进行问答来获取信息的人机交互系统,是自然语言处理的一个集综合性与广泛性于一体的应用.现有的智能问答系统模型研究主要考虑单一型数据.然而,现实生活中结合表格和文本的混合型数据十分普遍,如金融领域的财务报表.本文对已有的财务报表智能问答模型进行改进并提出了一个新模型,该模型有更好的效果.  相似文献   

15.
基于LSTM的中文文本分类方法能够正确地识别文本所属类别,但是其主要关注于学习与主题相关的文本片段,往往缺乏利用词语其他方面的信息,特别是词性之间的隐含的特征信息。为了有效地利用词语的词性信息以便学习大量的上下文依赖特征信息并提升文本分类效果,提出了一种结合词性信息的中文文本分类方法,其能够方便地从词语及其词性中学习隐式特征信息。利用开源数据并设计一系列对比实验用于验证方法的有效性。实验结果表明,结合词性信息的基于注意力机制的双向LSTM模型,在中文文本分类方面的分类效果优于常见的一些算法。因此识别文本的类别不仅与词语语义信息高度相关,而且与词语的词性信息有很大关系。  相似文献   

16.
观点挖掘能自动对网络上大量的非结构化文本进行分析,得到有价值的观点态度,因为中文在机器语言处理中存在一些自身的特点和难点,相关研究进展较缓慢。本文提出了中文依赖语法的观点挖掘模型,介绍了文本爬取和文本预处理技术;采用了向量空间模型表示文本向量,介绍了基于中文依赖语法的特征抽取方法,在此基础上加入了评价对象提取的思想;采用知网情感词典作为判别主观字极性的基础,并对主观字极性评估方法做了相关改进。以建立一个全面、准确的中文观点分析模型为目标。  相似文献   

17.
伴随着科技的发展和自2019年以来新型冠状病毒疫情的催化作用,直播逐渐成为一种主流的营销途径之一。然而,对于不同的主播来说,直播间商品的销售情况参差不齐。本研究关注主播的语言风格如何影响直播中不同类别商品的销售。结合现有的理论和分析,本研究搭建了主播的语言风格框架,并运用机器学习模型训练得到一个语言风格分类器。结果显示,相对于享乐品,以商品信息为中心的语言风格对实用品的销售促进作用更大;相反,相对于实用品,以外围信息为中心的语言风格对享乐品的销售促进作用更大。  相似文献   

18.
该文介绍了中国科学院自动化研究所参加第15届全国机器翻译大会(CCMT2019)翻译评测任务总体情况以及采用的技术细节.在评测中,中国科学院自动化研究所参加了3个翻译任务,分别是蒙汉日常用语机器翻译、藏汉政府文献机器翻译以及维汉新闻领域机器翻译; 阐述了参评系统采用的模型框架、数据预处理方法以及译码策略; 最后给出了不同设置下评测系统在测试数据集上的表现,并进行了对比和分析.  相似文献   

19.
针对目前的篇章级行文一致性度量模型只考虑了待测作文的全文行文一致性,无法捕捉文本语义块的隐含语义特征及其之间的一致性问题,提出了一种通用的作文行文一致性测评模型. 该模型借鉴孪生神经网络的思想,创新性地同时提取作文中核心人物的性格、形象特征以及故事情节特征并进行相似度度量,从而获取文本的中心思想以及行文一致性的匹配分数;使用无监督主题模型Biterm-LDA(Latent Dirichlet Allocation)对作文进行主题特征提取,解决了对手工标注的依赖。实验结果表明提出的模型评分与人工标注结果多数一致,且优于普通神经网络模型.   相似文献   

20.
选取某汽车《维修手册》为案例,在分析其语言、项目、格式特点及其在术语、风格等方面易出现的问题的基础上,探讨计算机辅助翻译在机械工程文档中的翻译流程和功能。结果发现:计算机辅助翻译能充分发挥人和软件的各自优势,细化翻译流程,明确每个环节的任务;并能通过相应的操作工具,使翻译项目管理变得有章可循,有法可依,从而有效地提高翻译质量和效率。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号