首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 187 毫秒
1.
提出了一种基于LDA-Col模型的无监督主题情感混合(UTSU)模型。采用词序流对文本进行表示,对每个句子采样情感标签,对每个词采样主题标签,得到文本的主题情感分布。这种采样方式既符合语言的情感表达,又不会缩小词之间的主题联系,克服了ASUM模型和JST模型在同一层盘子中采样主题标签和情感标签的缺陷。实验表明,UTSU模型的情感分类性能比有监督的情感分类方法稍差,但在无监督的情感分类方法中效果最好,情感分类综合指标比ASUM模型提高了3%,比JST模型提高了17%。  相似文献   

2.
基于样本的社会关系, 提出一种新的半监督学习方法, 创建一种基于文档?词及社会关系的二部图模型, 并根据标签传播算法将未标注样本加入到分类器的构建中。实验结果表明, 加入社会关系网络的半监督情感分类方法明显优于传统的仅利用评论文本信息的半监督情感分类方法。  相似文献   

3.
针对新颖的问答形式的文本展开研究,提出了基于网络表示的半监督问答文本情感分类方法,通过构建异构网络的联合学习提升半监督问答文本的情感分类性能。首先,通过分析标注和未标注样本构建一个异构网络,具体包括词-词网络、问题和答案文本-词网络、情感标签-词网络;其次,利用该异构网络学习获得词向量;最后,将学习到的词向量应用于目前性能最优的分层匹配情感分类模型(hierarchical matching network,HMN)中。实验结果表明,提出的方法在处理问答文本情感分类任务上具有一定优势。  相似文献   

4.
随着在线用户生成内容的激增,无监督情感分类方法有着广泛应用前景。现有基于情感词的无监督情感分类方法没有考虑句子类型和句间关系对情感分类的影响,分类效果较差;基于自学习的无监督情感分类方法在生成伪标注数据集时,又会引入较多错误。针对上述问题,该文提出了一种基于多粒度计算和多准则融合的无监督情感分类方法。该方法通过多粒度计算,提高现有基于情感词的无监督情感分类精度;同时通过多准则融合来减少伪标注数据错误率。在3个真实中文数据集上的实验结果表明:与现有无监督情感分类方法相比,该方法平均提高了6.5%的分类精度。  相似文献   

5.
微博的流行使公众能够更加容易也更加积极地参与到社会话题的讨论中去,识别公众对事件的情感倾向已经成为一个有价值的话题。目前已有的情感分类方法往往是选择一种分类模型(比如SVM)或者结合几种分类模型,然后将数据直接进行分类,没有考虑根据数据的不同领域来调整分类模型。基于预训练的BERT网络,可以使用无标签的时政微博语料改进BERT模型,然后再进行情感二分类任务,其优势在于进行分类任务之前先进行无监督学习,使BERT模型学习到时政微博评论的语料特征,从而提高后续的分类任务效果。在约8万条时政微博评论的数据集上的实验结果表明该方法比直接采用BERT模型具有更高的准确率。  相似文献   

6.
文本情感分析就是分析主观文本的情感倾向.针对情感分析中标签样本不足以及不同领域中情感表达存在差异的问题,提出一种基于卷积神经网络的跨领域情感分析方法,利用源领域标签样本完成对目标领域的无监督情感分析.首先,量化词项的情感极性、基于词向量度量词项的领域一致性,并在此基础上选择情感强烈且语义一致的词项作为领域间的共享词;然后,采用卷积神经网络提取文本特征,基于共享词的极性对源领域情感文本进行特征扩展;其次,基于扩展的文本完成情感分类器的训练,并对目标领域的情感文本进行分类;最后,在Amazon数据集上进行实验分析,实验结果表明该方法可以提高跨领域情感分类的准确率.  相似文献   

7.
维吾尔语是典型的资源稀缺型语言,由于词义消歧标注语料资源和语义分析工具的不足,导致传统的有监督方法难以实现.针对该问题,将篇章文本的词义消歧问题类比为文本主题分类问题,在LDA(latent Dirichlet allocation)主题模型的基础上提出了一种维吾尔语无监督词义消歧模型.为强化主题模型对歧义词语义项的分类性能,加入了3个数据预处理过程:去除停用词,过滤有效词和强化同义词词频权重.实验结果表明,在随机抽取的63组测试样本集中,该模型的词义消歧准确率达到65.08%,在篇章文本采样词任务中词义消歧准确率达到61.2%.  相似文献   

8.
针对情感分类这一项从文章或句子中得到观点态度的任务,常规情感分类模型大多需要耗费大量人力获取标注数据.为解决某些领域缺乏标注数据,且其他领域分类器无法在目标领域直接使用的现状,设计了一种新颖的基于构建公共特征空间方法,使分类模型可从有标注领域向无标注领域进行迁移适应,减少人工标注的成本开销,实现情感分类的领域自适应.该方法以大规模语料下预训练的词向量信息作为以词为元素的特征,在同种语言中表达情感所采用的句法结构相似这一假设前提下,通过对领域内特有的领域特征词进行替换的方式构建有标注数据集与无标注数据集基本共有的公共特征空间,使有标注数据集与无标注数据集实现信息共享.以此为基础借助深度学习中卷积神经网络采用不同尺寸卷积核对词语不同范围的上下文特征进行抽取学习,进而采用半监督学习与微调学习相结合的方式从有标注数据集向未标注数据集开展领域自适应.在来自京东与携程共5个领域的真实电商数据集上进行实验,分别研究了领域特征词选择方法及其词性约束对领域间适应能力的影响,结果表明:相较于不采用领域适应的模型,可提升平均2.7%的准确率;且在来自亚马逊电商的公开数据集实验中,通过与现有方法进行对比,验证了该方法的有效性.  相似文献   

9.
提出了充分利用未标注样本的样本信息的双语对抗学习方法。具体而言,中文的标注样本和未标注样本分别通过不同的LSTM进行编码,再经过分类器和判别器进行对抗学习。其中,分类器的作用是使标注样本和未标注样本处于同一分布,而判别器用来区分输入样本是标注样本还是未标注样本。最后,构建一个相同的英文语料的对抗神经网络,通过联合学习中英文对抗神经网络提升半监督情感分类的性能。实验结果表明,所提出的基于双语对抗学习的半监督情感分类方法在不同标注样本数量的训练集上都取得了较好的准确率,与其他基准方法相比有明显提升。  相似文献   

10.
提出了一种基于TF-IDF的均值Word2vec模型和有监督的机器学习方法的燃气客服热线的中文文本情感分析方法。首先,采用Word2vec模型训练出文本中每个词语的词向量及TF-IDF算法计算文本中每个词语的权重,并对词语的词向量进行加权处理。其次,将加权后的词向量对应维度的值进行累加并求均值作为该文本的向量,即文本的特征。最后,对文本的特征使用有监督的机器学习方法进行训练和预测,以实现文本的情感分析。实验结果表明,该方法获得了较高的分类准确率并能有效地进行情感分析。  相似文献   

11.
针对文本情感分类中情感语义特征利用不足、特征降维效果欠佳等影响分类效果的问题,提出了一种通过扩展语义相似的情感词以及引入词语间统计特征的高精度网络评论情感分类方法.该方法利用神经网络Skip-gram模型生成词嵌入,通过词嵌入相似性度量将语义相似的词语扩展为情感特征;再利用词语间的统计特征进行特征降维;通过多个弱分器加权构建Adaboost分类模型实现网络评论情感分类.基于酒店评论和手机评论公开测试集进行实验,结果表明其情感分类的正确率分别达到90.96%和93.67%.方法扩展语义相似情感词有利于丰富文本情感语义特征,引入词语间的统计特征有更好的特征降维效果,可以进一步提升文本情感分类的效果.   相似文献   

12.
传统机器学习和深度学习模型在处理情感分类任务时会忽略情感特征词的强度,情感语义关系单薄,造成情感分类的精准度不高。本文提出一种融合情感词典的改进型BiLSTM-CNN+Attention情感分类算法。首先,该算法通过融合情感词典优化特征词的权重;其次,利用卷积神经网络(CNN)提取局部特征,利用双向长短时记忆网络(BiLSTM)高效提取上下文语义特征和长距离依赖关系;再结合注意力机制对情感特征加成;最后由Softmax分类器实现文本情感预测。实验结果表明,本文提出的情感分类算法在精确率、召回率和F值上均有较大提升。相较于TextCNN、BiLSTM、LSTM、CNN和随机森林模型,本文方法的F值分别提高2.35%、3.63%、4.36%、2.72%和6.35%。这表明该方法能够充分融合情感特征词的权重,利用上下文语义特征,提高情感分类性能。该方法具有一定的学术价值和应用前景。  相似文献   

13.
针对在线医疗评论文本具有行业专业性强、差异性大、不够规范等特点,提出一种基于特征加权词向量的在线医疗评论情感分析方法.利用Word2vec方法构建词向量模型,抽取情感词集合完善医疗服务领域情感词典,根据句法关系识别主题词与情感词的依存关系,引入期望交叉熵因子,建立特征加权词向量模型,分析在线医疗评论的情感倾向.实验结果表明扩充的医疗服务情感词典在分析性能上的准确率、召回率以及F1值均高于基础情感词典,引入期望交叉熵因子后,基于特征加权词向量的情感分析方法在SVM分类上表现出更好的效果,体现了其在在线医疗评论挖掘领域的良好效用.   相似文献   

14.
虚假评论识别在电子商务、社交媒体等领域具有重要的应用价值。尽管现有虚假评论识别模型融合了文本的情感信息,但在预训练过程中忽视了对情感信息的提取,导致准确率不高。针对此问题,本文提出一种基于情感信息预处理和双向门控循环单元(Bidirectional Gated Recurrent Unit, Bi-GRU)的虚假评论识别模型(FR-SG),用于提高虚假评论识别的准确率。首先,通过Albert模型获取文本的语义向量;然后,使用词频-逆文本频率(Term Frequency-Inverse Document Frequency, TF-IDF)和K-均值(K-means++)聚类的方法从评论中挖掘情感种子词,基于种子词对文本中的属性词和情感词进行掩码(mask);接着,使用面向情感的目标优化函数,将情感信息嵌入到语义表示中,生成情感向量;最后,将这两组向量的拼接结果输入虚假评论识别网络中,得到文本的分类结果。实验结果表明,相较于Bi-GRU+Attention模型,FR-SG提高了虚假评论识别的准确率。  相似文献   

15.
This paper is an empirical study of unsupervised sentiment classification of Chinese reviews. The focus is on exploring the ways to improve the performance of the unsupervised sentiment classification based on limited existing sentiment resources in Chinese. On the one hand, all available Chinese sentiment lexicons — individual and combined — are evaluated under our proposed framework. On the other hand, the domain dependent sentiment noise words are identified and removed using unlabeled data, to improve the classification performance. To the best of our knowledge, this is the first such attempt. Experiments have been conducted on three open datasets in two domains, and the results show that the proposed algorithm for sentiment noise words removal can improve the classification performance significantly.  相似文献   

16.
针对目前情感分析中的循环神经网络模型缺乏对情感词的关注的问题,提出一种基于循环神经网络的情感词注意力模型,通过引入注意力机制,在情感分类时着重考虑文本中的情感词的影响.在NLPCC 2014情感分析数据集及IMDB影评数据集上进行试验,结果表明:该模型能够提高情感分析的效果.  相似文献   

17.
基于微博表情符号,提出一种自动构建情感词典的方法。 从微博平台抓取大量带有表情符号的微博文本,并依据表情符号对微博文本进行情感倾向标注,生成情感语料库。 对语料库进行分词、去重等预处理工作,根据词性规则抽取微博文本中情感词,统计每个情感词在正向和负向语料库中出现的次数,计算情感词的卡方统计值获得情感强度,根据情感词在正负微博文本中出现的概率判定情感词的倾向性,进而生成情感词典。 这是一种全新的思路。 以人工标注的情感词典为基准数据,实验结果表明,本文方法标注情感词的准确率在80%左右,在情绪词强度阈值θ为20、30时,生成情感词典综合F值最好,达到了82%以上。   相似文献   

18.
文本情感分类领域性强,传统情感分类方法在多领域混合数据上效果不佳.为了提升多领域混合情境下文本情感分类的准确率,使用双向编码器表征模型(bidirectional encoder representations from transformers,BERT)得到短文本的初级表征;利用对抗网络提取与领域无关的情感特征;利...  相似文献   

19.
准确分类电商平台中用户评论所包含的多个方面的情感极性,能够提升购买决策的有效性。为此,提出一种融合ChineseBERT和双向注意力流(Bidirectional Attention Flow,BiDAF)的中文商品评论方面情感分析模型。首先,通过融合拼音与字形的ChineseBERT预训练语言模型获得评论文本和方面文本的词嵌入,并采用从位置编码和内存压缩注意力两个方面改进的Transformer来表征评论文本和方面文本的语义信息。然后,使用双向注意力流学习评论文本与方面文本的关系,找出评论文本和方面文本中关键信息所对应的词语。最后,将Transformer和双向注意力流的输出同时输入到多层感知机(Multilayer Perceptron,MLP)中,进行信息级联和情感极性的分类输出。测试结果表明,提出的模型在两个数据集上的准确率分别为82.90%和71.08%,F1分数分别为82.81%和70.98%。  相似文献   

20.
面向社交网络的情感社区检测,可应用于公共健康、舆情监测等领域.以新浪微博为平台建立一种情感社区检测框架,首先融合微博情感表情特征和情感词典,提出基于朴素贝叶斯算法的半词典半表情(naive Bayes based semi-lexicon and semi-emoji,SL-SE-NB)分类模型以实现对文本的情感极性预测;提出一种基于潜在狄利克雷分配(latent Dirichlet allocation,LDA)话题模型的用户-超话题-关键词(user-topic-keywords,UTK) 模型抽取用户话题;基于标签传播算法(label propagation algorithm,LPA)并加入话题概念,提出基于种子集与最小边介数的标签传播情感社区发现算法(label propagation algorithm based seeds and min-edge betweenness,SMB-LPA).最后通过实验验证了所提出算法的有效性和高效性.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号