首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
情感词典技术是文本情感分析的基础。受领域的限制,基础情感词典并不能满足特定领域的情感分析的需要。本文提出一种融合词向量和点互信息的领域情感词典方法,该方法以大量在线评论作为语料库,利用TF-IDF算法挑选领域种子情感词,结合词向量模型提取其与种子词相似度高的词语组成候选情感词集,采用SO-PMI算法来计算各候选词的情感极性,进而融合基础情感词典得到扩充后的领域情感词典。实验表明,构建的领域情感词典能有效提高餐饮领域情感分析任务的性能。  相似文献   

2.
提出一种基于词频-极性强度值的情感词挖掘方法构建中文抑郁症情感词典。首先,对抑郁症患者评论语料进行有效分词,采用双向最大匹配和互信息方法选出候选情感词,再通过计算词频-极性强度值得到种子词集;然后,通过计算基础中文情感词典与种子词的语义相似度,得到抑郁症领域情感词表,将词表与种子词集合并,得到中文抑郁症情感词典。结果表明:本文提出的方法可准确地挖掘抑郁症专有领域情感词。  相似文献   

3.
基于微博表情符号,提出一种自动构建情感词典的方法。 从微博平台抓取大量带有表情符号的微博文本,并依据表情符号对微博文本进行情感倾向标注,生成情感语料库。 对语料库进行分词、去重等预处理工作,根据词性规则抽取微博文本中情感词,统计每个情感词在正向和负向语料库中出现的次数,计算情感词的卡方统计值获得情感强度,根据情感词在正负微博文本中出现的概率判定情感词的倾向性,进而生成情感词典。 这是一种全新的思路。 以人工标注的情感词典为基准数据,实验结果表明,本文方法标注情感词的准确率在80%左右,在情绪词强度阈值θ为20、30时,生成情感词典综合F值最好,达到了82%以上。   相似文献   

4.
针对互联网中的产品评论信息,提出一种三层过滤的评价对象抽取方法.该方法采用一个自举式的抽取算法在评论文本中得到候选的评价对象和情感词;利用评价对象与情感词之间的关联度对候选词进行关联置信度计算,提取关联置信度高的评价对象以提高识别的准确率;引入一个不相关的平行领域对剩余的候选词进行领域置信度计算,挖掘低频的评价对象.3个公开数据集中的实验结果表明该方法能够显著地提高评价对象的识别效果.   相似文献   

5.
在中文事件检测任务中,存在着领域互相独立,领域间的数据无法互通,需要分别为每个领域标注大量数据的问题。本文充分借鉴前人的研究,提出一个基于迁移学习的开放式中文事件检测方法。首先基于两个触发词关联假设,一个是同一个事件类型下,触发词与触发词在语义空间上有着一定的关联,且关联性较强。第二个是不同事件类型之间的触发词和触发词之间也存在着一定的关联,不过其关联性弱于相同事件类型下触发词之间的关联性。之后借助外部词典,构建候选词与种子触发词的关系特征以及候选词的上下文特征,再利用卷积神经网络构建事件检测的基础模型和迁移模型。最后对于新领域下的事件检测,只需要借助极少量的已知领域的标注数据即可完成。在ACE2005的中文事件数据集上,该方法在触发词识别这项任务上仅用20%的数据,其效果即可超越当前的主流方法。  相似文献   

6.
分析了句型结构中的否定句和转折句对倾向词极性的影响,提出一种基于句型结构的领域倾向性词表构建算法.该方法不仅考虑了词与词之间的相关性,也考虑了词与文档之间的相关性信息.该算法利用改进的拉普拉斯平滑方法来计算候选词和基准词之间的语义相关性,同时结合词与文档的相关性信息,加入了对转折句和否定句的处理,最后采用改进的信息瓶颈...  相似文献   

7.
传统基于语义词典和基于机器学习的中文情感分析方法,其情感分析结果受人的主观因素影响较大,在一定程度上依赖于人工建立的词典,词典的可扩展性不强.本文对于不被包括在知网情感词典中但又含有一定情感倾向的词语,使用点互信息PMI算法、设置参数阈值等方法,进行自动识别、提取和分类,从而达到扩充词典的目的.在此基础上,建立商品评论的特征向量模型,提出情感分类算法SCG,通过网格聚类算法建立分类模型,在网格聚类过程中引入动态衰减因子,周期性地移除稀疏网格,减少计算量.实验结果表明,相比Naive Bayes,SMO(sequential minimal optimization)等分类算法,SCG算法具有更高的准确率和领域适应性.  相似文献   

8.
针对微博涌现出越来越多带有情感倾向的新词,为了将这些新词扩充到传统情感词典,本文提出基于共现概率训练的情感词典的扩充算法。首先进行文本预处理,然后运用共现概率以及新词情感概率判断新词是否可以扩充,并且计算已载入情感词典的新词的新情感词情感倾向,最后迭代计算将新词扩充到情感词典。实验表明此扩充算法优于传统无监督学习算法。  相似文献   

9.
通过分析微博的结构特点,提出了一种基于语义分析的中文微博情感分类方法。首先构建了表情符号情感词典和网络用语情感词典;然后结合词典资源对微博文本进行依存句法分析并且构建情感表达式树;最后根据制定的规则计算微博文本的情感强度,依据强度值判断微博的情感倾向类别。实验结果验证了该方法的有效性,也表明所构建的表情符号情感词典和网络用语情感词典能够有效增强情感分类器的性能。  相似文献   

10.
针对在微博情感分析中没有有效地构造情感词典的方法问题,提出基于《同义词词林》和微博检索系统的情感词典的构造方法。利用《同义词词林》对4部基础情感词典进行扩展形成一部情感词典,利用点互信息(PMI)公式计算情感词语的情感倾向值。针对情感分析中特征选择的问题,利用不同的特征组合通过对比实验选取了有效的特征组合。实验证明,构造的情感词典和选择的特征组合有效,能够明显提高微博情感分析的质量。  相似文献   

11.
研究评论倾向性分析中情感词的动态极性变化问题.用Apriori算法在语境基础上挖掘情感歧义词语搭配,构建出(情感对象,情感词,情感倾向性)三元组形式的情感歧义词搭配词典,利用条件随机场模型(CRFs)序列标注方法从评论文本中抽取出情感要素,在构建的情感歧义词搭配词典基础上对评论文本进行了细粒度情感倾向性分析.在手机和电脑两个领域的评论语料集上进行多组实验,与传统方法的对比实验表明了方法的可行性,较为明显地提高了情感倾向性分析的准确率.  相似文献   

12.
标签传播算法的主要思想是利用已标注数据的标签信息预测未标注数据的标签信息。然而,传统传播算法没有区别对待未标注数据与已标注数据相互之间的转移信息,导致算法的收敛速度较慢,影响了算法的性能。针对传统算法的不足,提出了差异权重标签传播算法,算法按标注信息的重要性赋予不同的权重。在解决了大规模特征矩阵相乘问题之后,将提出的差异权重标签传播算法应用到Hadoop框架下,采用分布式计算,实现了能够处理大规模数据的多标签分类算法(HSML),并将提出的HSML算法与现有主流多标签分类算法进行了性能比较。实验结果表明,HSML算法在多标签分类的各项性能评测指标和执行速度上都是有效的。  相似文献   

13.
首先, 基于点互信息与信息检索(PMI IR)算法, 提出一种Laplace平滑情感判定(LS-SO)算法, 对情感词典与表情符号情感词典进行自动扩充, 得到了具有一定规模、 高质量的情感词典, 包括基础情感词典、 目标情感词典、 网络用语情感词典、 表情符号情感词典、 否定词词典、 疑问词词典、 程度副词词典和连词词典. 其次, 通过细化文本语义分析规则计算文本情感值. 实验结果验证了该方法的有效性.  相似文献   

14.
为了能够快速准确地提取出海量文本信息中的情感特征词,提出从情感词语集中通过人工筛选得到种子词并对其情感强度赋值,同时,以这些种子词为基准计算出情感词语集中其他词语的情感强度值,从而得到各特征词在词语级及句子级的倾向性贡献度值。然后,将特征词在词语级、句子级这2种不同粒度情况下计算出的情感倾向性贡献度值有机结合起来,构造出基于双粒度模型的中文情感特征词提取模型。该提取方法考虑了特征词在词语级和句子级2个方面的情感倾向,使最终提取出的情感词的准确率得到了提高。实验表明,只要有一个全面的情感词典系统和一组准确恰当的种子词,提出的方法可以获得良好的准确率和召回率。  相似文献   

15.
基于登录词邻接关系的双条件概率的领域术语抽取算法   总被引:2,自引:2,他引:0  
领域词典作为中文信息处理的基础,在各个领域都有着重要的应用.而人工构建领域词典不仅工作量大,而且缺乏时效性.因此,自动构建领域词典成为目前研究的重点,而构建领域词典的关键是从领域语料中自动抽取领域术语.本文以金融领域作为切入点,提出了根据登录词前后邻接关系计算邻接词之间的双条件概率自动识别领域术语.实验证明,本文提出的算法不仅能够有效地提取新术语,同时在小语料和低词频情况下也能取得较好的效果.  相似文献   

16.
本文首先利用基础情感词典以及基准词对所需研究领域的评论文本进行分析,以此获得特定领域具有感情倾向的特征词语。而后利用基准词以及获得的特征词语对评论进行分析,对于有感情词的句子,采用计算感情值来判别其感情倾向以及感情程度,对于无感情词的句子,采用连词的方法来进行感情的判别。实验结果表明,该方法能够对不同领域的评论得到较好的感情分类效果。  相似文献   

17.
面向社交网络的情感社区检测,可应用于公共健康、舆情监测等领域.以新浪微博为平台建立一种情感社区检测框架,首先融合微博情感表情特征和情感词典,提出基于朴素贝叶斯算法的半词典半表情(naive Bayes based semi-lexicon and semi-emoji,SL-SE-NB)分类模型以实现对文本的情感极性预测;提出一种基于潜在狄利克雷分配(latent Dirichlet allocation,LDA)话题模型的用户-超话题-关键词(user-topic-keywords,UTK) 模型抽取用户话题;基于标签传播算法(label propagation algorithm,LPA)并加入话题概念,提出基于种子集与最小边介数的标签传播情感社区发现算法(label propagation algorithm based seeds and min-edge betweenness,SMB-LPA).最后通过实验验证了所提出算法的有效性和高效性.  相似文献   

18.
针对越南语分词词典构建问题,提出了一种新的半监督集成构建方法.该方法能够结合人工干预,从大规模未标注越南语语料中识别多音节单词.首先设计了一种n元音节词产生器,并生成尽可能多的候选多音节词;其次通过3种统计特征的计算并根据预设阈值实现了相应的单词提取器,接着越南语专家检测并修正3个单独的词典;最后词典合成器合并这几个提取出的词典形成一个集成词典.采用直接实验和间接实验来评估这些词典的效力,实验结果表明,所提出的半监督集成构建方法是有效的,而且采用这些动态提取词典的两种越南语分词算法都能够达到理想的性能.  相似文献   

19.
研究构建领域情感本体,显式描述产品与产品部件、产品与产品属性之间的语义关系;设计词性模式匹配方法提取特征词和情感词的固定搭配,并采用评论句的极性标签结合否定词典,逆向推测搭配组合的情感极性,建立特征词与情感词的关联关系;进一步设计本体节点匹配规则进行情感分析,提高对电商网站评论文本情感分析的性能. 实验结果表明,领域情感本体的构建有利于消除情感词的领域依赖性及识别评论中的隐性特征.   相似文献   

20.
罗侃  宁建军 《天津科技》2011,38(2):74-76
在情感分析任务中,情感词或情感短语的极性判别是一项非常重要的任务。提出一种新的基于无指导学习的情感短语极性判别的方法。在该方法中,首先从新闻网站上抓取大量无标注的新闻评论数据。经过去除噪音并进行分词和词性标注之后,使用预先设定的模板抽取情感短语。然后人工标注少量种子词。通过分析种子词和情感短语的共现信息,最终得到情感短语的极性值。实验证明,这种方法可以有效判别情感短语的极性,并且能够用于句子级别的情感倾向分析。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号