首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 46 毫秒
1.
对微博文本的多元情感分类问题进行了研究.针对现有的多元情感词典不能很好地覆盖微博文本中情感词的不足,结合特定的情感符号和基于卡方统计量的度量方法,实现对现有的多元情感词典的扩充;针对情感词典无法有效考察文本的上下文语境信息的问题,引入word2vec模型实现情感词和其所在微博语句的向量化表达.在此基础上,利用KNN分类器实现微博句子级的多元情感分类.实验结果表明,扩充情感词典及引入word2vec模型均有助于提升微博文本多元情感分类的效果.  相似文献   

2.
本论述采用藏语三级切分体系对藏文文本进行分词和词性标注,并借助手工建立的藏文情感分析用词表,与已有的特征选择方法相结合提取情感特征,用相似度分类算法进行藏文文本的情感分类,达到了较好的分类效果.  相似文献   

3.
提出一种基于词典与语料结合的中文微博主观句抽取方法,通过判断句子中是否包含情感表达文本来判断句子是否为主观句.首先,从现有的情感词典中挑选出情感倾向较为固定的情感词构建了一个高可信情感词典,用于抽取句子中的情感表达文本,保证情感表达文本抽取的准确率;然后提出N-POSW模型,并基于2-POS W模型通过语料学习的方法较为准确地抽取句子中的剩余情感表达文本,保证了情感表达文本抽取的召回率.实验结果表明,相比于传统的基于大规模情感词典的方法,本文方法主观句抽取的F值提高了7%.  相似文献   

4.
该文在研究不同的关键词提取方法的基础上,针对维吾尔语文本中的生气、高兴等常见情感类型进行情感辨识研究。结合维吾尔文本句子中的情感表达特点,用TextRank、稀疏判别分析(sparse discriminant analysis,SDA)和稀疏支持向量机(sparse support vector machine,Sparse SVM)等提取方法得到具有代表性的关键词集,并基于这些关键词集进行特征提取和情感模型构造。该文从电影电视剧中演员的维吾尔语台词、小说等文本中选取含有生气和高兴2种情感文本的句子,构造实验数据集并验证所提出的文本情感倾向性分析方法的有效性。实验结果表明:该文用多种方法所提取的关键词集都能有效地对维吾尔语文本句子进行情感分类,尤其是基于Sparse SVM的稀疏性分析的关键词提取方法在少量关键词语集上能有效地进行较高准确率的情感分类。  相似文献   

5.
本文首先利用基础情感词典以及基准词对所需研究领域的评论文本进行分析,以此获得特定领域具有感情倾向的特征词语。而后利用基准词以及获得的特征词语对评论进行分析,对于有感情词的句子,采用计算感情值来判别其感情倾向以及感情程度,对于无感情词的句子,采用连词的方法来进行感情的判别。实验结果表明,该方法能够对不同领域的评论得到较好的感情分类效果。  相似文献   

6.
本文对中文微博中主客观分类特征的选取进行了研究,通过词典与统计相结合的方法提取了基础情感词、语气词、程度词等8个候选特征,对提取的候选特征,提出了一种基于粗糙集与概率加权的特征选择算法,通过该算法最终选取了基础情感词、!或!、网络观点词、语气词、形容词、程度词作为分类特征。实验结果表明,本文提出的方法能达到较好的分类效果。  相似文献   

7.
针对微博观点句识别及情感极性分类任务,提出了基于增强字向量的微博观点句情感极性分类方法.使用单字作为句子表示的基本单元,同时在单字中嵌入了该字所在的词信息以及该词的词性信息,以此训练得到字向量替代传统的词向量融合的句子表示方法.使用基于K-means的方法对向量化的句子进行情感判别,仅需要对文本进行分词和词性标注,无需额外的语言学资源.在COAE2015任务2的微博句子数据集上进行测试,取得了较好的结果.  相似文献   

8.
针对传统文本分类方法忽略词语间的语义特征的问题,并为了改善输入文本的表示质量,提出一种基于短语结构和词语词性相结合的情感分类方法.该方法首先通过短语结构优化分词,可以更好地提取文本特征;其次利用Word2vec工具训练词语和词性相结合的文本语料库得到词向量模型,解决了Word2vec无法识别一词多义的问题;最后通过SVM算法对文本进行情感分类.实验结果表明,该算法能够提高文本情感分类的正确性.该方法对舆情监控、股票市场行情预测和了解消费者对产品的偏好等具有较高的实用性.  相似文献   

9.
针对中文微博句子倾向性分类问题,在充分降低由于情感词典的扩充工作带来系统开销的基础上,抽取了中文微博句子中标点符号、情感词权重、词汇级和句法级等新型平面和结构化特征,探索了有效的特征选择方法.在基准COAE和NLP&CC中文微博语料上进行双向交叉和独立实验,并研究了有效的不平衡性语料的处理方法.实验结果表明:采用该文提出的特征后,中文微博句子倾向性分类的性能得到显著提升.  相似文献   

10.
已有的跨领域情感分类方法多通过抽取公共特征空间或建立领域特定特征间的映射关系来消减领域间的差异性,由于不考虑特征情感区分力的差异,使得公共特征空间及特征映射的求解往往不准确。具有高区分力的特征对于文本情感分类具有重要的意义,但标记的缺失使得已有的特征选择方法难以应用。文章基于特征选择方法,提出一种快速的跨领域情感分类方法(cross-domain sentiment classification based on feature selection,CSFS),构建源领域特征与目标领域特征的词共现矩阵,基于该矩阵对目标领域特征的情感区分力进行评估,在目标领域中选择出其中具有高情感区分力的特征;再利用源领域信息计算目标领域特征的情感语义大小,从而构建目标领域分类器。实验结果表明,该方法在保证准确率的前提下,大大提高了跨领域分类的效率。  相似文献   

11.
针对目前各种基于长短期记忆网络LSTM的句子情感分类方法没有考虑词的词性信息这一问题,将词性与自注意力机制相结合,提出一种面向句子情感分类的神经网络模型PALSTM(Pos and Attention-based LSTM).首先,结合预训练词向量和词性标注工具分别给出句子中词的语义词向量和词性词向量表示,并作为LSTM的输入用于学习词在内容和词性方面的长期依赖关系,有效地弥补了一般LSTM单纯依赖预训练词向量中词的共现信息的不足;接着,利用自注意力机制学习句子中词的位置信息和权重向量,并构造句子的最终语义表示;最后由多层感知器进行分类和输出.实验结果表明,PALSTM在公开语料库Movie Reviews、Internet Movie Database和Stanford Sentiment Treebank二元分类及五元情感上的准确率均比一般的LSTM和注意力LSTM模型有一定的提升.  相似文献   

12.
提出一种基于词频-极性强度值的情感词挖掘方法构建中文抑郁症情感词典。首先,对抑郁症患者评论语料进行有效分词,采用双向最大匹配和互信息方法选出候选情感词,再通过计算词频-极性强度值得到种子词集;然后,通过计算基础中文情感词典与种子词的语义相似度,得到抑郁症领域情感词表,将词表与种子词集合并,得到中文抑郁症情感词典。结果表明:本文提出的方法可准确地挖掘抑郁症专有领域情感词。  相似文献   

13.
以情感依存元组(EDT)作为中文情感表达的基本结构,把新闻文本主题情感倾向性判别任务分成主题识别、情感倾向性分析和主客观分类三个逐层递进的子任务。在主题识别前先对TF-IDF方法进行改进,再结合基于交叉熵方法提取主题特征词,同时考虑了新闻文章标题的主题表征作用,将标题词纳入主题特征集;然后基于空间向量模型计算句子与主题特征向量的相似度,在此基础上考虑句子位置、长度及句子与标题的相似度,计算句子的主题相关度以抽取主题句;最后建立情感依存元组判别模型计算主题句的情感,采用主、客观分类规则筛选出新闻倾向关键句。本方法在COAE 2014评测中各项指标皆逼近最好成绩,表明基于情感依存元组的分类方法具有较高的分类性能。  相似文献   

14.
网页分类是使用机器学习算法实现网页类别的自动标注。提出了一种基于SVM的日文网页分类方法,针对日文的特点,设计日文词素词典与规则库,并以此为基础进行日文分词和特征表示,然后使用互信息度进行特征选择,最后应用SVM来构造分类超平面,对日文网页进行分类。最后通过实验进行了验证。  相似文献   

15.
基于微博表情符号,提出一种自动构建情感词典的方法。 从微博平台抓取大量带有表情符号的微博文本,并依据表情符号对微博文本进行情感倾向标注,生成情感语料库。 对语料库进行分词、去重等预处理工作,根据词性规则抽取微博文本中情感词,统计每个情感词在正向和负向语料库中出现的次数,计算情感词的卡方统计值获得情感强度,根据情感词在正负微博文本中出现的概率判定情感词的倾向性,进而生成情感词典。 这是一种全新的思路。 以人工标注的情感词典为基准数据,实验结果表明,本文方法标注情感词的准确率在80%左右,在情绪词强度阈值θ为20、30时,生成情感词典综合F值最好,达到了82%以上。   相似文献   

16.
该文研究文本极性分类算法优化问题。目前算法多以计算词的极性进行文本极性分类,由于不能保证词的主题相关性,导致文本情感分析准确率较低。为了提高分类精度,该文提出一种新的文本极性分类方法,首先用tf/idf算法抽取主题词确定文本主题句,然后对句子进行句法分析,并利用核函数设计基于词特征、词义特征以及句法特征等多特征融合的句子极性计算方法,通过分析情感主题句的极性进行文本情感倾向的判断。新方法不仅考虑了词本身的极性,还根据核函数区分词的动态极性,同时避免与主题无关的句子对分析结果的影响,进行实验与其它分类算法作比较,证明新方法能够有效提高文本情感分析的准确率,可为设计提供实用有效的算法。  相似文献   

17.
针对在微博情感分析中没有有效地构造情感词典的方法问题,提出基于《同义词词林》和微博检索系统的情感词典的构造方法。利用《同义词词林》对4部基础情感词典进行扩展形成一部情感词典,利用点互信息(PMI)公式计算情感词语的情感倾向值。针对情感分析中特征选择的问题,利用不同的特征组合通过对比实验选取了有效的特征组合。实验证明,构造的情感词典和选择的特征组合有效,能够明显提高微博情感分析的质量。  相似文献   

18.
一种面向科技文献引言的信息抽取方法   总被引:1,自引:0,他引:1  
分析了引言部分写作模型,将文本按照句子级别划分为背景知识、问题分析、工作描述三个类别。统计每个部分句子的引导词、句型表达、线索词、所处位置的特征,并构建相应规则库。在分词和词性标注基础上,利用规则匹配每个句子得出所属的类别,从而抽取出三个部分的信息。以石油勘探开发类科技文献和数据挖掘类科技文献为例,进行人工判别和本文方法抽取试验,结果表明本文方法能准确获取相应信息。  相似文献   

19.
通过对新闻类文体的结构分析,将新闻文体按段落划分,采用一种基于情感词典和语义规则相结合的情感关键句抽取方法,对段落内的句子进行情感分析。综合考虑情感、转折、否定、程度和归总等词语信息构建情感词典,根据规则切割新闻文本,将新闻划分为意群、句子、段落以及篇章,通过制定的规则计算情感关键句倾向值,最终获得段落以及整个篇章的情感倾向值,从而得出新闻的情感倾向。与情感词典和SVM情感分类方法的实验结果对比表明,本文方法在对新闻文本进行倾向判别时效果较好,方法具可行性。  相似文献   

20.
意见挖掘在企业智能分析、政府舆情分析等领域发挥着重要作用,为了充分挖掘主观性文本所蕴含的商业价值和社会价值,提出了一种基于情感主题模型的特征选择方法。该方法重点考察极性词及其共现现象,采用主题模型挖掘出正面褒义主题和负面贬义主题中极性词的分布情况,旨在度量情感特征在情感倾向表达中的重要性。实验阶段结合支持向量机分类器进行分析。实验表明该特征选择方法能有效提高跨领域文本情感分类准确性,具有较好的实用价值。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号