首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 718 毫秒
1.
针对现有的中文文本情感分析方法不能从句法结构、上下文信息和局部语义特征等方面综合考量文本语义信息的问题,提出一种基于特征融合的中文文本情感分析方法.首先,采用Jieba分词工具对评论文本进行分词和词性标注,并采用词向量训练工具GloVe获取融入词性的预训练词向量;然后,将词向量分别作为引入Self-Attention的BiGRU和TextCNN的输入,使用引入Self-Attention的BiGRU从文本的句法结构和文本的上下文信息两个方面综合提取全局特征,使用TextCNN提取文本的局部语义特征;最后,将全局特征和局部语义特征进行融合,并使用Softmax进行文本情感分类.实验结果表明,本文方法可以有效提高文本情感分析的准确率.  相似文献   

2.
针对微博观点句识别及情感极性分类任务,提出了基于增强字向量的微博观点句情感极性分类方法.使用单字作为句子表示的基本单元,同时在单字中嵌入了该字所在的词信息以及该词的词性信息,以此训练得到字向量替代传统的词向量融合的句子表示方法.使用基于K-means的方法对向量化的句子进行情感判别,仅需要对文本进行分词和词性标注,无需额外的语言学资源.在COAE2015任务2的微博句子数据集上进行测试,取得了较好的结果.  相似文献   

3.
为进一步提高文本情感倾向性分类效果,提出基于文本特征和语言知识融合的卷积神经网络模型MI-CNN.使用Word2Vec表示词语信息,将词性和情感词语等语言知识嵌入词向量中,将文本特征和语言知识融合到情感倾向性分类模型,经过参数优化提升文本情感倾向性分类模型的准确率.在数据集上进行实验,结果表明所提出的模型准确率达到93...  相似文献   

4.
用于中文色情文本过滤的近邻法构造算法   总被引:2,自引:0,他引:2  
从不良信息中最为普及的中文色情文本过滤入手,用近邻法(KNN)算法构造对比了4种特征项选择的方法在中文色情文本中的应用,它们分别是字、词、标点符号和词性等特征.试验表明,中文色情文本不同特征项的选择对中文色情文本的分类效果起到了重要的作用.实验同时表明,所设计的过滤器在保证速度的前提下,很好地完成了基于内容的高精度过滤.  相似文献   

5.
情感倾向性分析是情感分析的重要组成部分,是一种按照情感倾向对文本进行分类的任务。微博与传统的评论文本相比更加口语化与符号化,因此对微博进行情感倾向性分析是一个非常有挑战性的任务。基于机器学习的方法是情感倾向性分析最经典的算法,核心是要进行特征的分析和选择,例如词袋特征等。然而,由于中文语言的独特性,前人很多有效的特征都是语言相关的,将其直接用于中文微博效果不佳。在中文微博语料上,还没有学者进行细致的特征工程建设。基于此,文章综合国内外诸多特征,并考虑到中文的独特性,对中文微博的褒贬中倾向性判别特征工程的词、词组、数值和句法特征分别进行了研究,并提出了基于词典规则的情感评分的新特征。最后经过大量实验与分析,得出了可靠的特征组合。实验结果表明,此方法能够明显提高情感倾向性分析的结果。  相似文献   

6.
针对传统文本分类方法忽略词语间的语义特征的问题,并为了改善输入文本的表示质量,提出一种基于短语结构和词语词性相结合的情感分类方法.该方法首先通过短语结构优化分词,可以更好地提取文本特征;其次利用Word2vec工具训练词语和词性相结合的文本语料库得到词向量模型,解决了Word2vec无法识别一词多义的问题;最后通过SVM算法对文本进行情感分类.实验结果表明,该算法能够提高文本情感分类的正确性.该方法对舆情监控、股票市场行情预测和了解消费者对产品的偏好等具有较高的实用性.  相似文献   

7.
分别利用用户名和微博文本对个人与非个人两种用户类型进行判别,并对不同的特征(例如:字特征、词特征等)进行研究分析;其次,在针对用户名和微博文本的两个分类器的基础上,使用贝叶斯融合方法进行分类器融合,充分利用两种文本分类信息同时进行用户类型判断。实验结果表明此方法可以达到较高的识别准确率,并且分类器融合方法明显优于仅利用用户名或者微博文本的分类方法。  相似文献   

8.
对在线商业评论文本的情感进行挖掘,融合评论文本不同特征为分类器提供更多的信息量,提出了一种新的在线电商情感分类算法。首先,针对传统词嵌入模型无法很好地融合词语情感信息特征的不足,考虑了词嵌入特征和词性特征的多特征融合方法;其次,在两种特征融合方法的基础上采用了双通道和单通道的对比来比较分类的准确性,提出了并行的CNN和BiLSTM-Attention双通道神经网络模型;最后,使用真实的京东电商评论数据集对所提模型进行了评估,并且在实验中与不同分类算法进行对比。实验结果表明,新的混合方法具有更好的分类准确率、召回率和F1指标。  相似文献   

9.
针对特定目标的情感分析是文本情感细粒度理解任务的重要内容.已有研究大多通过循环神经网络和注意力机制来建模文本序列信息和全局依赖,并利用文本依赖解析树作为辅助知识,但这些方法没有充分利用目标词与文本词之间的依赖关系,也忽略了训练语料库中的词共现关系,而词共现信息往往意味着一种语法搭配.为了解决上述问题,提出一种目标依赖的多头自注意力网络模型.该模型首先设计内联和外联两种不同的注意力机制用于建模文本词和目标词的隐藏状态和语义交互;其次,该模型构建了语料库级别和句子级别的词共现图,并通过图卷积网络将词共现信息融合进文本的特征表示学习并用于下游分类任务.在五个标准数据集上进行了对比实验,实验结果表明,提出的模型在方面级情感分析任务中的性能优于所有对比模型.  相似文献   

10.
对在线商业评论文本的情感进行挖掘,融合评论文本不同特征为分类器提供更多的信息量,提出了一种新的在线电商情感分类算法。首先,针对传统词嵌入模型无法很好地融合词语情感信息特征的不足,考虑了词嵌入特征和词性特征的多特征融合方法;其次,在两种特征融合方法的基础上采用了双通道和单通道的对比来比较分类的准确性,提出了并行的CNN和BiLSTM-Attention双通道神经网络模型;最后,使用真实的京东电商评论数据集对所提模型进行了评估,并且在实验中与不同分类算法进行对比。实验结果表明,新的混合方法具有更好的分类准确率、召回率和F1指标。  相似文献   

11.
针对中文的语料,采用基于条件随机场的方法,在词、词性特征的基础上结合最近名词、句法依赖关系和句子倾向性等特征,分析不同特征对于评价对象抽取的影响.实验结果表明,结合了词、句子倾向性、词性、语法依赖关系、邻近名词等特征的条件随机场方法对于中文句子评价对象的抽取更有效.  相似文献   

12.
细粒度情感分析是自然语言处理的关键任务之一,针对现有的解决中文影评情感分析的主流方案一般使用Word2Vector等预训练模型生成静态词向量,不能很好地解决一词多义问题,并且采用CNN池化的方式提取文本特征可能造成文本信息损失造成学习不充分,同时未能利用文本中包含的长距离依赖信息和句子中的句法信息。因此,提出了一种新的情感分析模型RoBERTa-PWCN-GTRU。模型使用RoBERTa预训练模型生成动态文本词向量,解决一词多义问题。为充分提取利用文本信息,采用改进的网络DenseDPCNN捕获文本长距离依赖信息,并与Bi-LSTM获取到的全局语义信息以双通道的方式进行特征融合,再融入邻近加权卷积网络(PWCN)获取到的句子句法信息,并引入门控Tanh-Relu单元(GTRU)进行进一步的特征筛选。在构建的中文影评数据集上的实验结果表明,提出的情感分析模型较主流模型在性能上有明显提升,其在中文影评数据集上的准确率达89.67%,F1值达82.51%,通过消融实验进一步验证了模型性能的有效性。模型能够为制片方未来的电影制作和消费者的购票决策提供有用信息,具有一定的实用价值。  相似文献   

13.
根据微博文本中句子的依存关系和情感词在依存关系中的位置来提取特征,将特征应用于最大熵模型来预测句子的情感倾向(褒义、贬义或中性)。并在此基础上,将词、词性和词在句法结构中的成分作为特征,训练条件随机场统计模型以此预测评价对象。实验结果表明,将句法依存关系作为特征应用到中文微博观点句识别中能够取得不错的效果,明显提高了中文微博观点句的识别率。  相似文献   

14.
针对中文问句分类缺乏丰富的句法语义特征,提出一种基于词袋绑定的问句新特征自动生成方法.在词袋(BOW)、词性(POS)和词义(WS)等基本特征的基础上,通过将词性、词义等与词袋分别进行绑定,自动获取一类新的问句特征即词袋绑定特征.采用SVM分类器在哈工大中文问句集上实验,结果表明与原来单个的POS、WS等基本特征相比,对应的W/POS、W/WS等词袋绑定特征在分类精度上均获得了显著的提升;而且对这些词袋绑定特征进行启发式组合以后,在77个小类问题类别的总体分类精度达到82.333%,取得了较好的分类效果.说明在基本特征基础上借助词袋绑定操作进一步构造问句新特征的方法简单而有效.  相似文献   

15.
用文本分类的方法找出中文评教信息的情感倾向,使学生主观评价里蕴含的信息得到有效利用,是对现有评教系统的必要补充.采用基于潜在语义分析的方法对文本向量降维,并用支持向量机的分类方法对目标文本进行分类,得到每一条主观评价的情感倾向.分析了特征选择、特征抽取方法、降维维数、词性、训练集合与测试集合样本的比例等几方面对分类的影响,找到了较好的中文评教文本分类模型.  相似文献   

16.
文本情感分析就是分析主观文本的情感倾向.针对情感分析中标签样本不足以及不同领域中情感表达存在差异的问题,提出一种基于卷积神经网络的跨领域情感分析方法,利用源领域标签样本完成对目标领域的无监督情感分析.首先,量化词项的情感极性、基于词向量度量词项的领域一致性,并在此基础上选择情感强烈且语义一致的词项作为领域间的共享词;然后,采用卷积神经网络提取文本特征,基于共享词的极性对源领域情感文本进行特征扩展;其次,基于扩展的文本完成情感分类器的训练,并对目标领域的情感文本进行分类;最后,在Amazon数据集上进行实验分析,实验结果表明该方法可以提高跨领域情感分类的准确率.  相似文献   

17.
针对目前中文命名时实体识别方法中存在的中文边界识别困难、模型梯度、文本特征不够充分等问题,提出了一种融合词性特征与双向时间卷积网络的中文命名时实体识别模型。该模型提出使用XLNet预训练语言模型生成对应的词嵌入表示,融合后使用双向时间卷积网络提取文本前向特征与后向特征。实验中对时间卷积网络的空洞因子、卷积层数和卷积核数进行参数实验并分析其影响原因,结果表明,该模型与其他模型相比,能够更准确且有效地提取文本中的实体。  相似文献   

18.
闻彬 《咸宁学院学报》2010,30(6):56-57,64
中文倾向性研究是针对文本内容获得有用的倾向性信息和知识,它已经成为自然语言处理的研究热点.本文首先分析了国内外关于倾向性的研究现状,然后重点介绍了情感词识别和情感词极性判别的方法和技术.同时在对现有的情感词极性判别技术的基础上,提出了一种基于改进的HowNet处理情感词极性判别的方法.实验结果表明,本方法在词语级上达到了较好的效果.  相似文献   

19.
基于条件随机场的汽车领域术语抽取   总被引:1,自引:0,他引:1  
中文领域术语抽取是中文信息处理领域的一项重要研究任务,在词典构建、领域本体构造等方面有重要的应用.采用条件随机场(conditional random fields,CRFs),从汽车知识网站上爬取网页,预处理后得到纯文本,然后分析汽车领域的术语组成特点并制定相应的语料标注规则进行人工标注,对汽车领域进行了术语抽取.在使用词和词性特征的基础上增加了词典特征、领域词频和背景领域词频等特征,精确率、召回率和F-值分别达到84.61%、80.50%和82.50%.与其他方法比较说明所提出的汽车领域术语抽取方法是有效的.  相似文献   

20.
该文研究文本极性分类算法优化问题。目前算法多以计算词的极性进行文本极性分类,由于不能保证词的主题相关性,导致文本情感分析准确率较低。为了提高分类精度,该文提出一种新的文本极性分类方法,首先用tf/idf算法抽取主题词确定文本主题句,然后对句子进行句法分析,并利用核函数设计基于词特征、词义特征以及句法特征等多特征融合的句子极性计算方法,通过分析情感主题句的极性进行文本情感倾向的判断。新方法不仅考虑了词本身的极性,还根据核函数区分词的动态极性,同时避免与主题无关的句子对分析结果的影响,进行实验与其它分类算法作比较,证明新方法能够有效提高文本情感分析的准确率,可为设计提供实用有效的算法。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号