首页 | 本学科首页   官方微博 | 高级检索  
     检索      

基于保序子矩阵和频繁序列模式挖掘的文本情感特征提取方法
引用本文:陈鑫,薛云,卢昕,李万理,赵洪雅,胡晓晖.基于保序子矩阵和频繁序列模式挖掘的文本情感特征提取方法[J].山东大学学报(理学版),2018(3).
作者姓名:陈鑫  薛云  卢昕  李万理  赵洪雅  胡晓晖
作者单位:华南师范大学物理与电信工程学院;深圳职业技术学院;广东省数据科学工程技术研究中心;
摘    要:特征提取是进行文本情感分析的关键步骤之一,是影响其结果好坏的主要因素。针对网络评论语句中表达形式多变的特点,结合语义相似度计算得到近义词TF-IDF(term frequency—inverse document frequency)权重向量;根据评论语句长短不一的特点,基于OPSM(order-preserving submatrix)双聚类算法挖掘出权重向量中的局部模式;使用改进的Prefix Span算法挖掘分类频繁短语特征,这类特征能有效利用词语的顺序信息,同时也通过词语间隔等限制来提升频繁短语区分情感倾向的能力。最后将该方法用于处理商品评论语料,并进行情感分析任务实验,结果表明所提取的文本特征效果有较大的提升。

本文献已被 CNKI 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号