基于保序子矩阵和频繁序列模式挖掘的文本情感特征提取方法期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

按检索

基于保序子矩阵和频繁序列模式挖掘的文本情感特征提取方法

引用本文：	陈鑫,薛云,卢昕,李万理,赵洪雅,胡晓晖.基于保序子矩阵和频繁序列模式挖掘的文本情感特征提取方法[J].山东大学学报(理学版),2018(3).

作者姓名：	陈鑫薛云卢昕李万理赵洪雅胡晓晖

作者单位：	华南师范大学物理与电信工程学院;深圳职业技术学院;广东省数据科学工程技术研究中心;

摘要：	特征提取是进行文本情感分析的关键步骤之一,是影响其结果好坏的主要因素。针对网络评论语句中表达形式多变的特点,结合语义相似度计算得到近义词TF-IDF(term frequency—inverse document frequency)权重向量;根据评论语句长短不一的特点,基于OPSM(order-preserving submatrix)双聚类算法挖掘出权重向量中的局部模式;使用改进的Prefix Span算法挖掘分类频繁短语特征,这类特征能有效利用词语的顺序信息,同时也通过词语间隔等限制来提升频繁短语区分情感倾向的能力。最后将该方法用于处理商品评论语料,并进行情感分析任务实验,结果表明所提取的文本特征效果有较大的提升。
本文献已被 CNKI 等数据库收录！