中文微博情感倾向性分析特征工程 |
| |
引用本文: | 李泽魁,赵妍妍,秦兵,刘挺.中文微博情感倾向性分析特征工程[J].山西大学学报(自然科学版),2014(4):570-578. |
| |
作者姓名: | 李泽魁 赵妍妍 秦兵 刘挺 |
| |
作者单位: | 哈尔滨工业大学计算机科学与技术学院信息检索研究中心;哈尔滨工业大学机电学院媒体系; |
| |
基金项目: | 国家自然科学基金重点项目(61133012);国家自然科学青年基金项目(61300113);国家自然科学基金面上项目(61273321) |
| |
摘 要: | 情感倾向性分析是情感分析的重要组成部分,是一种按照情感倾向对文本进行分类的任务。微博与传统的评论文本相比更加口语化与符号化,因此对微博进行情感倾向性分析是一个非常有挑战性的任务。基于机器学习的方法是情感倾向性分析最经典的算法,核心是要进行特征的分析和选择,例如词袋特征等。然而,由于中文语言的独特性,前人很多有效的特征都是语言相关的,将其直接用于中文微博效果不佳。在中文微博语料上,还没有学者进行细致的特征工程建设。基于此,文章综合国内外诸多特征,并考虑到中文的独特性,对中文微博的褒贬中倾向性判别特征工程的词、词组、数值和句法特征分别进行了研究,并提出了基于词典规则的情感评分的新特征。最后经过大量实验与分析,得出了可靠的特征组合。实验结果表明,此方法能够明显提高情感倾向性分析的结果。
|
关 键 词: | 情感倾向性分析 中文微博 特征工程 |
本文献已被 CNKI 等数据库收录! |
|