首页 | 本学科首页   官方微博 | 高级检索  
     

一种基于频繁词集的短文本特征扩展方法
作者姓名:袁满  欧阳元新  熊璋  罗建辉
作者单位:北京航空航天大学计算机学院;北京航空航天大学深圳研究院
基金项目:国家自然科学基金资助项目(61103095);国家国际科技合作专项资助项目(2010DFB13350);国家高技术研究发展计划(863计划)资助项目(2011AA010502);中央高校基本科研业务费专项资金资助项目
摘    要:为了解决向量空间模型(VSM)对短文本内容表示能力不足的问题,提出了一种基于频繁词集的特征扩展方法.定义了单词间的共现关系和类别同向关系,通过计算单词集的支持度和置信度,挖掘出具有相同类别倾向的频繁词集,并将其作为短文本特征扩展的背景知识库.对于短文本中的每个原始单词,从背景知识库中查找包含有该单词的频繁词集,将其作为扩展特征加入原特征向量中.搜狗语料集上的实验结果表明,置信度和支持度对背景知识库的规模有较大的影响,但是扩展过多的特征存在冗余性,对分类效果没有进一步的提升.基于频繁词集构建的短文本背景知识库可以作为有效的扩展特征;当训练文本数较为有限时,特征扩展对支持向量机SVM的分类效果有显著的提升.

关 键 词:频繁项目集  短文本分类  特征扩展
本文献已被 CNKI 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号