首页 | 本学科首页   官方微博 | 高级检索  
     

基于词矢量相似度的短文本分类
引用本文:马成龙,姜亚松,李艳玲,张艳,颜永红. 基于词矢量相似度的短文本分类[J]. 山东大学学报(理学版), 2014, 0(12): 18-22,35
作者姓名:马成龙  姜亚松  李艳玲  张艳  颜永红
作者单位:中国科学院声学研究所,北京,100190
基金项目:国家自然科学基金资助项目(11161140319,91120001,61271426);中国科学院战略性先导科技专项项目(XDA06030100,XDA06030500);国家国家高技术研究发展计划(863计划)项目(2012AA012503);中科院重点部署项目
摘    要:
互联网中出现的短文本内容短小,相互共享的词汇较少,因此在分类过程中容易出现大量的集外词,导致分类性能降低。鉴于此,提出了一种基于词矢量相似度的分类方法,首先利用无监督的方法对无标注数据进行训练得到词矢量,然后通过词矢量之间的相似度对测试集中出现的集外词进行扩展。通过与基线系统的对比表明,该方法的分类正确率均优于基线系统1%~2%,尤其是在训练数据较少的情况下,所提出的方法的正确率相对提高10%以上。

关 键 词:短文本分类  词矢量相似度  集外词

Short text classification based on word embedding similarity
MA Cheng-long , JIANG Ya-song , LI Yan-ling , ZHANG Yan , YAN Yong-hong. Short text classification based on word embedding similarity[J]. Journal of Shandong University, 2014, 0(12): 18-22,35
Authors:MA Cheng-long    JIANG Ya-song    LI Yan-ling    ZHANG Yan    YAN Yong-hong
Abstract:
Keywords:short text classification  word embedding similarity  out of vocabulary
本文献已被 CNKI 万方数据 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号