首页 | 本学科首页   官方微博 | 高级检索  
     检索      

融合词频特性及邻接变化数的微博新词识别
引用本文:周超,严馨,余正涛,洪旭东,线岩团.融合词频特性及邻接变化数的微博新词识别[J].山东大学学报(理学版),2015(3):6-10.
作者姓名:周超  严馨  余正涛  洪旭东  线岩团
作者单位:昆明理工大学信息工程与自动化学院计算机系,云南省计算机技术应用重点实验室
基金项目:国家自然科学基金资助项目(61462055,61462054,61175068,61363044)
摘    要:大量的新词伴随着微博的快速发展而产生,这些新词具有传播速度快及与其他词组合方式灵活的特点,而且在进行分词处理时容易被切分为不同的字符串。提出了一种融合词频特性及邻接变化数的微博新词识别方法。该方法首先对大规模的微博语料进行分词,然后将在两停用词间的相邻字串两两组合,根据组合后的字串频率统计取得新词候选串,再通过组合成词规则进行筛选获得候选新词,最后通过词的邻接域变化特性去除垃圾串获得新词。利用该方法在COAE 2014评测任务上进行了新词的发现实验,准确率达到36.5%,取得了较好的成绩。

关 键 词:邻接变化数  微博新词  字串频率统计  成词规则

Weibo new word recognition combining frequency characteristic and accessor variety
ZHOU Chao;YAN Xin;YU Zheng-tao;HONG Xu-dong;XIAN Yan-tuan.Weibo new word recognition combining frequency characteristic and accessor variety[J].Journal of Shandong University,2015(3):6-10.
Authors:ZHOU Chao;YAN Xin;YU Zheng-tao;HONG Xu-dong;XIAN Yan-tuan
Institution:ZHOU Chao;YAN Xin;YU Zheng-tao;HONG Xu-dong;XIAN Yan-tuan;School of Information Engineering and Automation of Computer Science,Kunming University of Science and Technology;Key Lab of Computer Technologies Application of Yunnan Province and Kunming;
Abstract:
Keywords:
本文献已被 CNKI 万方数据 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号