首页 | 本学科首页   官方微博 | 高级检索  
     

基于迁移的微博分词和文本规范化联合模型
作者姓名:钱涛姬东鸿  戴文华
作者单位:1. 武汉大学 计算机学院,湖北 武汉 430072; 2. 湖北科技学院 计算机科学与技术学院,湖北 咸宁 437100
基金项目:国家自然科学基金重点资助项目(61133012);国家自然科学基金资助项目(61173062,61373108);国家社会科学 基金重点资助项目(11&ZD189)
摘    要:传统的分词器在微博文本上不能达到好的性能,主要归结于: ( 1) 缺少标注语料; ( 2) 存在大量的非规范化词. 针对这两类问题,文中提出一个分词和文本规范化的联合模 型,该模型在迁移分词基础上,通过扩充迁移行为来实现文本规范化,进而对规范的文本 进行分词. 在实验中,采用大量的规范标注文本及少量的微博标注文本进行训练,实验结 果显示,该模型具有较好的域适应性,其分词错误率比传统的方法减少了 10. 35% .

关 键 词:分词   文本规范化   域适应   迁移模型   微博  
收稿时间:2015-06-11
本文献已被 CNKI 等数据库收录!
点击此处可从《华南理工大学学报(自然科学版)》浏览原始摘要信息
点击此处可从《华南理工大学学报(自然科学版)》下载全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号