基于迁移的微博分词和文本规范化联合模型 |
| |
作者姓名: | 钱涛姬东鸿 戴文华 |
| |
作者单位: | 1. 武汉大学 计算机学院,湖北 武汉 430072; 2. 湖北科技学院 计算机科学与技术学院,湖北 咸宁 437100 |
| |
基金项目: | 国家自然科学基金重点资助项目(61133012);国家自然科学基金资助项目(61173062,61373108);国家社会科学
基金重点资助项目(11&ZD189) |
| |
摘 要: | 传统的分词器在微博文本上不能达到好的性能,主要归结于: ( 1) 缺少标注语料;
( 2) 存在大量的非规范化词. 针对这两类问题,文中提出一个分词和文本规范化的联合模
型,该模型在迁移分词基础上,通过扩充迁移行为来实现文本规范化,进而对规范的文本
进行分词. 在实验中,采用大量的规范标注文本及少量的微博标注文本进行训练,实验结
果显示,该模型具有较好的域适应性,其分词错误率比传统的方法减少了 10. 35% .
|
关 键 词: | 分词 文本规范化 域适应 迁移模型 微博 |
收稿时间: | 2015-06-11 |
本文献已被 CNKI 等数据库收录! |
| 点击此处可从《华南理工大学学报(自然科学版)》浏览原始摘要信息 |
|
点击此处可从《华南理工大学学报(自然科学版)》下载全文 |
|