基于迁移的微博分词和文本规范化联合模型期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

基于迁移的微博分词和文本规范化联合模型

作者姓名：	钱涛姬东鸿戴文华

作者单位：	1．武汉大学计算机学院,湖北武汉 430072; 2．湖北科技学院计算机科学与技术学院,湖北咸宁 437100

基金项目：	国家自然科学基金重点资助项目(61133012);国家自然科学基金资助项目(61173062,61373108);国家社会科学基金重点资助项目(11＆ZD189)

摘要：	传统的分词器在微博文本上不能达到好的性能,主要归结于: ( 1) 缺少标注语料; ( 2) 存在大量的非规范化词．针对这两类问题,文中提出一个分词和文本规范化的联合模型,该模型在迁移分词基础上,通过扩充迁移行为来实现文本规范化,进而对规范的文本进行分词．在实验中,采用大量的规范标注文本及少量的微博标注文本进行训练,实验结果显示,该模型具有较好的域适应性,其分词错误率比传统的方法减少了 10． 35% ．
关键词：	分词文本规范化域适应迁移模型微博
收稿时间：	2015-06-11
本文献已被 CNKI 等数据库收录！
	点击此处可从《华南理工大学学报(自然科学版)》浏览原始摘要信息
	点击此处可从《华南理工大学学报(自然科学版)》下载全文