首页 | 本学科首页   官方微博 | 高级检索  
     检索      

基于子词信息的维吾尔语词项规范化
引用本文:张新路,王磊,杨雅婷,米成刚.基于子词信息的维吾尔语词项规范化[J].厦门大学学报(自然科学版),2019(2).
作者姓名:张新路  王磊  杨雅婷  米成刚
作者单位:中国科学院新疆理化技术研究所新疆民族语音语言信息处理实验室;中国科学院大学计算机科学与技术学院
摘    要:拉丁化的维吾尔语在使用过程中具有文本不规范的特点,这种不规范是造成歧义等现象的最主要原因,严重制约着与维吾尔语相关的自然语言处理应用.由此提出了一种无监督的基于子词信息的文本规范化方法,该方法在词向量构建过程中将词的内部信息考虑进去.这种方法可以对罕见词进行向量表示,也可以将词内部的形态信息融入词的表示,丰富词向量的表达,进而用于改进无监督学习中规范化词候选集生成质量的不足.实验表明,相比于传统词向量构建方法,该方法在文本规范化任务中可以提高规范化词的召回率.

本文献已被 CNKI 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号