越南语分词词典半监督集成构建算法 |
| |
引用本文: | 刘伍颖,王琳.越南语分词词典半监督集成构建算法[J].郑州大学学报(理学版),2018(1). |
| |
作者姓名: | 刘伍颖 王琳 |
| |
作者单位: | 广东外语外贸大学语言工程与计算实验室;上海外国语大学贤达经济人文学院; |
| |
摘 要: | 针对越南语分词词典构建问题,提出了一种新的半监督集成构建方法.该方法能够结合人工干预,从大规模未标注越南语语料中识别多音节单词.首先设计了一种n元音节词产生器,并生成尽可能多的候选多音节词;其次通过3种统计特征的计算并根据预设阈值实现了相应的单词提取器,接着越南语专家检测并修正3个单独的词典;最后词典合成器合并这几个提取出的词典形成一个集成词典.采用直接实验和间接实验来评估这些词典的效力,实验结果表明,所提出的半监督集成构建方法是有效的,而且采用这些动态提取词典的两种越南语分词算法都能够达到理想的性能.
|
本文献已被 CNKI 等数据库收录! |
|