中文分词任务中标注集合的选择方法 |
| |
摘 要: | 统计分词模型需要使用合适的标注集合来将中文句子的分词问题转化成序列标注问题,因此,标注集合的选择是统计分词模型中需要解决的一个重要的问题。文章分别借助单因子方差分析、置信区间和p值三种方法来比较常用的几种标注集合对中文分词模型性能差异的显著程度。首先根据单因子方差分析方法得出标注集合对于中文分词模型性能的影响是显著的;其次,使用置信区间和p值来选择最优的标注集合。实验结果表明:在常用的标注集合中,标注集合BB2B3MSE可以明显地提升中文分词模型的性能。
|
本文献已被 CNKI 等数据库收录! |
|