摘 要: | 基于大规模领域内标注数据训练的句法分析模型在领域外数据上测试时,性能会急剧下降.导致该现象的原因之一是缺乏高质量的目标领域标注数据.由于人工标注数据耗时耗力,自动生成目标领域标注数据是一种有效的解决方法.其中,三元训练(tri-training)作为一种典型的多模型决策协同训练方法,旨在利用多个模型的预测结果来保证自动标注数据的质量.本文针对跨领域依存句法分析任务,系统比较了3种常用的tri-training方法,在NLPCC-2019评测数据集上取得了目前最佳的性能,并大幅度超过了目前最好结果.此外,还设计了详细的分析实验以深入理解跨领域模型性能下降的原因以及tri-training所起的作用.
|