预训练语言模型的可解释性研究进展期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

预训练语言模型的可解释性研究进展

作者姓名：	郝雅茹董力许可李先贤

作者单位：	1. 微软亚洲研究院;2. 北京航空航天大学计算机学院;3. 广西多源信息挖掘与安全重点实验室(广西师范大学)

基金项目：	国家自然科学基金重点项目(61932002)；

摘要：	基于深度神经网络的大型预训练语言模型在众多自然语言处理任务上都取得了巨大的成功，如文本分类、阅读理解、机器翻译等，目前已经广泛应用于工业界。然而，这些模型的可解释性普遍较差，即难以理解为何特定的模型结构和预训练方式如此有效，亦无法解释模型做出决策的内在机制，这给人工智能模型的通用化带来不确定性和不可控性。因此，设计合理的方法来解释模型至关重要，它不仅有助于分析模型的行为，也可以指导研究者更好地改进模型。本文介绍近年来有关大型预训练语言模型可解释性的研究现状，对相关文献进行综述，并分析现有方法的不足和未来可能的发展方向。
关键词：	语言模型预训练可解释性自然语言处理神经网络