融入领域知识的跨境民族文化生成式摘要方法 |
| |
引用本文: | 赵冠博,张勇丙,毛存礼,高盛祥,王奉孝.融入领域知识的跨境民族文化生成式摘要方法[J].南京大学学报(自然科学版),2023(4):620-628. |
| |
作者姓名: | 赵冠博 张勇丙 毛存礼 高盛祥 王奉孝 |
| |
作者单位: | 1. 南亚东南亚语言语音信息处理教育部工程研究中心,昆明理工大学;2. 昆明理工大学信息工程与自动化学院;3. 云南省人工智能重点实验室,昆明理工大学 |
| |
基金项目: | 国家自然科学基金(62166023,61866019);;云南省自然科学基金重点项目(2019FA023); |
| |
摘 要: | 从跨境民族文化文本中生成具有领域知识的摘要对进一步开展跨境民族文化文本检索、问答等任务具有重要的支撑作用,当前基于深度学习的生成式文本摘要取得了较好的效果,但直接用于跨境民族文化文本摘要任务会导致生成的摘要出现领域词汇丢失的问题.为此,提出一种融入领域知识的跨境民族文化生成式摘要方法(Domain Knowledge-Culture-Generative Summary,DKCGS),在编码端将跨境民族文化领域词典编码与原文本编码融合,以此增强模型对领域词汇的表征能力;在解码端,基于指针生成网络将具有同义或跨境关系的领域词汇分布与原文本分布结合,提高模型生成文化领域词汇的准确率.同时,在通用领域文本上进行预训练并进一步初始化参数,以缓解数据稀缺导致模型训练效果不佳的问题.实验结果表明,提出的方法在跨境民族文本摘要数据集上比基线模型的Rouge-1提升了0.95,有效提升了跨境民族文化文本摘要生成的质量.
|
关 键 词: | 跨境民族文化 领域知识 指针生成网络 预训练 文本摘要 |
|
|