基于领域知识图谱和对比学习的汉越跨境民族文本检索方法 |
| |
引用本文: | 刘思源,毛存礼,张勇丙.基于领域知识图谱和对比学习的汉越跨境民族文本检索方法[J].南京大学学报(自然科学版),2023(4):610-619. |
| |
作者姓名: | 刘思源 毛存礼 张勇丙 |
| |
作者单位: | 1. 南亚东南亚语言语音信息处理教育部工程研究中心;2. 昆明理工大学信息与自动化学院;3. 云南省人工智能重点实验室,昆明理工大学 |
| |
基金项目: | 国家自然科学基金(62166023,61866019);;云南省自然科学基金重点项目(2019FA023); |
| |
摘 要: | 汉越跨境民族文本检索是一类面向领域的跨语言检索任务,旨在以一种语言作为问题查询,检索出另一种语言对应的民族、宗教、文化习俗等跨境民族文档.但在汉越跨境民族文本检索任务中存在大量不常见的领域实体,实体表达形式多样,且中文和越南语两种语言领域实体没有直接对应关系,导致跨语言领域词对齐和语义对齐困难,进而影响汉越跨境民族文本检索模型性能.基于此,提出一种基于领域知识图谱和对比学习的汉越跨境民族文本检索方法 .首先,利用多头注意力机制将汉越跨境民族领域知识图谱融入查询和文档,丰富查询和文档中不常见的跨境民族领域实体信息;然后,引入对比学习来解决跨语言查询和文档的语义表征对齐困难问题;最后,将融入知识图谱的查询和文档表征之间的相似度计算作为相关性分数.实验表明,提出的方法和基线模型相比,性能提高了4.1%.
|
关 键 词: | 跨境民族文化 跨境民族知识图谱 跨语言检索 对比学习 信息检索 |
|