基于BERT与主题模型联合增强的长文档检索模型 |
| |
引用本文: | 覃俊,刘璐,刘晶,叶正,张泽谨.基于BERT与主题模型联合增强的长文档检索模型[J].中南民族大学学报(自然科学版),2023(4):469-476. |
| |
作者姓名: | 覃俊 刘璐 刘晶 叶正 张泽谨 |
| |
作者单位: | 中南民族大学计算机科学学院&湖北省制造企业智能管理工程技术研究中心&农业区块链与智能管理湖北省工程研究中心 |
| |
摘 要: | 尽管将BERT运用在Ad-hoc文档检索领域能够提升任务精确度,但也存在两个显著缺陷:第一,由于BERT存在输入限制,对长文档进行截断会导致文档信息丢失;第二,Ad-hoc文档检索任务的数据集中存在相当数量的领域特定词,而BERT不能较好地学习这些特定词的特征.而利用LDA主题模型不存在输入限制,可以表示完整的语义信息的优点,将其引入联合增强模型,且对文档中的领域特定词及语义内涵进行学习表征,弥补了BERT模型的不足.为此提出RWT-BERT联合增强模型通过对BERT和LDA主题模型的表征构建交互网络,对查询语句和长文档进行更深层次的特征挖掘.实验结果表明:该模型在3个数据集的主要指标上都有不同程度的提升,尤其在Core17数据集上,与目前效果最好的句子级Ad-hoc文档检索模型Birch相比,nDCG@20指标提高了4.01%.
|
关 键 词: | 文档检索 预训练模型 长文档 主题模型 信息检索 |
|
|