首页 | 本学科首页   官方微博 | 高级检索  
     检索      

基于BERT与主题模型联合增强的长文档检索模型
引用本文:覃俊,刘璐,刘晶,叶正,张泽谨.基于BERT与主题模型联合增强的长文档检索模型[J].中南民族大学学报(自然科学版),2023(4):469-476.
作者姓名:覃俊  刘璐  刘晶  叶正  张泽谨
作者单位:中南民族大学计算机科学学院&湖北省制造企业智能管理工程技术研究中心&农业区块链与智能管理湖北省工程研究中心
摘    要:尽管将BERT运用在Ad-hoc文档检索领域能够提升任务精确度,但也存在两个显著缺陷:第一,由于BERT存在输入限制,对长文档进行截断会导致文档信息丢失;第二,Ad-hoc文档检索任务的数据集中存在相当数量的领域特定词,而BERT不能较好地学习这些特定词的特征.而利用LDA主题模型不存在输入限制,可以表示完整的语义信息的优点,将其引入联合增强模型,且对文档中的领域特定词及语义内涵进行学习表征,弥补了BERT模型的不足.为此提出RWT-BERT联合增强模型通过对BERT和LDA主题模型的表征构建交互网络,对查询语句和长文档进行更深层次的特征挖掘.实验结果表明:该模型在3个数据集的主要指标上都有不同程度的提升,尤其在Core17数据集上,与目前效果最好的句子级Ad-hoc文档检索模型Birch相比,nDCG@20指标提高了4.01%.

关 键 词:文档检索  预训练模型  长文档  主题模型  信息检索
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号