融合注意力机制的IETM细粒度跨模态检索算法期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

融合注意力机制的IETM细粒度跨模态检索算法

作者姓名：	翟一琛顾佼佼宗富强姜文志

作者单位：	海军航空大学岸防兵学院

摘要：	交互式电子手册是提高各类装备保障信息化、智能化的关键技术之一,针对其检索模态单一的问题,以其数据中图文描述为研究对象,提出一种融合注意力机制的细粒度跨模态检索算法。针对数据中图像简图较多、色彩单一等特点,特征提取模块使用Vision Transformer模型和Transformer编码器分别获得图文的全局和局部特征;使用注意力机制在图文模态间及模态内部挖掘细粒度信息,加入文本对抗训练增强模型泛化能力,采用跨模态联合损失函数对模型进行约束。在Pascal Sentence数据集和自建数据集上进行验证,所提方法的平均精度均值分别达到了0.964和0.959,较基准模型(深度监督跨模态检索)分别提升了0.248和0.214。
关键词：	交互式电子手册图文检索跨模态注意力机制