基于深度监督学习的零样本跨模态检索方法 |
| |
引用本文: | 曾素佳,庞善民,郝问裕.基于深度监督学习的零样本跨模态检索方法[J].西安交通大学学报,2022(11):156-166. |
| |
作者姓名: | 曾素佳 庞善民 郝问裕 |
| |
作者单位: | 西安交通大学电子与信息学部 |
| |
基金项目: | 国家自然科学基金资助项目(61972312);;陕西省重点研发计划资助项目(2020GY-002); |
| |
摘 要: | 针对当前零样本跨模态检索的研究中未兼顾类别匹配和对应匹配的问题,提出一种基于深度监督学习的零样本跨模态检索方法。对3种类型的图文数据对进行了区分,分别是来自同一类别并且匹配的数据对,来自同一类别但不匹配的数据对,以及来自不同类别的数据对;在保持图文类别匹配关系的条件下,为了进一步实现两者的对应匹配,构造了两种基于掩码的匹配约束条件,一种是隐藏同一类别但不匹配的另一模态数据,约束不同类别的图文数据之间的匹配关系,另一种是隐藏其他类别的另一模态数据,约束同一类别内的图文数据之间的对应匹配关系;通过对齐视觉空间和语义空间中对应特征的分布结构,再次约束图文间的类别匹配和对应匹配关系;为了增强文本语义的表征能力,以注意力池化从词序列特征中获得语义显著的句子深度表征。实验结果表明,在CUB数据集上,所提方法对图像检索文本和文本检索图像的效果相较基线模型分别提升了5.9%和2.2%;在FLO数据集上的检索效果分别比现阶段表现最佳的方法高4.2%和1.7%。
|
关 键 词: | 零样本 跨模态检索 匹配 注意力 |
|
|