视觉-语言多模态预训练模型前沿进展期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

视觉-语言多模态预训练模型前沿进展

作者姓名：	朱若琳蓝善祯朱紫星

作者单位：	中国传媒大学信息与通信工程学院

基金项目：	国家重点研发计划（2018YFB1404103）；

摘要：	近年来，多模态预训练学习在视觉-语言任务上蓬勃发展。大量研究表明，多个模态特征的表征学习预训练有利于视觉-语言下游任务的效果提升。多模态表征预训练旨在采用自监督的学习范式，包括对比学习，掩码自监督等，在大规模的图文相关性数据上进行训练，通过学习模态自身与模态间的知识先验，使模型获得通用的、泛化性较强的视觉表征能力。后BERT时代，本文介绍了视觉多模态领域基于Transformer的相关工作；对主流多模态学习方法的发展脉络进行梳理，分析了不同方法的优势和局限性；总结了多模态预训练的各种监督信号及其作用；概括了现阶段主流的大规模图像-文本数据集；最后简要介绍了几种相关的跨模态预训练下游任务。
关键词：	多模态预训练视觉-语言预训练表征学习