基于自注意力机制的多模态场景分类 |
| |
引用本文: | 常月,侯元波,谭奕舟,李圣辰,邵曦.基于自注意力机制的多模态场景分类[J].复旦学报(自然科学版),2023(1):46-52. |
| |
作者姓名: | 常月 侯元波 谭奕舟 李圣辰 邵曦 |
| |
作者单位: | 1. 南京邮电大学通信与信息工程学院;2. 比利时根特大学信息技术学院;3. 北京邮电大学国际学院;4. 西交利物浦大学先进工程学院 |
| |
摘 要: | 针对真实环境场景会同时出现多种事件导致场景分类准确率受到干扰信息影响的问题,本文提出了一种基于自注意力机制的多模态场景分类方法。首先,对音频进行特征提取并使用自注意力机制获得关注信息;然后,对视频进行分帧图片抽取,通过ResNet 50对图片特征进行提取;最后,将两个模态的特征进行拼接并再次使用自注意力机制对特征信息进行抓取分类。基于DCASE2021 Challenge Task 1B数据集的实验结果表明,与其基线系统、双模态信息简单拼接、视频辅助音频和音频辅助视频的分类系统相比,基于自注意力机制的多模态场景分类系统的准确率优于单模态互相辅助决策的场景分类系统。
|
关 键 词: | 视听场景分类 自注意力机制 多模态融合 辅助学习 |
|
|