基于多角度融合与联合记忆网络的视频问答认知模型 |
| |
作者姓名: | 倪琴 刘双 余杨泽 林欣 邓赐平 |
| |
作者单位: | 上海外国语大学 国际教育学院, 上海 201620;上海师范大学 信息与机电工程学院, 上海 201418;华东师范大学 计算机科学与技术学院, 上海 200062;华东师范大学 心理与认知科学学院, 上海 200062 |
| |
基金项目: | 国家自然科学基金(6210020445);上海市自然科学基金(21ZR1446900,21511100102) |
| |
摘 要: | 为了解决现有视频问答模型认知推理能力不足的问题,引入旁观者记忆模块,提出了基于多角度融合与联合记忆网络的机器认知模型.该模型根据问题定位目标对象,获得视频中对应的区域特征,同时联合视频的运动特征和外观特征,通过加入时间注意力机制的门控循环单元,有效地融合问题特征和视频特征,用于答案的生成,以提高模型认知推理能力.实验结果表明:相比于现有的视频问答模型,该模型的准确率更高,尤其对于推理难度较大的信念推理问题,该模型体现出了更好的推理能力及泛化性能.
|
关 键 词: | 认知推理 注意力机制 记忆网络 视频问答 |
收稿时间: | 2024-04-22 |
|
| 点击此处可从《上海师范大学学报(自然科学版)》浏览原始摘要信息 |
|
点击此处可从《上海师范大学学报(自然科学版)》下载全文 |
|