基于多角度融合与联合记忆网络的视频问答认知模型期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

基于多角度融合与联合记忆网络的视频问答认知模型

作者姓名：	倪琴刘双余杨泽林欣邓赐平

作者单位：	上海外国语大学国际教育学院, 上海 201620;上海师范大学信息与机电工程学院, 上海 201418;华东师范大学计算机科学与技术学院, 上海 200062;华东师范大学心理与认知科学学院, 上海 200062

基金项目：	国家自然科学基金（6210020445）;上海市自然科学基金（21ZR1446900,21511100102）

摘要：	为了解决现有视频问答模型认知推理能力不足的问题,引入旁观者记忆模块,提出了基于多角度融合与联合记忆网络的机器认知模型.该模型根据问题定位目标对象,获得视频中对应的区域特征,同时联合视频的运动特征和外观特征,通过加入时间注意力机制的门控循环单元,有效地融合问题特征和视频特征,用于答案的生成,以提高模型认知推理能力.实验结果表明：相比于现有的视频问答模型,该模型的准确率更高,尤其对于推理难度较大的信念推理问题,该模型体现出了更好的推理能力及泛化性能.
关键词：	认知推理注意力机制记忆网络视频问答
收稿时间：	2024-04-22

	点击此处可从《上海师范大学学报(自然科学版)》浏览原始摘要信息
	点击此处可从《上海师范大学学报(自然科学版)》下载全文