首页 | 本学科首页   官方微博 | 高级检索  
     

基于多角度融合与联合记忆网络的视频问答认知模型
作者姓名:倪琴  刘双  余杨泽  林欣  邓赐平
作者单位:上海外国语大学 国际教育学院, 上海 201620;上海师范大学 信息与机电工程学院, 上海 201418;华东师范大学 计算机科学与技术学院, 上海 200062;华东师范大学 心理与认知科学学院, 上海 200062
基金项目:国家自然科学基金(6210020445);上海市自然科学基金(21ZR1446900,21511100102)
摘    要:为了解决现有视频问答模型认知推理能力不足的问题,引入旁观者记忆模块,提出了基于多角度融合与联合记忆网络的机器认知模型.该模型根据问题定位目标对象,获得视频中对应的区域特征,同时联合视频的运动特征和外观特征,通过加入时间注意力机制的门控循环单元,有效地融合问题特征和视频特征,用于答案的生成,以提高模型认知推理能力.实验结果表明:相比于现有的视频问答模型,该模型的准确率更高,尤其对于推理难度较大的信念推理问题,该模型体现出了更好的推理能力及泛化性能.

关 键 词:认知推理  注意力机制  记忆网络  视频问答
收稿时间:2024-04-22
点击此处可从《上海师范大学学报(自然科学版)》浏览原始摘要信息
点击此处可从《上海师范大学学报(自然科学版)》下载全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号