摘 要: | 表情和声音等微观情绪需近距离交互采集。为了将空间尺度大、数据容易获取的姿态信息作为情绪表达的载体,提出一种基于引导-对齐模块的情绪推理方法。其中引导模块借助面部关键点指导姿态特征的提取,进行帧图像二级筛选;首先提取出同时包含面部关键点和人体姿态的帧图像,通过对每帧图像的欧氏度量筛选保留符合要求的人体姿态帧图像,实现面部特征引导姿态特征的提取;通过特征对数归一化实现姿态对齐模块,姿态特征与面部特征、环境特征共同构成视觉特征,将视觉特征、文本特征和语音特征进行多模态特征融合。实验结果表明,该方法在MEmo R数据集上的Micro-F1达到48.86%,一定程度上提升了多模态情绪推理能力。
|