首页 | 本学科首页   官方微博 | 高级检索  
     

基于语音与人脸参数化表示的跨模态稠密深度
引用本文:唐俊,牟海明,冷洁,李清都,刘娜. 基于语音与人脸参数化表示的跨模态稠密深度[J]. 重庆邮电大学学报(自然科学版), 2020, 32(5): 867-868
作者姓名:唐俊  牟海明  冷洁  李清都  刘娜
作者单位:上海理工大学 机器智能研究院,上海 200093;重庆邮电大学 自动化学院,重庆 400065
摘    要:
为了提高跨模态人脸表示与合成的性能,针对语音与人脸图像2种模态数据,提出一种基于人脸参数化表示与稠密深度网络相结合的面部生成方法。针对输入语音模态,通过对信号进行频谱变换,将一维时域信号转换到二维频率域,可提取频域上稳健的特征描述;针对输出图像模态,利用主动外观模型对不同面部区域独立建模以降低区域间的相关性,并提取紧凑的人脸参数化特征;为了获得有效的跨模态学习性能,提出采用稠密连接的深度卷积神经网络学习语音、图像2种模态的回归预测,并通过预测的人脸参数进行面部重构,所采用的深度网络模型可以加强特征传播与特征复用,有利于增强面部细节的合成。在2组音视频数据集上验证了提出方法的有效性。

关 键 词:跨模态学习  深度学习  卷积神经网络  参数化表示  语音  图像
收稿时间:2020-08-02
修稿时间:2020-09-18

Cross-modal learning based on speech and parameterized face representation using densely deep networks
TANG Jun,MOU Haiming,LENG Jie,LI Qingdu,LIU Na. Cross-modal learning based on speech and parameterized face representation using densely deep networks[J]. Journal of Chongqing University of Posts and Telecommunications, 2020, 32(5): 867-868
Authors:TANG Jun  MOU Haiming  LENG Jie  LI Qingdu  LIU Na
Affiliation:University of Shanghai for Science and Technology, Institute of Machine Intelligence, Shanghai, 200093, P. R. China;Chongqing University of Posts and Telecommunications, Institute of Automation, Chongqing, 400065, P. R. China
Abstract:
Keywords:
点击此处可从《重庆邮电大学学报(自然科学版)》浏览原始摘要信息
点击此处可从《重庆邮电大学学报(自然科学版)》下载全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号