基于多尺度特征融合的语音频带扩展 |
| |
引用本文: | 许春冬,朱诚,应冬文,董桂官.基于多尺度特征融合的语音频带扩展[J].华中科技大学学报(自然科学版),2023(9):132-139. |
| |
作者姓名: | 许春冬 朱诚 应冬文 董桂官 |
| |
作者单位: | 1. 江西理工大学信息工程学院;2. 中国科学院大学电子电气与通信工程学院;3. 中国电子技术标准化研究院 |
| |
基金项目: | 国家自然科学基金资助项目(11864016); |
| |
摘 要: | 针对现有的深度学习模型在语音频带扩展领域数据特征利用不充分、训练周期长以及生成语音质量不高等问题,提出了一种新型的端到端神经网络模型,该模型通过融合不同数据维度特征促使网络模型利用更少的数据特征量,获取更多的低高频映射关系解,从而减少模型的整体训练周期.为了提高长时序数据中关键特征的权重占比,设计了一种残差多头自注意力机制,从而达到数据特征利用率的最大化.此外,提出了一种基于时频域和Mel频谱的混合损失函数对模型进行优化.实验结果表明:该方法重构的宽带语音在主客观的评价中均优于传统方法和近年来的一些基于神经网络的语音频带扩展方法.
|
关 键 词: | 语音频带扩展 深度学习 自注意力机制 时频感知损失函数 |
|
|