首页 | 本学科首页   官方微博 | 高级检索  
     检索      

基于Involution算子和交叉注意力机制的合成语音检测方法
引用本文:邓泗波芦天亮彭舒凡刘晓文于子健.基于Involution算子和交叉注意力机制的合成语音检测方法[J].中国人民公安大学学报(自然科学版),2023(3):65-72.
作者姓名:邓泗波芦天亮彭舒凡刘晓文于子健
作者单位:1.中国人民公安大学信息网络安全学院100038;
基金项目:国家社会科学基金重大项目(21&ZD193)。
摘    要:随着科学技术的迅速发展,基于深度学习生成的合成语音给语音认证系统和网络空间安全带来了新的挑战。针对现有检测模型准确率较低和语音特征挖掘不够充分的问题,提出了一种基于Involution算子和交叉注意力机制改进的合成语音检测方法。前端将语音数据提取线性频率倒谱系数(LFCC)特征和恒定Q变换(CQT)谱图特征,两个特征分别输入到后端的双分支网络中。后端网络使用ResNet18作为主干网络先进行浅层的特征学习,并将Involution算子嵌入主干网络,扩大特征图像学习区域,增强在空间范围内学习到的频谱图像特征信息。同时在训练分支之后引入cross-attention交叉注意力机制,使LFCC特征和CQT谱图特征构建交互的全局信息,强化模型对特征的深层挖掘。所提模型在ASVspoof 2019 LA测试集上取得了0.84%的等错误率和0.026的最小归一化串联检测代价函数的实验结果,展现了优于主流的检测模型。结果表明,改进的模型能够有效融合不同的频谱特征,提高模型的特征学习能力,从而强化模型的检测能力。

关 键 词:合成语音检测  特征融合  Involution算子  注意力机制
本文献已被 维普 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号