首页 | 本学科首页   官方微博 | 高级检索  
     检索      

基于通道和帧级特征注意力模型的环境声音识别
引用本文:苏瑞轩,葛动元,姚锡凡.基于通道和帧级特征注意力模型的环境声音识别[J].科学技术与工程,2024,24(16):6792-6798.
作者姓名:苏瑞轩  葛动元  姚锡凡
作者单位:广西科技大学机械与汽车工程学院,柳州;华南理工大学机械与汽车工程学院,广州
基金项目:基于机器学习的精密检测若干关键技术研究(No.517650,国家自然科学基金)
摘    要:本文提出基于通道和帧级特征注意力的环境声音分类卷积神经网络模型。模型选择一维卷积对环境声音的二维对数梅尔谱特征进一步提取有效特征,再采用SE-Res2Net模块实现对浅层输入特征细粒度上的全局感受并获得通道注意力分数。在全连接层之前加入注意力统计池化,对输入的通道加权特征在帧级特征上施加注意力机制,获得不同时刻的帧级特征的重要度分数,加权计算后将不同通道的平均值μ和方差σ串联作为输出。采用Urbansound8K数据集对模型进行评估,实验最终在测试集达到94.5%的准确率,其表明本文所提模型可以学习到不同类声音的关键特征并正确分类。为进一步证明模型性能进行消融实验,分析实验结果可得对声音特征施加通道和帧级特征的注意力机制可使模型分类错误率的下降率为43.8%。

关 键 词:声音识别    细粒度    通道加权    帧级特征    注意力统计池化
收稿时间:2023/5/5 0:00:00
修稿时间:2024/3/6 0:00:00

Environmental sound recognition based on channel and frame-level feature attention model
Su Ruixuan,Ge Dongyuan,Yao Xifan.Environmental sound recognition based on channel and frame-level feature attention model[J].Science Technology and Engineering,2024,24(16):6792-6798.
Authors:Su Ruixuan  Ge Dongyuan  Yao Xifan
Institution:College of Mechanical and Automotive Engineering,Guangxi University of Science and Technology,Liuzhou ,China; School of Mechanical and Automotive Engineering,South China University of Technology,Guangzhou ,China
Abstract:
Keywords:sound recognition    fine-grained    channel weighting    frame-level features    attention statistics pooling
点击此处可从《科学技术与工程》浏览原始摘要信息
点击此处可从《科学技术与工程》下载免费的PDF全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号