首页 | 本学科首页   官方微博 | 高级检索  
     

基于多流卷积和数据增强的声场景分类方法
引用本文:曹毅,费鸿博,李平,张小勇. 基于多流卷积和数据增强的声场景分类方法[J]. 华中科技大学学报(自然科学版), 2022, 50(4): 40-46. DOI: 10.13245/j.hust.220407
作者姓名:曹毅  费鸿博  李平  张小勇
作者单位:江南大学机械工程学院,江苏无锡214122,江南大学江苏省食品先进制造装备技术重点实验室,江苏无锡214122
基金项目:高等学校学科创新引智计划资助项目;江苏省六大人才高峰计划资助项目;江苏省优秀科技创新团队基金资助项目
摘    要:针对单特征输入时,现有声场景分类方法分类准确率不高且泛化能力不强的问题,提出了一种基于多流卷积和数据增强的声场景分类方法.首先,介绍了卷积神经网络和混合数据增强的基本原理;其次,基于网络并行输入理论,设计了一种多流卷积神经网络模型以期实现多流特征融合,其由特征提取模块和特征融合模块组成;然后,为进一步提升模型的准确率并降低模型过拟合的概率,提出了一种多维混合数据增强方法以实现特征数据的平滑处理;最后,采用9种特征组合方案,基于Urbansound8K,ESC50和ESC10数据集分别开展了声场景分类实验.实验结果表明:模型的准确率分别为88.29%,77.75%和96.25%,验证了当使用该方法进行声场景分类研究时,模型具有较高的准确率和较强的泛化能力.

关 键 词:声场景分类  多流特征融合  多流卷积神经网络  过拟合  多维混合数据增强

Acoustic scene classification method based on multi-stream convolution and data augmentation
CAO Yi,FEI Hongbo,LI Ping,ZHANG Xiaoyong. Acoustic scene classification method based on multi-stream convolution and data augmentation[J]. JOURNAL OF HUAZHONG UNIVERSITY OF SCIENCE AND TECHNOLOGY.NATURE SCIENCE, 2022, 50(4): 40-46. DOI: 10.13245/j.hust.220407
Authors:CAO Yi  FEI Hongbo  LI Ping  ZHANG Xiaoyong
Abstract:
Keywords:
本文献已被 万方数据 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号