首页 | 本学科首页   官方微博 | 高级检索  
     

基于颜色通道特征融合的环境声音分类方法
作者姓名:董绍江  夏蒸富  方能炜  邢镔  胡小林
作者单位:1. 重庆交通大学机电与车辆工程学院;2. 重庆工业大数据创新中心有限公司
基金项目:国家自然科学基金(No.51775072);
摘    要:针对传统神经网络提取的复杂环境声音特征微弱,导致分类准确率低的问题,提出了一种基于颜色通道特征融合的环境声音分类方法。首先,从原始音频数据中提取出三种声音特征,即对数梅尔频谱图(log-Mel spectrogram, LMS)、梅尔倒谱系数(Mel-scale frequency cepstral coefficients, MFCC)以及能量谱图(energy spectrum, ES);其次,分别将以上三者作为RGB颜色通道分量进行特征融合,形成包含更多特征信息的声谱图,更全面表征环境声音;再次,为了避免由于数据集较少导致所训练的模型泛化能力较差,对预训练模型VGG-16采用微调方法进行训练;最后,在两个广泛使用的环境声音分类数据集以及实际场景采集的音频上验证本文所提方法的有效性,并与其他模型的准确率进行对比。结果表明,本文所提方法在ESC-10以及ESC-50数据集上的准确率分别能够达到88.2%和65.2%,并且能提高实际场景采集的音频分类效果。

关 键 词:RGB颜色通道  特征融合  微调训练  环境声音分类  预训练模型
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号