首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到16条相似文献,搜索用时 109 毫秒
1.
提出一种基于隐马尔可夫模型和支持向量机混合模型的音频分类方法,用于语音、音乐、语音+音乐、静音4类音频分类。首先利用4个HMM分类器对音频进行初步分类,确定最可能的两种音频分类结果,再用相应的SVM分类器做最终判决。实验结果表明,隐马尔可夫模型和支持向量机的两级分类器分类性能较好。  相似文献   

2.
通过对同一首歌曲音频信号的特征分析,提出了一种基于音频片段平均短时能量和过0率标准偏差的融合判决方法. 该方法解决了纯音乐与语音-音乐混合片段识别易混度高的问题,可以准确地识别同一首歌曲中纯音乐片段和语音-音乐混合片段,为去除音频中不需要的部分提供一种有效的预处理方法,并且可以更好地提高数据处理的效率和性能. 实验结果表明,通过对不同风格、不同歌手以及不同语言的歌曲处理,纯音乐的平均正确率为92.30%,语音-音乐混合的平均正确率为96.36%.  相似文献   

3.
基于小波变换和支持向量机的音频分类   总被引:1,自引:0,他引:1  
音频特征提取是音频分类的基础,而音频分类又是基于内容的音频检索的关键。使用小波变换和支持向量机的方法对音频进行分类。研究了小波变换域的音频特征提取,分析了这些特征在小波变换域中的意义。把得到的特征向量作为支持向量机的输入,把音频分成纯语音、带背景音乐的语音、音乐、环境音4种类型。实验结果表明,基于小波域的特征计算简单、能够较好地区分不同的音频类型,得到较高的分类精度。  相似文献   

4.
通过对同一首歌曲音频信号的特征分析,提出了一种基于音频片段平均短时能量和过0率标准偏差的融合判决方法.该方法解决了纯音乐与语音-音乐混合片段识别易混度高的问题,可以准确地识别同一首歌曲中纯音乐片段和语音-音乐混合片段,为去除音频中不需要的部分提供一种有效的预处理方法,并且可以更好地提高数据处理的效率和性能.实验结果表明,通过对不同风格、不同歌手以及不同语言的歌曲处理,纯音乐的平均正确率为92.30%,语音-音乐混合的平均正确率为96.36%.  相似文献   

5.
运用深度置信网络进行语音/音乐识别,根据语音段中高频能量低于音乐段中高频能量的特点,对音频能量谱的高频部分进行学习,从而判别语音段或音乐段,MATLAB仿真实验结果验证了该方法的有效性和准确度.  相似文献   

6.
针对语音/音乐分类过程中由于特征参数提取过多造成的维数灾难及分类准确率有待提高等问题,提出了一种基于过零率及频谱的语音/音乐分类算法.该算法在对语音及音乐2类信号进行端点检测及分段预处理后,结合每一音频段的过零率和频谱幅值特性进行分类识别处理,最后通过计算被判别为语音或音乐的概率实现分类.实验结果表明,此算法在音频分类中较同样最多只提2个音频特征且未用分类器算法的准确率平均提高约7.9%,较提取多个音频特征且采用分类器算法的准确率平均提高约5.7%.证明了该算法不仅计算量小,且分类准确率也有所提高.  相似文献   

7.
音频分类是音频信号处理中一项重要的预处理工作.该文描述了一种基于能量的分类方法,将音频信号分为语音和音乐2种类型.分类的过程分为3个阶段,首先计算优化低能量率MLER(modifiedlow energy ratio)作为特征,然后利用初级分类器得到初步分类的结果,最后利用音频类别的前后相关性,使用上下文分类器修正初始分类得到最终分类的结果.该文重点对MLER中参数的合理选取范围进行了讨论,并对传统的初始分类器作了改进,用非参数分类器和参数分类器代替原有的Bayes硬判决的方法,避免了由于门限选择不当所带来的分类错误.实验表明,使用参数分类器时,对纯语音和纯音乐分类效果很好,正确率达99%以上.  相似文献   

8.
基于编程语言及仿真软件SystemView分析了ZigBee语音通信系统中G.726音频压缩算法和O-QPSK调制方式的实现。首先对输入的语音数据进行音频压缩编码,利用了G.726音频压缩算法,该算法简单,语音质量高,能够在低比特率上达到网络等级的话音质量,从而在语音存储和语音传输领域得到广泛应用。对处理后的数据进行O-QPSK调制,通过SystemView对其进行仿真,从而进一步证明ZigBee技术在语音通信中的可实现性。  相似文献   

9.
按照MEPG-7的音频特征规范,设计了帧层次和段层次上的音频特征提取算法.在深入分析足球比赛中各类音频信息的不同特点的基础上,通过有针对性地选取特征,构造特征向量,设计并实现了一种基于决策树的层次化分类算法.该算法可以自动将足球比赛中的音频信息分为噪音、解说员语音、哨音、欢呼声和带背景音的解说员语音等5个类别.实验表明:该算法提取的特征有效,分类效果良好.  相似文献   

10.
光纤语音传输是以光波为信息载体,以光纤为传输媒介的一种新型通信方式。提出了一种基于光通信语音传输系统的设计方案,该设计以光纤通信技术为核心,进行语音传输系统中音频信号产生、话路滤波、音频放大、数据采集单元的电路设计。提供了系统各个组成单元的优化选择以及最终的设计方法。  相似文献   

11.
目的构造音乐情感分类器,为计算机理解情感提供途径。方法首先分析现有音乐情感模型,然后提取音乐情感特征并采用神经网络构造音乐情感分类器,最后采用相关反馈对分类结果进行标注并进一步训练分类器,直至训练样本的错误分类率在一定误差范围内。结果对测试样本进行情感分类,达到了最高89%的分类准确率,实现了音乐情感分类器的构建和音乐片断的情感标注。结论研究成果是音乐情感检索的基础工作,也可用于其他音频的情感识别和分类。  相似文献   

12.
音乐流派的自动分类是音乐信息检索系统的重要组成部分.将听觉图像引入音乐流派的分类研究中,用听觉图像模型模拟人耳耳蜗结构,基于音乐流派分类研究常用的GTZAN数据库,将一维音频信号转换为二维听觉图像,对音乐听觉图像进行尺度不变特征转换(SIFT)及空间金字塔匹配(SPM),从局部到整体地提取图像的纹理特征,最后采用LibSVM中线性核函数的支持向量机对音乐流派进行分类.实验结果表明,与同样基于人耳耳蜗结构提出的美尔频率倒谱系数(MFCC)流派分类方法相比,基于听觉图像的流派分类正确率提高15%.  相似文献   

13.
Stream Weight Training Based on MCE for Audio-Visual LVCSR   总被引:2,自引:0,他引:2  
In this paper we address the problem of audio-visual speech recognition in the framework of the multi-stream hidden Markov model. Stream weight training based on minimum classification error criterion isdiscussed for use in large vocabulary continuous speech recognition (LVCSR). We present the lattice rescoring and Viterbi approaches for calculating the loss function of continuous speech. The experimental results show that in the case of clean audio, the system performance can be improved by 36.1% in relative word error rate reduction when using state-based stream weights trained by a Viterbi approach, compared to an audio only speech recognition system. Further experimental results demonstrate that our audio-visual LVCSR system provides significant enhancement of robustness in noisy environments.  相似文献   

14.
基于MDCT域特征的MP3音乐分类   总被引:1,自引:0,他引:1  
音乐分类是将用户输入的音乐信号与音乐库中的音乐文件进行匹配,找出相应的类别.传统的MP3分类的研究大多先把MP3文件解压缩到PCM文件,然后在PCM文件上进行特征提取,这种方法存在的问题是处理速度比较慢.本文中借鉴语音识别技术,提出了基于MDCT域的MP3音乐特征片段提取方法,然后利用MDCT域上的音乐片段特点表示MP3音乐特征属性,最后采用适应性较强的学习分类器对已经提取的音乐特征向量进行分类.实验先通过对4个歌手100首歌的学习,然后对未知20首歌进行分类,识别演唱歌手平均准确度达80%.  相似文献   

15.
16.
在机器听觉领域中,语音信号处理与识别早已成为一个传统的研究热点;随着信息科学与技术的迅速发展,音频与音乐信号分析也逐渐成为一个新的研究热点。乐器识别是音乐分析的一个重要应用,其主要的研究方向是基于声学特征的识别,近年来,在该领域有众多研究成果出现。文章对十多年来在基于声学特征的乐器识别领域所取得的研究成果进行综述,总结乐器识别技术常用的声学特征和识别方法。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号