首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 93 毫秒
1.
提出一种基于MFCC和共振峰频率特征的汉语普通话口音识别方法.该方法首先提取Mel频率倒谱系数(MFCC)和共振峰频率特征作为混合高斯模型(GMM)的输入,然后采用期望最大化(EM)算法训练模型,对两种特征分别建模,最后采用基于最大似然准则(ML)的信息融合策略进行口音判别.实验数据库为7个地区的语音数据.经过交叉验证,该方法对于中国典型地区普通话口音的识别率达到85.61%,比单一使用MFCC特征或共振峰频率特征分别提高了6.62%和32.90%.  相似文献   

2.
结合高斯混合模型(GMM)和嗓音起始时间(VOT)特征的普通话音素发音错误检测,提出了一种结合语音声道特征信息和音源特征信息的发音错误检测方法。其中GMM用于反映声道特征信息的MFCC参数的建模与评测,并直接对大部分音素的发音质量直接进行错误检测。对于少数通过MFCC参数和GMM难于检测区分的辅音音素,则通过反映VOT信息的音源特征参数进行区分。实验表明,该方法在训练数据有限的情况下取得了较好的性能,非常适合用于聋人语言康复的计算机辅助训练。  相似文献   

3.
为提高说话人识别系统的识别率,提出了一种提取Mel频率倒谱系数(MFCC)与差分特征组合参数的方法:先对传统的MFCC参数进行特征分量归一化处理,提升MFCC系数的噪声鲁棒性;再用高斯混合模型(GMM)构建了说话人识别系统。使用TIMIT语音库进行实验测试,并比较了不同高斯混合数的MFCC特征参数组合对识别率的影响。结果表明:使用改进的MFCC混合参数明显地提高了说话人的识别率。  相似文献   

4.
抽取短时声学特征参数如MFCC、PLP,使用高斯混合模型(GMM)估计特征参数对应音素的概率分布的隐马尔可夫模型(HMM)在大词汇连续语音识别系统(LVCSR)已取得了良好识别效果.但短时特征却不能有效反应连续帧之间的相关特性,因此运用神经网络多层感知器(MLP)产生两类差异特征用于描述该帧的音素后验概率,并将其与传统特征复合为新的特征参数流,利用新特征流对GMHMM模型进行重构.对比实验结果表明,采用该混合声学特征的LVCSR系统其错字率(CER)有了3%~7%的改善.  相似文献   

5.
随着互联网以及社交网络的发展,电子相册逐渐成为应用广泛的基础服务之一,而如何提高相册的用户体验变得尤为重要.本文提出基于情感的家庭音乐相册自动生成研究,旨在解决为用户喜爱的音乐自动推荐与其情感表达相近的相册图片问题.本文从音乐和图像蕴含的情感出发,音乐上选取梅尔频率频谱系数(MFCC)和相关谱感知线性预测(RASTA-PLP)特征,图像上选取比较直观的颜色特征.在算法上使用了核化典型相关分析(KCCA)方法,该算法解决了图像特征与音乐特征之间异构和跨模态的特征融合问题,实现了音乐相册的自动生成.在实验中,客观评测结果表明,采用KCCA方法在查准率方面高于纯CCA方法;在主观评测中KCCA获得69.45%的满意度,与人工推荐的评价结果(78.09%)比较接近,高于随机推荐和CCA方法的满意度.  相似文献   

6.
根据Android应用在运行期的耗电时序波形与声波信号类似的特点,该文提出了一种基于Mel频谱倒谱系数(Mel frequency cepstral coefficients,MFCC)的恶意软件检测算法。首先计算耗电时序波形的MFCC,根据MFCC的分布构建Gauss混合模型(Gaussian mixture model,GMM)。然后采用GMM对电量消耗进行分析,通过对应用软件的分类处理识别恶意软件。实验证明:应用软件的功能与电量消耗关系密切,并且基于软件的电量消耗信息分析可以较准确地对移动终端的恶意软件进行检测。  相似文献   

7.
针对特定音频事件识别中持续时间特别短的音频事件漏检概率高、识别速度较慢的问题,提出一种融合高斯混合模型(GMM)及支持向量机(SVM)的特定音频事件识别算法. 该方法利用GMM的统计分布描述能力和SVM的推广泛化能力,将GMM和SVM分别识别的结果进行融合处理,以手枪、步枪、机关枪等10类以上枪声为实验数据,无需针对每种枪声生成相应的识别模板,仅需训练生成2个识别模板. 实验结果表明,识别准确率达到92.71%. 该方法模板数量少,不需要多次训练,算法复杂度较低,不仅便于应用而且可大幅提升识别效率.   相似文献   

8.
以Last.fm音乐网站上的用户标签为特征进行歌曲相似性计算研究,提出了一种基于Web标签挖掘的歌曲相似计算方法。从音乐网站Last.fm上抽取了用户标签作为音乐语义特征,通过潜在语义分析(latent semantic a-nalysis,LSA)方法对歌曲语义向量进行降维,并利用改进的K-means算法,根据音乐歌曲间的相似度对歌曲分类,完成了歌曲相似性计算。实验结果表明本文提出的基于LSA音乐语义标签模型的相似计算能取得较好的效果。  相似文献   

9.
针对生物特征模板涉及用户隐私而易受到各种攻击的问题,在定义随机映射形式化表示的基础上,结合主流文本无关说话人识别技术,提出了一种基于随机映射的声纹模板保护方法.在注册阶段,将声纹特征映射至随机空间再训练高斯混合模型(GMM),并存储模型参数作为模板;在认证阶段,待认证的声纹特征在相同的变换域与模型库进行匹配.文中还给出了该方法在认证性能保持和安全性方面的理论分析.实验结果表明,适当降维能在提高安全性的同时近似保持GMM的身份认证性能,而目前基于矢量量化的认证性能下降超过8%,说明随机映射更适用于基于GMM的声纹认证系统的模板保护.  相似文献   

10.
基于GMM全统计参数和SVM的文本无关话者确认   总被引:1,自引:0,他引:1  
针对电话语音条件下的文本无关话者确认,提出了一种基于GMM(Gaussian mixturemodel)全统计参数和SVM(support vector machine)的话者确认方法,以克服语音特征参数直接建立SVM话者模型面临的困难.该方法使用由GM(general model)自适应均值得到的GMM提取统计参数,定义了一种合理利用全部统计参数的特征参数,并以此参数及线性核函数建立了具有良好性能的SVM话者模型.与GMM-UBM方法及另一种基于GMM统计参数和SVM的方法在NIST05SRE数据库中的实验比较,结果表明基于GMM全统计参数和SVM的话者确认方法拥有优异的性能.  相似文献   

11.
As a subfield of Multimedia Information Retrieval(MIR), Singer IDentification(SID) is still in the research phase. On one hand, SID cannot easily achieve high accuracy because the singing voice is difficult to model and always disturbed by the background instrumental music. On the other hand, the performance of conventional machine learning methods is limited by the scale of the training dataset. This study proposes a new deep learning approach based on Long Short-Term Memory(LSTM) and Mel-Frequency Cepstral Coefficient(MFCC) features to identify the singer of a song in large datasets. The results of this study indicate that LSTM can be used to build a representation of the relationships between different MFCC frames. The experimental results show that the proposed method achieves better accuracy for Chinese SID in the MIR-1 K dataset than the traditional approaches.  相似文献   

12.
针对基于音乐作品信息的音乐作品个性化推荐及协同过滤方法的不足,通过分析音乐作品需求者的音乐试听数据及下载数据,并结合LDA(latent Dirichlet allocation)主题挖掘模型,提出一种基于LDA-MURE模型的推荐算法.实验结果表明,与基于音乐作品需求者的协同过滤算法和基于音乐属性项目的协同过滤算法相比,LDA-MURE算法可更高效地向音乐作品需求者推荐感兴趣的音乐作品.  相似文献   

13.
目前的音乐推荐系统,一般采用基于个体兴趣的推荐方法,这种方式虽然能满足大部分情景下的用户需求,但无法感知到用户实时性的心情变化。考虑到不同情绪状态下用户对于音乐的需求往往也会发生改变,提出一种基于双向情感分析的算法并构建了实际系统,实时分析用户的情感需求来进行音乐推荐。一方面基于音乐在频域的梅尔倒谱系数构建特征分类器完成歌曲的情感分类;另一方面通过获取用户在社交网络中的实时文本信息,基于自然语言理解分析出用户当前的情感需求,最终为用户产生音乐推荐列表,实现基于情境感知的实时音乐推荐。实验表明,使用该个性化推荐算法具有更高的准确性,用户群体可以获得更为满意的用户体验。  相似文献   

14.
传承民歌、弘扬民歌、发展民歌是振兴中国民族音乐的重要内容,在高师声乐小组课中通过感受民歌、探究民歌,表现民歌三方面教学,提出以民歌教学为主要内容的高师声乐小组课模式的可行性及现实意义。  相似文献   

15.
提出了一种高效心理声学模型语音质量评价(EPM-SQE)算法.该算法采用12阶美尔倒谱参数(MFCC)作为语音信号特征向量,其空间复杂度小于巴克谱.对MFCC进行相对谱(RASTA)滤波,可以突出快变信号对听觉感知的影响.将滤波后的参数映射为响度,由此模拟人的感知过程.计算原始语音和受损语音响度之问的感知扰动,并依次在频域和时域进行聚合,从而获得单一的扰动值,该值再经认知模型计算,可以得到最终的客观评分.实验表明,所提算法的平均运行时间比国际电信联盟提出的语音质量感知评价算法减少了41%,内存占用降低了51%,而仅比主观评价的相关度下降6.8%.  相似文献   

16.
歌曲欣赏教学是音乐教学的一项重要内容,是音乐教育的重要组成部分,它在开发学生智力、陶冶学生高尚的道德情操和培养学生良好气质等方面都有不可忽视的积极作用。本文从自身的教学实践出发,通过对同类主题对比歌曲欣赏教学方法的实例阐述来与广大音乐教育工作者交流歌曲欣赏的教学经验。  相似文献   

17.
针对应用高斯混合模型(GMM)进行视频建模与分割时的模型选择及参数估计初值选择的难点,提出了一种基于GMM的视频对象分割算法.首先进行特征提取,在特征矢量中引入加权运动信息,可根据不同需要选择合理的加权系数,然后通过分割投影进行模型选择及期望最大化(EM)算法的参数初始化并估计参数,这种初值选择方案使得EM算法的初值和真实值较接近,加快了迭代运算的收敛速度,从而提高了视频对象的分割速度,最后对特征矢量进行聚类分割.仿真实验表明,在保持良好分割效果的同时,所提算法的运算速度约为常规方案的76%,并且具有良好的稳定性.  相似文献   

18.
为了帮助发音困难者障碍者和外语学习者矫正普通话发音错误,提出基于Mel频率倒谱系数(Mel frequencycepstrum coefficient,MFCC)特征比较和模拟退火-遗传算法(simulated annealing genetic algorithm,SAGA)的普通话音素评分模型。该模型采用动态时间弯折(dynamic timewarping,DTW)算法对普通话音素进行相似度比对,并基于SAGA评分机制对发音进行自动评分。本文对比了不同优化算法(SAGA和局部优化算法)、不同DTW算法对语音评分的影响。结果发现:SAGA评分模型下的音素评分正确率大于94%,远远优于局部优化算法。此外,在SAGA评分模型下,搜索路径为平行四边形的改进DTW算法具有最优的评分结果。因此,基于MFCC和SAGA的评分模型适用于普通话音素评分。  相似文献   

19.
基于正交混合Gauss模型的脱机手写数字识别   总被引:6,自引:0,他引:6  
在基于统计方法的脱机手写数字识别中 ,为更加有效地描述特征的类条件概率分布 ,设计出性能优良的 Bayes分类器 ,采用了混合 Gauss模型。为减少模型的参数 ,通常假设各 Gauss分量的协方差矩阵为对角阵。由于各维特征之间统计相关 ,因此需要大量的 Gauss分量才能较好地描述特征的类条件概率分布 ,使得混合模型的阶数较高。为降低模型的阶数 ,采用了正交混合 Gauss模型 ,即先对各类别的特征分别进行 KL 变换 ,再将变换后的特征用混合 Gauss模型来表示。其中混合 Gauss模型的参数可以通过 EM算法进行估计。最后 ,在 NIST (National Institute of Standards andTechnology)手写数字样本集上对该方法的识别性能进行了验证  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号