期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

肖熙徐晨《清华大学学报(自然科学版)》2019,(6)

语音识别GMM-HMM (Gaussian mixture modelhidden Markov model)在使用最大似然状态序列(most likely state sequence,MLSS)准则得到观测量的最佳状态序列时,只考虑了具有语音帧最大似然值的状态信息,而忽略了其他次优状态对当前帧的影响,造成信息的丢失,从而降低了系统识别率。为更好地利用声学状态的似然值信息,该文提出了声学状态似然值得分模型和监督状态模型,并基于以上模型得到了状态似然聚类特征(state likelihood cluster feature,SLCF)、监督状态特征(supervised state feature,SSF)。这2种特征反映了MFCC (Mel frequency cepstrum coefficient)声学特征关于HMM状态的一种信息。实验表明,将SLCF、SSF分别与MFCC融合,新的特征可提高语音识别效果。融合了SLCF、SSF后,与GMMHMM只使用MFCC相比,孤立字识别系统的总错误率分别相对下降了6.10%、9.66%,连续语音识别系统的总错误率分别相对下降了2.53%、11.05%。相似文献

2.

基于REMOS的远距离语音识别模型补偿方法

杨勇李劲松孙明伟《重庆邮电大学学报(自然科学版)》2014,26(1):117-123

封闭环境中远距离语音识别会受到混响效果的影响,从而降低语音识别率。混响建模(reverberation modeling for speech recognition,REMOS)是一种在模型域进行混响补偿的新方法,该方法在已知声源位置的情况下能有效提升远距离语音识别精度。但在实际应用中,往往难以预测声源的位置。利用最大后验概率的原理,基于对房间不同区域进行有区别补偿的思想,在按帧的隐马尔可夫模型 (hidden Markov model,HMM)补偿的基础上,提出一种在封闭环境中新的模型补偿方法。该方法利用K均值聚类K-means算法对房间冲击响应 (room impulse response,RIR)的优化集进行聚类,对所属相同类的混响模型进行合并处理,再把合并后的混响模型载入维特比算法中,对清晰语音的HMM模型进行按帧补偿。最后采用后验概率方法选择最佳补偿,使得模型域的混响补偿能最接近精确补偿。实验证明,该方法能进一步提升远距离语音识别的精度。相似文献

3.

语音识别中基于模糊聚类分析的参数聚类 总被引：1，自引：0，他引：1

徐向华朱杰郭强《上海交通大学学报》2004,38(12):2086-2088,2093

为减少语音识别中声学模型的参数量，提高参数训练的鲁棒性，基于声学决策树结构，提出利用模糊聚类分析方法对模型参数聚类，包括高斯聚类和方差共享．对大词汇量汉语连续语音识别的实验结果表明：高斯模糊聚类使高斯数减少25％时，识别率提高了0．15％．进一步做模糊方差共享，当方差减少到初始模型的24％，与同样参数量的未进行聚类的模型相比，误识率下降了3．01％，证明了模糊聚类分析在语音参数聚类中的有效性．相似文献

4.

电话语音的多说话人分割聚类研究 总被引：2，自引：0，他引：2

张薇刘加《清华大学学报(自然科学版)》2008,48(4):574-577

为了提高电话多人语音中提取的单人语音纯度,即多说话人分割聚类处理的性能,该文在传统的分步分割聚类算法机制上增加了重分割处理,提出逐级算法增强处理机制: 在分割部分,该文提出了一种基于Bayesian信息准则的分割算法,融合基于不同距离测度检测得出的分割点提高了分割点检测率;在聚类部分提出了基于BIC和交叉似然比准则(CLR)的分层聚类算法;在重分割部分引入和改进了进化隐Markov模型算法精化分割结果.该文在美国国家标准技术局(NIST) 1998年度多说话人识别数据库上进行实验,聚类后性能"类纯度"比传统算法提高了10%. 相似文献

5.

MLLR特征的SVM语种识别算法

钟山刘加《清华大学学报(自然科学版)》2009,(Z1)

为了挖掘更多语种间区分性信息进行可靠的自动语种识别,本文提出一种将自适应领域的最大似然线性回归(maximum likelihood linear regression,MLLR)矩阵作为特征的语种识别算法。该算法首先对每个语种训练Gauss混合模型(Gaussian mixture model,GMM),然后对每个语音段在所有语种的GMM上计算MLLR矩阵。将得到的多类MLLR矩阵经归一化后拼接形成超矢量作为特征输入支持向量机(support vector machine,SVM)分类器进行训练和识别。比较了均值方差和排序两种归一化方法,并将多类MLLR-SVM算法与传统GMM语种识别算法进行对比。实验表明:排序归一化算法优于传统的均值方差归一化;建立在GMM模型基础上的MLLR-SVM系统性能有9.7%的提升,并与GMM分类器有很强的互补性。相似文献

6.

基于组合神经网络和模糊聚类的话者分类 总被引：2，自引：0，他引：2

戴蓓倩朱斌《中国科学技术大学学报》1997,27(1):25-30

基于话者分类的自适应语音识别是实现非限定人、大字表语音识别的一种很有前途的有效方法．本文设计了一种用于话者分类的主从式组合神经网络，以神经预测模型作为从网络，可以从短语音（一个音节，约０．３秒）中有效地提取、规正和压缩话者个人性信息；主网络采用具有很强聚类功能的自组织特征映射网络．针对话者个人性信息的模糊性，提出了模糊系统聚类算法和双类心聚类算法．实验验证了组合神经网络对于话者分类的有效性以及模糊聚类算法对不同文本的语音样本具有较好的适应性相似文献

7.

参数共享在语音识别中的应用

郭锐朱小燕《清华大学学报(自然科学版)》2002,42(10):1374-1376

参数共享是基于隐 Markov模型 (hidden Markovmodel,HMM)的语音识别系统的参数训练中的一个关键性问题 ,因此在语音识别的诸多领域中都有重要的应用。对参数共享的作用及其使用的聚类算法进行了分析研究 ,在此基础上提出改进合并分级聚类算法 ,并将其应用于 HMM的状态捆绑。实验表明 ,一个大规模词汇量的孤立词语音识别器采用 HMM的状态捆绑后 ,可以大大缩减识别过程的时空消耗 ,同时识别率仅有较小的损失相似文献

8.

基于基音延迟组内相关性的AMR隐写分析算法

《华南理工大学学报(自然科学版)》2018,(5)

AMR作为移动互联网的语音压缩编码标准被广泛应用,同时也为隐写提供了新的载体.由于基音延迟参数所存在的预测不准确性,现有隐写算法通过对基音延迟参数进行微量调整以隐藏信息.文中对AMR编码算法的基音延迟预测编码特征进行分析,发现了AMR帧内各子帧基音延迟之间相关性的差异,提出了基于子帧组组内一阶Markov转移概率的隐写分析特征,并与基音延迟二阶差分Markov转移概率特征组合,构建新的隐写分析算法.实验结果表明:在混合训练的环境中,文中算法的检测正确率较现有算法明显提升,尤其在低嵌入率情况下性能提升显著;在10%相对嵌入率的情况下,隐写样本的检测正确率较现有算法提升1%～10%. 相似文献

9.

K-Medoids和FCM融合聚类法语音信号分类的应用

《济南大学学报(自然科学版)》2016,(1)

提出针对广播和航空语音信号的f-kmd融合聚类方法,对2种信号语音数据进行分段,提取每段短时语音数据的均值、方差、平均过零率、平均短时能量、归一化峰度和振幅指标等语音信号的基本特征进行归一化处理,利用模糊c均值聚类(FCM)方法对特征数据进行聚类分析,获得短时分段后的语音信号聚类结果,再对分段后的聚类结果整体上进行K-Medoids聚类分析,得到两类信号的聚类中心。实验表明,融合聚类方法能较好地对广播和航空语音信号进行分类,分类准确率较高,结果较稳定。相似文献

10.

基于区域特征的模糊多尺度Markov模型在纹理图像分割中的应用

段汕陈晓惠郑晨《中南民族大学学报(自然科学版)》2010,29(3)

针对传统Markov模型中似然函数假设条件过于严格,观测图像像素间的相依关系不能充分利用的缺点,提出了一种基于区域特征的模糊多尺度Markov模型实现纹理图像分割模型.该模型首先利用一种区域特征提取方法,描述像素间的相依关系;然后,以区域特征的聚类结果作为先验信息,通过模糊多尺度Markov模型得到分割结果;最后采用Brodatz纹理库合成的人工图像作为实验数据,从定性和定量两方面验证了该模型的有效性. 相似文献

11.

基于隐Markov模型的图像方位识别

于涛韩清凯孙伟闻邦椿《东北大学学报(自然科学版)》2006,27(3):304-307

提出一种基于隐Markov模型(Hidden Markov Model,HMM)的图像方位识别方法.将待识别的目标图像进行分割,对子图像进行奇异值分解,提取奇异值向量形成观测序列,即图像奇异值向量作为HMM的观测向量.确定HMM参数并计算其最大似然概率,按待识别图像最大似然概率对应所属的聚类进行识别.实验结果表明,3类共150幅目标图像的识别率达到了85%. 相似文献

12.

基于智能手机传感器和SC\|HMM算法的行为识别

孙冰怡吕巍李文洋《吉林大学学报(理学版)》2013,51(6):1128-1132

在获取智能手机传感器信号的基础上, 提出一种基于谱聚类和隐Markov模型的日常行为识别算法. 该方法利用智能手机获取的加速度、地理位置和接受信号强度等数据, 结合谱聚类分析和隐Markov模型学习, 能有效地对用户日常行为进行自动识别. 实验结果表明, 在真实的手机数据集中, 该方法具有较高的准确度. 相似文献

13.

基于改进的隐马尔科夫模型的语音识别方法 总被引：1，自引：0，他引：1

袁里驰《中南大学学报(自然科学版)》2008,39(6)

针对隐马尔可夫（HMM）语音识别模型状态输出独立同分布等与语音实际特性不够协调的假设以及在使用段长信息时存在的缺陷,对隐马尔可夫模型进行改进,提出马尔可夫族模型。马尔可夫族模型可看作一个数学上由多个马尔可夫链构成的多重随机过程,HMM模型则是双重随机过程,因而,HMM模型可视为马尔可夫族模型的特例。马尔可夫族模型用条件独立性假设取代了HMM模型的独立性假设。相对条件独立性假设,独立性假设是过强假设,因而,基于马尔可夫族模型的语音模型更符合语音实际物理过程。在马尔可夫族语音识别模型中引入状态段长信息,能自动根据语速对语音单元段长进行调整。非特定人连续语音实验结果表明,利用状态段长信息的改进语音识别模型比经典HMM模型的性能明显提高。相似文献

14.

隐马尔可夫模型的拓朴应用

侯昭武《河南师范大学学报(自然科学版)》2009,37(6)

以非齐次隐马尔可夫模型(Inhomogeneous Hidden Markov Mode1)出发,用自适应函数链神经网络与非齐次隐马尔可夫模型相结合,训练出适用环境变化的HMM模型,并应用该混合模型进行语音识别.实验结果表明,该模型适合于对噪声背景下的语音进行识别,该模型具有更好的鲁棒性,在信噪比较低的情况下,可以提高识别率. 相似文献

15.

基于树的相关系数补偿满方差建模技术

陈思宝姚志强胡郁王仁华《清华大学学报(自然科学版)》2008,48(Z1):668-672

为了实现语音识别中基于隐Markov模型(hidden Markov model,HMM)的满方差建模,该文提出了基于树的相关系数的补偿方法.首先自顶向下构建状态的回归树,用简化的仅考虑协方差的对称Kullback-Leibler散度来度量Gauss之间的差异.每个Gauss核接到相应状态下作为叶子节点.叶子节点的相关系数矩阵用其父节点及祖先节点的相关系数矩阵的线性插值得到.线性插值权在最大似然意义下进行优化.实验结果显示取得的识别性能相对异方差线性判别分析、半绑定协方差,基于树的协方差非对角补偿方法的字误识率分别相对下降9.71％、9.17％和4.12％. 相似文献

16.

用多观察序列训练隐马耳可夫模型的一种通用算法 总被引：1，自引：1，他引：1

王新民《孝感学院学报》2002,22(6):17-19

隐马尔可夫模型（HMM：Hidden Markov Model）是一种具有学习能力的统计模型。HMM在许多领域特别是在语音识别领域得到成功的应用。经典HMM的Baum-Welch算法假设不同的观察序列之间是统计独立的。这与实际情况不符。本文在不附加任何假设的前提下，提出了一种用多观察序列训练HMM的算法，从理论上解决了上述问题，传统的Baum-Welch算法只不过是新算法在观察序列独立假设下的特例。相似文献

17.

基于混合Gauss归一化的语音转换方法

宋鹏王浩赵力《清华大学学报(自然科学版)》2013,(6):757-761

针对非对称语料库情况下的语音转换,提出了一种基于混合Gauss归一化的语音转换方法。通过背景说话人模型,分别自适应训练得到源说话人和目标说话人模型。利用训练得到的模型自适应参数,提出了基于Gauss归一化的特征映射方法,为了进一步提高转换效果,进而提出了混合Gauss归一化的方法。针对说话人模型中未被更新的参数,采用KL散度(Kullback-Leibler divergence)方法进行了优化。最后通过主客观实验对提出的算法的有效性进行了仿真和验证。实验结果表明:该文提出的基于混合Gauss归一化的语音转换方法,在倒谱失真度、转换语音的目标倾向度以及感知质量上,都获得了接近基于对称语音库的传统Gauss混合模型(Gaussian mixture model,GMM)方法的效果。相似文献

18.

基于HTK的孤立词语音识别

杜宇斌赵磊《山东理工大学学报：自然科学版》2019,(5)

设计孤立词的语音识别系统,对小词汇量、非特定人的语音进行识别。利用HTK(Hidden Markov Model Toolkit,隐马尔科夫模型工具箱)语音识别工具包进行系统的搭建,从语音识别的原理出发,对每一个单词建立和训练隐马尔科夫模型,探讨语音识别的基本流程和实现方法,为连续语音识别研究打下基础。实验结果显示,隐马尔科夫模型对孤立词具有良好的识别性能。在正常说话语境下,对语料库中单词的识别率可达到80%。相似文献

19.

基于短时和长时特征的语音情感识别研究

林奕琳韦岗《科学技术与工程》2006,6(4):450-454

基于语音的自动人类情感识别是近年来新兴的研究课题,它在人机通信中有广阔的应用前景。分别利用语音的短时和长时特征识别说话者的五种情感状态,即生气、高兴、悲伤、惊奇和一种无情感状态。提出了一种基于基音频率、子带频谱能量与共振峰频率的短时特征矢量和一种反映能量频谱分布及动态的长时特征参数,分别利用隐马尔可夫模型和支持矢量机两种方法进行识别。试验用的情感语音包括一个普通话情感语音库和一个丹麦语情感语音库,试验结果表明使用两类特征参数都可以得到较高的识别率。相似文献

20.

基于自编码器的多模态深度嵌入式聚类

徐慧英董仕豪朱信忠赵建民《浙江师范大学学报(自然科学版)》2022,(1):26-34

近年来,随着获取信息手段的增多,对高维度数据的聚类变得越来越难.利用深度学习与聚类分析相结合的方式,通过对深度聚类算法的深入调查与研究,提出了基于自编码器的多模态嵌入式聚类模型,该模型分别将自编码器、卷积自编码器、卷积变分自编码器模型提取的特征进行自适应特征融合,再将融合后的特征输入深度聚类层得到聚类结果.多模态数据有助于提取更全面的数据信息,自适应特征融合能够很好地计算每个模态提取特征对融合特征的贡献度,从而提高无监督聚类算法的稳定性.提出的模型在4种公开数据集上进行了实验,验证了该模型的有效性,聚类结果优于现有流行的算法. 相似文献