期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

严可魏思戴礼荣刘庆峰《清华大学学报(自然科学版)》2011,(9):1205-1208,1214

帧规整对数后验概率是目前公认最有效的发音质量的度量。但该文证明了该度量还反映了当前发音对应的声学模型与概率空间中声学模型的混淆程度,使其在评分任务上存在着严重的缺陷。因此,该文提出了可训练的音素相关的后验概率变换;并研究了线性和非线性sigmoid变换,同时给出线性变换的显式全局最优解和非线性变换的梯度下降解法。在全国采集的普通话水平测试现场考试的篇章朗读题型上进行实验。实验结果表明:当概率空间包含所有音素时,该方法能使人机相关度从0.582提升至0.768;当采用优化的概率空间时,该方法能使人机相关度从0.696提升至0.773。相似文献

2.

普通话发音质量评价算法改进研究

陈彩华《贵州师范大学学报(自然科学版)》2013,(6):95-99

隐马尔科夫模型的对数后验概率算法是计算机辅助语言学习系统中用来衡量考生发音质量的重要指标。但在普通话智能测试系统中,传统的后验概率算法与专家评分之间存在比较明显的差距。文章从普通话语音评价的主观标准出发,将普通话发音的语言学知识引入后验概率算法,重构算法的语音识别网络,同时从音素评分模型角度对现有的发音质量评价算法进行改进。相似文献

3.

基于汉语语音音位的HMM建模方法

何珏刘加《清华大学学报(自然科学版)》2007,47(4):518-521

为了减少声学模型复杂度、降低对嵌入式系统的硬件资源需求,提出了为汉语全音节的声母、韵首、韵腹、韵尾4部分音位分别建立隐含Markov模型的新方法。基于汉语语音学的音位知识,并结合4部分音位方案比较实验,最终确定声母、韵首、韵腹、韵尾4部分音位模型总数分别为76、12、76、14,对应的4部分的模型状态数分别为4、1、4、2。同采用声母、韵母2部分建立的半音节隐含M arkov模型相比,新系统中模型数、状态数减少了30.2%、36.5%,同时关键词识别率提高1.32%。相似文献

4.

基于汉语语音音位的HMM建模方法

何珏刘加《清华大学学报(自然科学版)网络.预览》2007,(4)

为了减少声学模型复杂度、降低对嵌入式系统的硬件资源需求,提出了为汉语全音节的声母、韵首、韵腹、韵尾4部分音位分别建立隐含Markov模型的新方法。基于汉语语音学的音位知识,并结合4部分音位方案比较实验,最终确定声母、韵首、韵腹、韵尾4部分音位模型总数分别为76、12、76、14,对应的4部分的模型状态数分别为4、1、4、2。同采用声母、韵母两部分建立的半音节隐含Markov模型相比,新系统中模型数、状态数减少了30.2%、36.5%,同时关键词识别率提高1.32%。相似文献

5.

结合高斯混合模型和VOT特征的音素发音错误检测

刘明辉黄中伟《科学技术与工程》2013,13(7):1789-1793

结合高斯混合模型(GMM)和嗓音起始时间(VOT)特征的普通话音素发音错误检测,提出了一种结合语音声道特征信息和音源特征信息的发音错误检测方法。其中GMM用于反映声道特征信息的MFCC参数的建模与评测,并直接对大部分音素的发音质量直接进行错误检测。对于少数通过MFCC参数和GMM难于检测区分的辅音音素,则通过反映VOT信息的音源特征参数进行区分。实验表明,该方法在训练数据有限的情况下取得了较好的性能,非常适合用于聋人语言康复的计算机辅助训练。相似文献

6.

用 TMS320C31 实时实现电话语音识别系统 总被引：3，自引：0，他引：3

刘加潘胜昔江金涛胡凯军王作英《清华大学学报(自然科学版)》1998,(9)

描述了一个新型实时声控用户交换机语音接口的设计和实现。该系统使用数字信号处理器ＴＭＳ３２０Ｃ３１开发板在ＰＣ机ＷＩＮＤＯＷ平台下实现了与人无关连续命令语音识别,完成拨号、进行电话交换。系统使用少量控制词加上连续数字串构成了电话用户交换系统的常用命令语句,并生成相应识别文法网络（语言模型）。识别采用改进的令牌传递式Ｖｉｔｅｒｂｉ算法。研究中还开发识别系统拒识算法,在无拒识情况下命令语句中数字识别率为９８％以上,数字串（串长＜４）识别率达到９１％以上,通过加入拒识算法,字符串识别率可达９５％以上。相似文献

7.

基于矢量量化的实时发音人确认系统研究

陈志成陈云凤《中山大学学报(自然科学版)》1991,30(1):45-51

相似文献

8.

基于DKU-JNU-EMA数据库发音特征的方言识别

李海烽张雪英段淑斐贾海蓉李良琦《复旦学报(自然科学版)》2023,62(1):37-45

为研究广东话、客家话、潮州话和普通话的发音差异性,提出了一种基于发音特征的方言识别系统。本研究采用DKU-JNU-EMA数据库,以广东话、客家话、潮州话和普通话为研究对象,通过端点检测法实现对数据集的预处理,提取了数据集中发音器官的位移、速度和加速度参数,并对发音运动器官进行了空间和速度的统计学分析,然后选用随机森林和支持向量机分类器对所取的提特征集进行识别分类。实验结果表明,本文提取的发音特征在机器学习分类器的识别分类中是有效的,选用支持向量机做分类器时,在齿龈位置的分类平均准确率达到83.1%。相似文献

9.

基于自回归模型的加性噪声环境稳健语音识别

刘敬伟王作英肖熙《清华大学学报(自然科学版)》2006,46(1):50-53

为提高噪声不平稳或不可估的情况下语音识别的稳健性,提出了利用自回归模型和短时平稳性假设,估计干净与噪声环境的语音数据,建立相应的语音识别模型,以达到抗噪效果的稳健语音信号处理方法。在N o iseX-92的4种噪声环境(w h ite,babb le,vo lvo,destroyer eng ine)从0到20 dB的不同信噪比下的“863”大词汇连续语音标准数据库的平均识别结果表明,该方法能够使得基于段长分布的隐M arkov模型的语音识别系统在25候选时声学层的音节相对错误率下降达到10.85%以下,同时相对正确识别率上升12.13%。相似文献

10.

一种基于离散小波变换的音素分段算法

马建芬《太原理工大学学报》2000,31(1):50-52

提出了一种基于离散小波变换的新的音素分段算法。首先对原始语音信号取绝对值,然后对其进行小波变换,认为8阶小波变换绝对值的极大值点对应于原始语音的音素分段点。该算法较传统的算法计算量小。实践证明,分段效果较传统的分段方法有效性高。相似文献

11.

基于独立感知理论的鲁棒语音识别算法

孙暐吴镇扬《东南大学学报(自然科学版)》2005,35(4):506-509

为了提高在噪声环境下语音识别系统的性能,对基于子带独立感知理论的语音识别方法进行了研究.这些方法利用人耳对不同频率信号感知的差异,以及噪声和识别对象的频域特征差异,分别采用线性分析、判决分析、多层感知机以及子带最大似然估计对噪声影响进行补偿.实验表明,子带分析采用非线性策略优于线性策略.基于独立感知假定的子带模型,虽然由于独立性假定丢失了带间相关性,但对于噪声环境下语音识别而言可以捕获噪声和识别对象的频谱差异,从而获得比全带分析更高的鲁棒性. 相似文献

12.

维吾尔语语音识别中发音变异现象

杨雅婷马博王磊吐尔洪·吾司曼李晓《清华大学学报(自然科学版)》2011,(9):1230-1233,1238

维语口语发音中很多音素相对标准语产生了发音变异,基于标准语音的识别系统在识别带有发音变异的口语语料时识别率较低。该文针对维吾尔语同化、弱化、脱落、元音和谐等语流音变难点进行分析,对语音、韵律特性进行知识融合与技术创新,运用基于数据驱动和基于专家经验相结合的方法对维吾尔语方言口语中存在的发音变异现象进行研究,统计元音、辅音多发音变化映射对,建立音素混淆矩阵,为维吾尔语方言口语语音识别研究奠定基础。相似文献

13.

非凸段长分布隐含Markov模型的搜索算法

吴及肖熙许琳王作英《清华大学学报(自然科学版)》2005,45(7):924-927

基于段长分布的隐含Markov模型(DDBHMM)可解决经典隐含Markov模型(HMM)的状态段长指数分布的问题,实现了基于凸性假设的搜索。为解决非齐次模型的搜索算法问题,提出采用混合Gauss分布来拟合非凸段长分布,用子状态拆分的方法来实现非凸段长分布DDBHMM识别算法。在音乐信号识别上的实验表明:该方法在召回率提高1.1%的情况下,使准确率提高约10%。该方法实现了非凸段长分布HMM的识别算法,并且对于其他非凸段长信号具有推广价值。相似文献

14.

以测度作为神经网络输入的客观音质评价研究

黄丽周杰马洪张知易吴江滨《四川大学学报(自然科学版)》2007,44(6):1210-1214

利用径向基函数网络(RBFN)进行语音质量客观评价, 以避免在回归分析中选取具体函数的困难. 选取3种距离测度而非语音文件本身作为神经网络的输入, 使得网络输入维数大大减小,网络结构大大简化. 且对径向基函数网络结构作了修正, 使其更便于作音质评价. 作者在网络参数和结构学习中采用平滑后的训练集, 有效减少了随机因素对客观评测结果的影响, 也大大减少了网络结构的复杂性. 主客观评价结果的相关性实验中, 相关系数达0.96以上, 这表明了该方法的可靠性. 相似文献

15.

CHMM语音识别初值选择方法的研究

刘伶俐王朝立于震《上海理工大学学报》2012,34(4):323-326

针对隐马尔科夫模型用于语音识别时传统的参数初始化方法(随机分布之值、K均值算法)可能导致模型参数收敛于局部最优而非全局最优的问题,提出了先按最大距离选择初值中心,再按最小距离将原始数据分割成小类后去除类内干扰点,使类内相似性更强的K均值方法.实验结果表明,改进后的方法与传统方法相比,更好地平滑逼近语音特征,提高语音的识别率. 相似文献

16.

一种基于梯度的HMM参数重估方法

茅晓泉胡光锐《上海交通大学学报》2002,36(5):683-685

对于隐Markov模型（HMM），经典的参数重估方法是Eaum-Welch算法，该算法基于最大似然准则，具有快速收敛和保证似然度单调增的优点，但是对于其他的训练准则，则不存在这样的算法，由于目标函数的复杂性，在考虑采用梯度方法时，必须先解决如何求取梯度的问题，为此，提出一种求取梯度的实现方法，结果表明，使用该方法所取得的模型与用Baum-Welch算法所得的模型性能相当，而前者适用于基于各种准则的训练方法。相似文献

17.

用于语音识别的鲁棒自适应麦克风阵列算法 总被引：1，自引：0，他引：1

赵贤宇王作英《清华大学学报(自然科学版)》2004,44(10):1433-1436

对现实环境中存在的混响以及非平稳干扰语音信源等因素导致的算法性能下降,提出了一种用于语音识别的鲁棒旁瓣对消算法。讨论了旁瓣对消算法在自适应麦克风阵列中的应用,分析了算法在不同的混响条件下、不同的干扰源的噪声抑制能力。该算法通过分帧处理将输入信号划分为一系列短时平稳的信号片段。根据当前帧的信噪比决定自适应滤波器的权系数更新方式。采用一定的范数约束来限制自适应滤波器权系数的误调整。实验结果表明该麦克风阵列在混响的现实环境中能够有效抑制平稳噪声源和交叠谈话背景干扰,提高了语音识别器的抗噪性能。相似文献

18.

基于隐马尔可夫模型与并行模型组合的特征补偿算法 总被引：1，自引：0，他引：1

吕勇吴镇扬《东南大学学报(自然科学版)》2009,39(5)

提出了一种基于隐马尔可夫模型和并行模型组合的特征补偿算法.首先,利用一个包含较多状态的隐马尔可夫模型来描述全部单词特征向量的分布.然后,根据静音段估计的噪声均值和方差,采用并行模型组合方法调整隐马尔可夫模型的均值向量和协方差矩阵,使之与识别环境相匹配.最后,根据基于状态转移矩阵压缩的前向后向算法计算隐马尔可夫模型的后验概率,并通过最小均方误差准则估计纯净语音特征向量.实验结果表明,该算法能够更加准确地估计纯净语音特征向量,其性能明显优于基于高斯混合模型的特征补偿算法;状态转移矩阵压缩算法可以在不影响补偿精度的前提下,显著减少前向后向算法的计算量. 相似文献

19.

语音识别中HMM与自组织神经网络结合的混合模型 总被引：9，自引：0，他引：9

李晶皎孙杰张俐姚天顺《东北大学学报(自然科学版)》1999,20(2):4-147

基于隐马尔可夫模型和自组织神经网络模型提出了一种用于语音识别的混合模型,给出了训练调整权向量的算法,实验结果表明其在语音识别中具有很好的性能· 相似文献