期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

徐义芳张金杰姚开盛曹志刚王勇前《清华大学学报(自然科学版)》2001,41(1):41-44

语音识别系统通常是将在安静的环境下训练得到的参数应用于实际环境中。如果实际环境也是安静的 ,则语音识别系统可以令人满意地工作。然而 ,当实际环境中有噪声存在时 ,语音识别系统性能急剧下降。为了让语音识别系统在安静的环境和有噪声的环境中都获得令人满意的工作性能 ,研究了一个将语音增强器和语音识别器级连起来的系统。该系统中 ,语音增强作为前端处理用于提高识别器输入端信号的信噪比。通过 3种不同的增强算法用于纯净语音和3种类型带噪语音的实验结果分析比较表明 ,这一方法对纯净语音的识别精度几乎没有任何改变而大大提高了系统的抗噪声性能相似文献

2.

鲁棒语音识别技术综述 总被引：1，自引：0，他引：1

吕钊吴小培张超《安徽大学学报(自然科学版)》2013,(5):17-24

鲁棒语音识别是为了解决噪声环境所引起的语音识别系统识别和训练不匹配的情况.依据噪声对语音识别系统的影响,从信号空间、特征空间及模型空间3个层面上分别对语音增强技术、特征增强技术及语音模型补偿、增强技术进行了总结,并分析了不同方法的特点、实现及应用. 相似文献

3.

调制域谱减法用于鲁棒性语音识别 总被引：2，自引：2，他引：0

胡丹曾庆宁龙超《科学技术与工程》2016,16(4)

针对语音识别在实际环境中缺乏稳健性的问题,提出了将调制域谱减法应用于语音识别前端的方法。先将语音信号变换到调制域,在调制域用谱减法将信号增强,在减少语音畸变的基础上提高信噪比,然后再进行识别。仿真实验表明,调制域谱减法能在较大的信噪比区间内提高系统识别率,证明此方法能显著提高语音识别系统的抗噪声能力。相似文献

4.

汽车噪声中自动语音的识别技术 总被引：5，自引：0，他引：5

韦晓东胡光锐《上海交通大学学报》1998,32(10):10-13

汽车中的话音拨号系统是自动语音识别技术的应用热点．自动语音识别系统是一个基于训练的系统．在汽车噪声中,由于实际应用环境与形成系统参数的训练环境的失配,传统语音识别系统的性能会大幅度地下降,从而无法实用．为了提高语音识别系统在特定环境下的识别率及实用性,首先根据汽车环境中语音的失真模型分析了系统性能下降的原因,然后针对加性汽车噪声与信道失真对系统的影响,讨论了在汽车噪声中改善语音识别系统性能的方法．提出了在识别系统中用基于子带的语音增强算法和倒谱均值相减算法相结合的方法．对大量的多人连续数字串语音的识别实验表明,这一方法大大提高了系统在汽车噪声环境中的识别率,它还可以简便、实时的实现,具有一定的实用性．相似文献

5.

一种改进的LSA语音增强算法

下载免费PDF全文

王金明周坤尹海明徐志军《解放军理工大学学报(自然科学版)》2015,(4):310-315

针对说话人识别的噪声鲁棒性问题,在对数谱最小均方差误差估计算法基础上,采用改进的最小值控制递归平均算法对语音帧信噪比进行估计,通过对前一帧的短时功率谱进行2次平滑和前向多帧最小值搜索,结合语音存在概率估计出当前帧的信噪比,并根据信噪比自适应调整增益因子的大小,对噪声进行消除。构建了一种改进的LSA语音增强方法,使用该方法可以使增强后的语音保持较高的自然度。实验结果表明,与MMSE-LSA算法比较,改进的LSA算法具有更好的语音增强效果,在5dB各类噪声环境下,其平均信噪比较MMSE-LSA算法提高1.36dB,主观语音质量评估平均提高8%。将该方法用于说话人识别系统,其检测代价较采用MMSE-LSA算法的系统平均降低3%。相似文献

6.

基于VTS的稳健语音识别

赵贤宇欧智坚王作英《清华大学学报(自然科学版)》2005,45(7):892-895

为了进一步提高矢量Taylor级数(VTS)算法的模型补偿精度以及在噪声环境下的识别性能,提出将无监督聚类与VTS算法相结合。无监督聚类算法利用噪声模型之间的Kullback-Leibler距离将含噪语音段划分为若干个子段。然后针对各个子段分别进行一阶Taylor级数展开,并在此基础上逐段估计噪声参数和补偿声学模型。该算法结合一个中文数字串识别系统进行实验,在Babble噪声和Gauss白噪声环境下该算法的误识率相对传统的VTS算法分别下降了27.7%和17.8%。证明这种结合无监督聚类的分段VTS算法能够更加有效地将语音和噪声在倒谱域上的非线性混合模型用一阶线性模型来近似。相似文献

7.

含语音增强模块的i-向量说话人识别性能分析

李昕李为游寒旭朱杰《上海师范大学学报(自然科学版)》2016,45(2):237-242

为解决文本无关说话人识别中训练与识别环境不同导致模式失配的问题,提出了一种采用语音增强模块进行前端预处理的i-向量说话人识别系统,从而提高系统对于环境噪声的鲁棒性.为评估不同语音增强算法的性能,利用NIST08核心测试集进行仿真实验.采用IMCRA算法对语音进行噪声估计后,分别用维纳滤波法、MMSE-LSA、传统谱减法和多频带谱减法等4种方法进行语音增强前端处理,在基于i-向量的说话人识别系统下进行实验.实验结果表明采用了语音增强的系统具有一定抗噪声性能,并且在高信噪比条件下,基于多频带的谱减法在此系统下性能最佳,而低信噪比情况下MMSE-LSA算法更有优势. 相似文献

8.

多带同步模型用于噪声环境下语音识别

孙吴镇扬《中国工程科学》2006,8(3):31-34

根据人耳听觉特性，提出新的同步多带最大似然线性回归算法用于噪声环境下语音识别。该算法采用最大似然作为参数估计准则，利用各频带信号同步感知和噪声污染假定的方法进行语音模型补偿，有效地提高了识别系统在噪声环境下的识别性能。相似文献

9.

低信噪比环境下的麦克风阵列语音识别算法研究

王群曾庆宁郑展恒《科学技术与工程》2017,17(31)

针对在低信噪比环境下语音增强对语音识别率的提升不明显的问题,提出一种用在识别系统前端的麦克风阵列增强算法。该阵列增强算法基于相干滤波和频率带宽波束形成后置改进维纳滤波器。首先将采集到的阵列信号,求相邻通道间的相关函数,利用阵元间信号的相关性进行初始噪声抑制,然后利用频域宽带最小方差无畸变响应(MVDR)通过对目标声源信息的获取,保留目标声源方向的信号并抑制其他方向的信号干扰,再通过改进的维纳滤波器去除噪声残留提升语音可懂度,最后用梅尔频率倒谱系数(MFCC)和隐马尔科夫模型(HMM)对增强后的语音信号做特征提取并识别。仿真过程模仿双耳采集数据,结果表明该语音增强方法在低信噪比环境下获得较好的增强效果,能有效的提高低信噪比环境下的语音识别率。相似文献

10.

基于自回归模型的加性噪声环境稳健语音识别

刘敬伟王作英肖熙《清华大学学报(自然科学版)》2006,46(1):50-53

为提高噪声不平稳或不可估的情况下语音识别的稳健性,提出了利用自回归模型和短时平稳性假设,估计干净与噪声环境的语音数据,建立相应的语音识别模型,以达到抗噪效果的稳健语音信号处理方法。在N o iseX-92的4种噪声环境(w h ite,babb le,vo lvo,destroyer eng ine)从0到20 dB的不同信噪比下的“863”大词汇连续语音标准数据库的平均识别结果表明,该方法能够使得基于段长分布的隐M arkov模型的语音识别系统在25候选时声学层的音节相对错误率下降达到10.85%以下,同时相对正确识别率上升12.13%。相似文献

11.

一种基于语音分类的清晰度客观评价算法

下载免费PDF全文

张雄伟沈刘平曹铁勇杨吉斌孙新建《解放军理工大学学报(自然科学版)》2007,8(2):103-107

为了能方便、快捷、可靠地对失真语音进行语音清晰度性能评价,提出了一种基于语音分类的加权巴克谱失真语音清晰度客观评价算法SC-WBSD.该算法提出在巴克域中对清音帧、浊音帧及过渡音帧巴克带谱失真进行加权来求失真语音的客观失真测度.通过分析 3类语音的巴克谱失真测度与DRT分的相关程度,提出一组以相关系数的幂次方为权重的有效SC-WBSD权重矢量.实验结果表明,SC-WBSD方法和DRT分的相关度达到了0.924 73,与巴克谱失真测度算法相比提高了4%. 相似文献

12.

浅析消极言语现象

郝彦《新余高专学报》2008,13(4):48-51

消极言语是指发话人在消极思维支配下发出的不利于交际现实的甚至使交际效果为负的言语。根据消极思维的不同类型可以将消极言语分为负性自动型言语和负性认知型言语，又根据各自相关的思维特征，在两类言语的内部可以划分出各自不同的类别。相似文献

13.

基于语音合成法的汉语人名语音库的设计应用

王秀君和应民《应用科技》2006,33(3):10-12

采用语音合成方法完成了汉语人名语音库的设计.声母部分直接采用录音样本,而韵母部分则通过激励声道频率响应函数来合成语音,然后通过声韵母拼接来实现人名语音合成,以此建立人名语音库.可以实现各种可能人名语音的合成,适合应用于多种电子自助系统中. 相似文献

14.

一种人机交互语音切分系统

《云南民族大学学报(自然科学版)》2016,(1):87-91

对于大规模的语音语料,语音切分方法主要有传统的人工切分和机器自动化切分2种方式.人工切分大规模语音语料的切分质量易控制,但效率低、成本高;机器自动化切分效率高,但后期查找切分错误时任务极其繁重.因而提出一种人机交互语音切分系统,切分人员可选择自动切分算法,设置切分参数,修改有问题的自动切分结果,同时可自动生成用于HTK训练的标注文件.以课题组采集的1 000个普米语语音文件为研究对象,以普米语孤立词为切分基元,机器自动化切分存在难以避免的切分错误,后期检查时工作量巨大;然而使用本文提出的人机交互语言切分系统进行切分,切分人员在无需高认知度的情况下也可做到近100%的切分正确率. 相似文献

15.

高性能汉语数码语音识别算法 总被引：13，自引：0，他引：13

李虎生刘加刘润生《清华大学学报(自然科学版)》2000,40(1)

提出了一个高性能的汉语数码语音识别 (MDSR)系统。 MDSR系统使用 Mel频标倒谱系数 (MFCC)作为主要的语音特征参数 ,同时提取共振峰轨迹和鼻音特征以区分一些易混语音对 ,并提出一个基于语音特征的实时端点检测算法 ,以减少系统资源需求 ,提高抗干扰能力。采用了两级识别框架来提高语音的区分能力 ,其中第一级识别用于确定识别候选结果 ,第二级识别用于区分易混语音对。由于采用了以上改进 ,MDSR系统识别率达到了 98.8% . 相似文献

16.

Relationship between Chinese speech intelligibility and speech transmission index in rooms using dichotic listening 总被引：2，自引：0，他引：2

JianXin Peng 《科学通报(英文版)》2008,53(18):2748-2752

Speech intelligibility （SI） is an important index for the design and assessment of speech purpose hall. The relationship between Chinese speech intelligibility scores in rooms and speech transmission index （STI） under diotic listening condition was studied using monaural room impulse responses obtained from the room acoustical simulation software Odeon in previous paper. The present study employs the simulated binaural room impulse responses and auralization technique to obtain the subjective Chinese speech intelligibility scores using rhyme test. The relationship between Chinese speech intelligi-bility scores and STI is built and validated in rooms using dichotic （binaural） listening. The result shows that there is a high correlation between Chinese speech intelligibility scores and STI using dichotic listening. The relationship between Chinese speech intelligibility scores and STI under diotic and dichotic listening conditions is also analyzed. Compared with diotic listening, dichotic （binaural） listening （an actual listening situation） can improve 2.7dB signal-to-noise ratio for Mandarin Chinese speech intelligibility. STI method can predict and evaluate the speech intelligibility for Mandarin Chinese in rooms for dichotic （binaural） listening. 相似文献

17.

可编程语音压缩专用处理器设计

韩大晗崔慧娟唐昆刘大力《清华大学学报(自然科学版)》2007,47(1):76-79

为了提高通信系统的保密性,降低制造成本,需要进行专用处理器的设计。基于正弦激励线性预测(SELP)算法模型,设计了一款多速率语音专用处理器。芯片使用可重构体系结构和超长指令字(VLIW),优化了高复杂度函数。仿真结果表明:该处理器对0.6kb/s速率SELP算法的执行效率明显优于通用数字信号处理器(DSP)。处理器内部程序数据外部不可见,指令并行度显著提高,常用函数可被修改,从而达到高保密性、低复杂度、易开发性。相似文献

18.

基于三维可视语音库的发音康复方法

赵剑王丽荣《长春大学学报》2010,(2):75-77

将语音合成领域中研究的可视语音技术应用于康复工程之中,设计了一个基于三维视觉的语音库系统。提出了基于三维语音库的语音辅助系统应用于聋儿语言发音训练的新方法,通过直观的视觉反馈对聋而不哑的听障儿童进行发音训练,从而改善他们的发音质量。提出该方法的框架结构,系统能够培养聋儿语感及自主学习语言的意识,使其具有一定的说话能力,为其今后的知识学习和参与社会活动奠定基础。相似文献

19.

辅助语音评分系统中一种流利度自动评分方法

黄申李宏言王士进梁家恩徐波《清华大学学报(自然科学版)》2009,(Z1)

流利度评分是目前计算机辅助自动发音评分系统中一个重要组成部分。为了解决流利度特征表述中和内容、韵律等高级表述技巧相关的广义流利问题,该文提出了一种能够全面客观地评价口语流利度通顺性和韵律性的评分方法。该方法除了通顺性之外,可以提取停顿、韵律、连读和失去爆破等特征;评分过程中,系统采用多层次融合方法,分别从句子级和篇章级提取流利度特征,其中篇章级得分由句子级加权得分和篇章级特征进行融合得到。在实验中,分别以机器得分和人工平均分的相关度、均方差等指标比较了多元线性回归(LR)、BP神经网络、支持向量回归机(SVR)3种算法的性能。结果表明:基于非线性建模的BP神经网络和支持向量回归机拟合的得分模型要好于多元线性回归;该方法可以作为一个重要指标,应用在计算机辅助语音评分系统中。相似文献