首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 140 毫秒
1.
将语音合成领域中研究的可视语音技术应用于康复工程之中,设计了一个基于三维视觉的语音库系统。提出了基于三维语音库的语音辅助系统应用于聋儿语言发音训练的新方法,通过直观的视觉反馈对聋而不哑的听障儿童进行发音训练,从而改善他们的发音质量。提出该方法的框架结构,系统能够培养聋儿语感及自主学习语言的意识,使其具有一定的说话能力,为其今后的知识学习和参与社会活动奠定基础。  相似文献   

2.
利用语音识别技术,依英语发音的特有性,搭建完整合理的计算机辅助英语发音评测系统。整个系统包括3个部分:语音段验证、语音信号切割和发音评测。其中语音段验证利用置信度评估的技术,并依据置信度阀值对评测语音内容是否需要评测做出判断;语音信号切割是以预先训练好的英语发音声学模型为切割依据,通过强制对位的方式切割出正确的发音区段;英语发音评测是系统的核心,使用的评测方式是比较评测语音和标准语音的相似度,采用4个评测特征:发音完整度、韵律性、语速和准确度进行发音相似度评测。针对不同的特征参数设计合理的评测机制,并对4个特征参数进行加权运算,以建立一个完整合理的英语发音评测系统。实验证明,系统能够给出比较客观的评分,达到预期设计目标。  相似文献   

3.
现有的较多对运动性构音障碍病理语音的研究是以声学特征为条件来进行的,而对发音运动空间的研究较少,且数据库中普遍缺乏病患的发音及语音数据.本文基于多伦多大学开发的TORGO数据库,对比分析了构音障碍患者与正常人、不同病情程度的构音障碍患者之间在发音运动空间上的差异,提取发音空间特征,对构音障碍患者进行病情分级,为医学上诊疗的自动分级检测提供理论依据.对单音素进行分析能够判断发音肌群的能力,却忽略了病患在连续发音时语音的流畅性.本文采用短语文本,首先对比分析了正常人与不同病情程度构音障碍患者的3维散点发音轨迹与空间位移,发现构音障碍患者的舌部发音运动更靠近口腔后方、左方、下方,且病情程度越严重,舌部抬起运动越困难.然后使用K-means算法计算发音运动空间的质心,进行显著性分析,发现不同病情程度的构音障碍患者之间的差异主要在上下方向,该方向的显著性水平均值只有0.078.最后选取质心与位移中值两个发音空间特征,作为分类器输入进行病情分级.实验结果显示随机森林分类器的分级识别性能在98%以上,且随机森林的分类准确率比J48决策树的最高提升了6.45%.  相似文献   

4.
结合高斯混合模型(GMM)和嗓音起始时间(VOT)特征的普通话音素发音错误检测,提出了一种结合语音声道特征信息和音源特征信息的发音错误检测方法。其中GMM用于反映声道特征信息的MFCC参数的建模与评测,并直接对大部分音素的发音质量直接进行错误检测。对于少数通过MFCC参数和GMM难于检测区分的辅音音素,则通过反映VOT信息的音源特征参数进行区分。实验表明,该方法在训练数据有限的情况下取得了较好的性能,非常适合用于聋人语言康复的计算机辅助训练。  相似文献   

5.
在基于语音识别的计算机辅助发音学习(CAPT)系统rEcho V1.0的基础上设计并实现了rEcho V2.0.系统继承了V1.0利用错误趋势分组技术为学习者提供有针对性反馈建议的优点,完善了课程体系,提出利用共振峰错音合成技术合成识别器训练所需错音语料的方法,为解决错音语料不足这一长期困扰CAPT的问题提供了有效的途径.实验表明,合成错音训练的识别器达到原始语音训练的识别器的识别率水平.rEcho V2.0的整体性能较之前版本有较大提高.  相似文献   

6.
计算机辅助语音训练系统需要检测非母语者的错误发音,并提供详细的指导性反馈,有助于第二语言学习者更有效地提高发音水平.利用深度全序列卷积神经网络(Deep full convolutional neural network, DFCNN)和链接时序分类(Connectionist temporal classification, CTC)技术,建立了一种用于发音偏误检测和诊断任务的端到端语音识别方法.该方法不需要音位信息,也不需要强制对齐,以扩展声韵母为偏误基元,设计了64种偏误类型.实验结果表明,该方法能够有效地检测出错误发音,检测正确率为87.07%,错误拒绝率为7.83%,错误接收率为25.97%.  相似文献   

7.
采用HTS语音训练合成工具和STRAIGHT语音合成器,尝试在未知某方言(或土语)的实际语音系统的条件下开展相应的语音训练合成工作。采用古音系统来转写汉语字音,并在此基础上设计相应的问题集以实现语音训练合成。设计了一套面向汉语方言语音合成的通用发音文本;录制了一些汉语方言点的合成语音语料库;搭建了基于古音系统的汉语方言语音合成平台。普通话的合成实验结果表明:基于古音系统训练合成出来的语音,在可懂度和音质上跟基于普通话拼音系统训练合成出来的语音非常接近。这表明基于古音系统进行汉语方言语音合成的方法是有效的、可行的。  相似文献   

8.
文章通过英语和汉语的语音差异分析了母语为汉语的学生在英语发音上存在的问题,并提出了三步骤的语音教学改革对策:通过英汉两种语音体系的对比使学生掌握发音要领;通过听音进行辨别训练;通过有趣的课堂活动进行发音强化训练。  相似文献   

9.
基于人工神经网络的多媒体语音特征挖掘   总被引:1,自引:0,他引:1  
提出了一种基于人工神经网络的聋儿语音训练识别的多媒体特征挖掘技术,构造了邻域三层神经元合作竞争的动态运行为神经元模型,实验选取了动态递减函数、动态最小覆盖矩阵和动态确定阈值形成的SOLA挖掘算法,以及聚类分布的网络图技术,解决了聋语音训练系统中基本语音识别的难题。  相似文献   

10.
隐马尔科夫模型的对数后验概率算法是计算机辅助语言学习系统中用来衡量考生发音质量的重要指标。但在普通话智能测试系统中,传统的后验概率算法与专家评分之间存在比较明显的差距。文章从普通话语音评价的主观标准出发,将普通话发音的语言学知识引入后验概率算法,重构算法的语音识别网络,同时从音素评分模型角度对现有的发音质量评价算法进行改进。  相似文献   

11.
介绍了一个在微机上实现的有限词,特定人语音识别系统,该系统采用连续,M元高斯混合密度的隐式马尔柯夫模型(CDHMM)为识别方法,以修改后的BaumWelch方法为训练重估算法,文中提出了对语音特征矢量非线性归一化预处理,和对训练数据不足的HMM模型特征空产是进行后处理修正的算法,还提出了一种基于语音知识的模型初始化的方法,经实验证明,系统的识别率可以达到90%以上。  相似文献   

12.
一种量子神经网络说话人识别方法   总被引:2,自引:1,他引:1       下载免费PDF全文
针对说话人语音特征空间边界存在模糊性的特点,构建了一种量子神经网络识别分类器,用于说话人识别,以改善存在交叉数据的语音特征参数的分类效果。提出了一种基于人工免疫算法的量子间隔训练方法,以改善传统量子神经网络训练算法的不足。以TIMIT语音库为测试语音,与传统BP网络和基于常规梯度下降量子间隔训练算法的量子神经网络做对比实验。实验证明,算法能有效提高说话人识别系统的识别率,同时与高斯混合模型相比,具有更好的抗噪声性能。  相似文献   

13.
管制指令特征参数提取研究   总被引:2,自引:1,他引:1  
在管制指令语音识别系统的研究中,语音的特征参数提取方法是影响系统识别率的关键因素之一。在Matlab平台上基于MATLAB GUI技术,设计完成HMM语音训练识别模型的用户操作界面,实现特征参数提取方法的选择、语音信号的训练、识别操作及结果输出和波形显示。通过实例对比分析,特定人和非特定人情况下,LPCC和MFCC两种特征参数提取方法在训练、识别时间和识别率上的差异。结果表明,特定人时LPCC参数的识别优势明显;非特定人时,MFCC参数的识别效果和效率更好。  相似文献   

14.
说话人识别中改进的MFCC参数提取方法   总被引:1,自引:0,他引:1  
何朝霞 《科学技术与工程》2011,18(18):4215-4218,4227
在说话人识别技术中,特征参数的提取对语音训练和识别有着非常重要的作用。而Mel频标倒谱系数MFCC是一种常用的特征,它能对语音信号进行分析处理,去除对语音识别无关紧要的冗余信息,获得影响语音识别的重要信息。同时由于语音信号具有时变和混沌特性,以非线性随机共振理论和人类对听觉的理解为基础,提出了一种基于随机共振的MFCC特征参数提取方法。通过实验比较两种方法的结果,论证了改进方法的可行性以及优越性,为说话人识别技术中特征参数提取提供了一条新的研究方向。  相似文献   

15.
本文提出了一种基于模糊矢量量化(FVQ)和隐马尔柯夫模型(HMM)模糊训练的语音识别新方法.利用模糊矢量量化替代了传统方法中的矢量量化,语音特征参数序列经过模糊矢量量化后得到模糊观察符号序列.在此基础上提取出一个反映训练样本总体随机变化特性的模糊观察符号序列,然后用它对该音节的HMM进行一次性全局训练,训练算法经传统的Baum-Welch算法改进得到.经十个汉语数字的对比实验表明,该训练算法大大提高了系统的训练速度,模糊矢量量化与传统的矢量量化相比,不仅提高了隐马尔柯夫模型的鲁棒性,进而提高了系统的识别率,而且在语音训练数据不充足的情况下,也能得到很好的识别性能.  相似文献   

16.
为了对高速列车车内强噪声环境下的语言清晰度进行定量分析,利用最新语言传输指数间接测量方法及其与汉语语言清晰度的关系,得到不同运行速度和语音声级下车内不同位置的语言清晰度.结果表明,受电弓下部车内位置语言清晰度状况最差;该位置的语言清晰度随速度呈线性规律变化,随语音声级呈二次非线性规律变化.采用多元非线性回归分析,建立以语音声级和列车运行速度为自变量的车内语言清晰度的关系式.试验测试结果与计算结果的标准差为1.75%,拟合优度为0.963,表明该关系式可以较好地模拟三者之间的相关关系.与基于语言清晰度指数的评价方法相比较,该评价方法所需的客观参量测量更简单,更具应用价值.  相似文献   

17.
带噪语音可看成由独立的噪声信号和语音信号经某种方式混合而成,传统语音增强方法需要对噪声信号和干净语音信号的独立性和特征分布做出假设,不合理的假设会造成噪声残留、语音失真等问题,导致语音增强效果不佳。此外,噪声本身的随机性和突变性也会影响传统语音增强方法的鲁棒性。针对这些问题,使用生成对抗网络来对语音进行增强,给出一种基于Wasserstein 距离的生成对抗网络(Wasserstein generative adversarial nets, WGAN)的语音增强方法来加快训练速度和稳定训练过程。该方法无需人工提取声学特征,且使语音增强系统的泛化能力得以提升,在匹配噪声集和不匹配噪声集中都有良好的增强效果。实验结果表明,使用训练出的端对端语音增强模型后,语音信号的客观评价标准(perceptual evaluation of speech quality,PESQ)平均得到23.97%的提高。  相似文献   

18.
Wang  RenHua  Dai  LiRong  Ling  ZhenHua  Hu  Yu 《科学通报(英文版)》2009,54(11):1963-1969
This paper proposes a trainable unit selection speech synthesis method based on statistical modeling framework. At training stage, acoustic features are extracted from the training database and statistical models are estimated for each feature. During synthesis, the optimal candidate unit sequence is searched out from the database following the maximum likelihood criterion derived from the trained models. Finally, the waveforms of the optimal candidate units are concatenated to produce synthetic speech. Experiment results show that this method can improve the automation of system construction and naturalness of synthetic speech effectively compared with the conventional unit selection synthe- sis method. Furthermore, this paper presents a minimum unit selection error model training criterion according to the characteristics of unit selection speech synthesis and adopts discriminative training for model parameter estimation. This criterion can finally achieve the full automation of system con- struction and improve the naturalness of synthetic speech further.  相似文献   

19.
语音信号中经常混有加性噪声,噪声的存在会使语音处理系统的性能急剧下降,因此语音去噪是语音信号处理中的关键技术之一.提出一种利用线性预测残差去除语音中的加性白噪声的方法,实验结果表明,该方法可以有效地去除语音信号中的加性白噪声,并且保持语音信号较好的清晰度和可懂度.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号