期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

曹钢徐宏炳《东南大学学报(自然科学版)》2001,31(4):36-39

以时域基音同步叠加 (TD PSOLA)技术和一个全汉语单音节库为合成单元进行汉语语音合成 ,合成的语音清晰度和自然度很高 .但是这样的系统语音库太大 ,不利于在小型设备中实现 ,影响了语音合成的进一步应用 .本文针对此问题 ,在研究A律压缩的基础上 ,采用自适应量化和自适应预测的技术 ,以较少增加合成运算量复杂度为代价 ,对语音库的编码实现压缩 ,使压缩后的语音库减小了约一半 ,大大减小了所需的存储空间 .并且利用压缩后的语音库合成语音 ,基本上不影响合成后的语音质量 ,从而进一步扩展了语音合成的应用 . 相似文献

2.

蒙古语语音库中动词词缀分库的建立

包春梅敖其尔马占新阿日木扎《内蒙古大学学报(自然科学版)》2009,40(6)

针对蒙古语语音合成系统中合成出来的语音相对自然蒙古语音生硬、缓慢、机器味重等问题,建立了有效的整词音库和动词词缀语音库,即将动词词干词缀作为语音合成的基元.所选语音基元对合成高效的蒙古语语音合成系统起到决定性作用.应用该语音库可以合成出更自然、更流畅、发音更完整的语音,并且可以实现蒙古语中无限词全部组合发音的目标. 相似文献

3.

在于PSOLA算法的语音编码压缩的研究与实现

曹钢徐宏炳《东南大学学报(自然科学版)》2001,31(4):36-39

以时域基音同步叠加（TD－PSOLA）技术和一个全汉语单音节库为全成单元进行汉语语音合成,合成的语音清晰度和自然度很高,但是这样的系统语音库太大,不利在于小型设备中实现,影响了语音合成的进一步应用,本文针对此问题,在研究A很压缩的基础上,采用自适应量化和自适应预测的技术,以较少增加合成运算量复杂度为代价,对语音库的编码实现压缩,使压缩后的语音库减小了约一半,大大减小了所需的存储空间,并且利用压缩后的语音库合成语音,基本上不影响合成后的语音质量,从而进一步扩展了语音合成的应用。相似文献

4.

基于情感基音模板的情感语音合成

陈明义党培霞《中南大学学报(自然科学版)》2010,41(6)

为了合成能够模拟表达说话人的情感状态的语音,提出一种基于情感基音模板的情感语音合成方法.该方法分别建立高兴、愤怒、悲伤和中立4种不同情感下的韵母基音模板库,建立4种声调模型,统计分析语音库中情感语音的韵律特征参数,运用基音同步叠加算法(PSOLA)合成含情感色彩的语音.实验以音节为合成单位,根据情感特征参数的统计分析结果调节合成语音的韵律特征,合成各种情感的语音.仿真实验结果表明:用情感基音模板合成的目标情感语音具有目标情感的音质色彩,再通过韵律参数调节,可合成较理想的情感语音.该方法可用于增加语音合成系统的智能化,提高人机交互的能力. 相似文献

5.

基于可变长音素序列拼接单元的维吾尔语语音合成技术研究

周艳艾斯卡尔《四川理工学院学报(自然科学版)》2007,20(2):64-68

文章采用了一种以可变长音素序列为拼接单元的维吾尔语语音合成系统的技术方案,阐述了维吾尔语的语言特点及语音合成中必须考虑的语音协同发音等现象,给出了语音库的设计思路及其句子、短语、词语、音节以及音素等多级语音库结构,以便直接从语音库中找到拼接单元,还考虑了怎样合成语音库中没有拼接单元的情况。该方法能更好地利用自然语流的原始信息,提升了系统合成语音效果的自然度。相似文献

6.

基于基音同步叠加的汉语文语转换

霍华普杰信刘俊强冯阳春王平《河南科技大学学报(自然科学版)》2001,22(4):38-42

提出了一种将基音同步叠加技术用于汉语文语转换系统的方法。主要介绍了系统的基本组成、语音基元选择、语音库的结构和检索、文本的预处理、合成规则、基音同步叠加技术等。该系统在语言学处理中采用了分词精度较高的基于词形统计的汉语文本切分算法 ;韵律处理采用了能有效控制合成语音韵律的语音合成规则 ;声学处理采用了基音同步叠加技术进行语音合成 ,易于调整合成语音的音高、音长和音强。测试表明 ,本系统语音输出清晰度达 95 % ,自然度达 8.1分 (按 10分制 ) ,基本达到实用的要求相似文献

7.

基于HMM的缅甸语语音合成系统设计与实现

《云南大学学报(自然科学版)》2020,(1)

由于电子化语言资源较为匮乏,缅甸语语音合成的研究相对滞后.针对该问题,以开发缅甸语语音合成应用系统为目的,设计并实现了一个基于HMM的语音合成系统.首先,为了使计算机按输入文本合成出正确的读音,提出并设计了缅甸语的注音方案,其中重点解决了缅甸语中的变音和变调问题;然后,根据缅甸语的语音特点选取声母及带声调的韵母作为合成基元,并按此设计上下文属性和问题集;最后,基于HTS平台,完整实现了音子自动切分、HMM声学模型训练及语音合成.实验结果表明,该缅甸语语音合成系统具有可行性,可作为后续研究的基线系统. 相似文献

8.

基于古音系统的汉语方言语音合成

黄小明熊子瑜《清华大学学报(自然科学版)》2013,(6):771-775

采用HTS语音训练合成工具和STRAIGHT语音合成器,尝试在未知某方言(或土语)的实际语音系统的条件下开展相应的语音训练合成工作。采用古音系统来转写汉语字音,并在此基础上设计相应的问题集以实现语音训练合成。设计了一套面向汉语方言语音合成的通用发音文本;录制了一些汉语方言点的合成语音语料库;搭建了基于古音系统的汉语方言语音合成平台。普通话的合成实验结果表明:基于古音系统训练合成出来的语音,在可懂度和音质上跟基于普通话拼音系统训练合成出来的语音非常接近。这表明基于古音系统进行汉语方言语音合成的方法是有效的、可行的。相似文献

9.

基于MATLAB的仿真通信语音库实现

解伟俊胡修林张蕴玉《华中科技大学学报(自然科学版)》2000,28(2):77-79

提出一个面向通信系统性能评价的语音库研制方案 ,并给出其基于 MATLAB仿真的实现途径 .语音库通过建立一个通信仿真系统 ,采用系统仿真的方法来实时获取语音资料 .由于对仿真系统的设计是基于通用通信系统的 ,因此可以实现在不同通信环境下对各种通信系统的仿真 ,使仿真既具有灵活性 ,又具有通用性 .语音库只需存储相应的仿真参数而不是通常的实际语音资料 .这种“参数”存储方法 ,极大地减少了存储空间 ,解决了一般语音库占用存储空间过大的问题 . 相似文献

10.

基于格型网络的语音合成算法

宋一凡张刚韩建国武涛《太原理工大学学报》1997,(3)

本文设计了一个基于格型网络的语音合成算法，采用格型网络输出合成语音，通过对语音参数进行线性内插等措施来提高合成语音的自然度、清晰度。相似文献

11.

基于三维可视语音库的发音康复方法

赵剑王丽荣《长春大学学报》2010,(2):75-77

将语音合成领域中研究的可视语音技术应用于康复工程之中,设计了一个基于三维视觉的语音库系统。提出了基于三维语音库的语音辅助系统应用于聋儿语言发音训练的新方法,通过直观的视觉反馈对聋而不哑的听障儿童进行发音训练,从而改善他们的发音质量。提出该方法的框架结构,系统能够培养聋儿语感及自主学习语言的意识,使其具有一定的说话能力,为其今后的知识学习和参与社会活动奠定基础。相似文献

12.

构建数字语音室的管理模式

王立侯亚彬《科技信息》2007,(22):44-44,34

近年来,语音室从原来功能单一的模拟设备教室发展到现代的功能齐全的数字设备教室,经历了一场教学手段快速更新的变革。无论是模拟语音室还是数字语音室,管理是必需要面临的问题。要加强管理,以对出现的各种问题,建立一套行之有效的管理制度是十分必要的。相似文献

13.

基于改进型DTW算法和MFCC的语音识别

陈孟元《安徽工程科技学院学报：自然科学版》2014,(1):53-57

采用模式匹配的识别技术,建立孤立词语音识别系统,基于MATLAB环境对O～9这10个数字语音进行仿真实验．在提取MFCC的基础上,整合差分倒谱参数作为语音的特征参数,并对现有的DTW算法加以改进,节省了系统匹配的计算时间,使其具有一定的鲁棒性．分别采集普通话语音和湖北、闽南、安徽3地方言的语音数据,体现了数据的完备性和系统的适用性．实验结果表明,基于改进型DTW算法和MFCC的语音识别系统具有较高识别率,取得了良好效果．相似文献

14.

基于HTK的普米语孤立词的语音识别

《云南民族大学学报(自然科学版)》2015,(5):426-430

基于HTK的普米语孤立词的识别,通过对特定发音人和非特定发音人的语音进行特征分析、预处理、提取MFCC特征参数,从而建立每个普米词的HMM模型,最后采用Viterbi算法进行模型的训练和匹配.实验表明:对特定发音人和非特定发音人,随着普米词个数的增加,识别率虽有所下降,但是变化很小,识别率均超过了95.00%,识别效果很好.语料的信噪比和发音人的发音稳定性是导致识别率下降的重要原因. 相似文献

15.

维吾尔语语音识别中发音变异现象

杨雅婷马博王磊吐尔洪·吾司曼李晓《清华大学学报(自然科学版)》2011,(9):1230-1233,1238

维语口语发音中很多音素相对标准语产生了发音变异,基于标准语音的识别系统在识别带有发音变异的口语语料时识别率较低。该文针对维吾尔语同化、弱化、脱落、元音和谐等语流音变难点进行分析,对语音、韵律特性进行知识融合与技术创新,运用基于数据驱动和基于专家经验相结合的方法对维吾尔语方言口语中存在的发音变异现象进行研究,统计元音、辅音多发音变化映射对,建立音素混淆矩阵,为维吾尔语方言口语语音识别研究奠定基础。相似文献

16.

实时语音驱动的虚拟说话人

李冰锋谢磊周祥增付中华张艳宁《清华大学学报(自然科学版)》2011,(9)

该文实现了一个实时语音驱动的虚拟说话人面部动画方案。随着语音信号的输入,同步生成对应的面部动画。这种实时语音驱动的虚拟说话人在可视电话、虚拟会议、音视频聊天等即时通讯与娱乐媒体领域具有巨大的应用潜力。由于音素是最小的可分发音单元,因此构建音素识别器,对输入语音信号进行实时音素识别。为提高语音与口型的同步效果,改进了音素识别与输出算法。考虑协同发音影响,利用动态视素生成算法,将识别得到的音素转化为对应的面部动画参数序列。最后用参数序列驱动按照MPEG-4面部动画标准参数化的3-D头部模型,实现面部动画的同步生成。主观MOS评测结果表明:本文所实现的实时语音驱动虚拟说话人在的同步性和逼真度上的MOS评分分别达到了3.42和3.50。相似文献

17.

语音驱动的唇型合成系统的实现

丁丽娟王晓曦杨阳蕊于洪志《长春工程学院学报(自然科学版)》2010,11(2):109-112

通过对语音和唇形的信号采集,设计了12个外唇线关键点和9个内唇线关键点的提取方案,同时建立起语音、唇形数据库,并对其进行参数提取和统计分析,从而建立了汉语普通话语音、唇型之间的关联模型,在此基础上实现了语音驱动的唇形合成系统. 相似文献

18.

基于语音识别技术的英语发音评测系统研究

滕海坤刘心声王丽红《盐城工学院学报(自然科学版)》2016,29(1):17-22

利用语音识别技术,依英语发音的特有性,搭建完整合理的计算机辅助英语发音评测系统。整个系统包括3个部分:语音段验证、语音信号切割和发音评测。其中语音段验证利用置信度评估的技术,并依据置信度阀值对评测语音内容是否需要评测做出判断;语音信号切割是以预先训练好的英语发音声学模型为切割依据,通过强制对位的方式切割出正确的发音区段;英语发音评测是系统的核心,使用的评测方式是比较评测语音和标准语音的相似度,采用4个评测特征:发音完整度、韵律性、语速和准确度进行发音相似度评测。针对不同的特征参数设计合理的评测机制,并对4个特征参数进行加权运算,以建立一个完整合理的英语发音评测系统。实验证明,系统能够给出比较客观的评分,达到预期设计目标。相似文献

19.

辅助语音评分系统中一种流利度自动评分方法

黄申李宏言王士进梁家恩徐波《清华大学学报(自然科学版)》2009,(Z1)

流利度评分是目前计算机辅助自动发音评分系统中一个重要组成部分。为了解决流利度特征表述中和内容、韵律等高级表述技巧相关的广义流利问题,该文提出了一种能够全面客观地评价口语流利度通顺性和韵律性的评分方法。该方法除了通顺性之外,可以提取停顿、韵律、连读和失去爆破等特征;评分过程中,系统采用多层次融合方法,分别从句子级和篇章级提取流利度特征,其中篇章级得分由句子级加权得分和篇章级特征进行融合得到。在实验中,分别以机器得分和人工平均分的相关度、均方差等指标比较了多元线性回归(LR)、BP神经网络、支持向量回归机(SVR)3种算法的性能。结果表明:基于非线性建模的BP神经网络和支持向量回归机拟合的得分模型要好于多元线性回归;该方法可以作为一个重要指标,应用在计算机辅助语音评分系统中。相似文献

20.

基于音素的发音质量评价算法 总被引：6，自引：0，他引：6

梁维谦王国梁刘加刘润生《清华大学学报(自然科学版)》2005,45(1):5-8

面对广大的外语学习者,计算机辅助语言学习系统已经成为一种最佳的口语学习方式。该文提出了一种新的应用于计算机辅助语言学习系统的面向英语学习人群的发音质量评价算法,名为PASS(phone-basedautomaticscoreforl2speechquality)。PASS算法以基于隐含Markov模型的语音识别和口音自适应技术为基础,考察了音素发音的准确性和流利性信息,定义了音素级的发音质量分数,从而可以综合得到整句的评分结果。在实验室自行采集和精细标注的非母语语音库上与其他评分算法进行比较实验,PASS与专家评分的句子级相关性达到了0.66,优于其他算法。目前PASS算法已经被成功地应用于清华大学出版社的互动式语言学习系统中。相似文献