首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 46 毫秒
1.
语调是说话的腔调,由不同的声调抑扬顿挫的配制和变化形成,是人类传递情感的特征之一.通过调节语调参数来改变一段话语中某个字音的长短及高低,从而使可控的语调实现语音演唱的效果,弥补了语音合成在歌曲演唱方面研究的缺失.采用倒谱法来提取基音频率,线性预测编码(Linear Predictive Coding,LPC)方法对共振峰进行估算,最终通过高次多项式对语音声调的基频进行拟合,将得到的拟合函数进行实时调整,形成语调以达到语音演唱的目的.从基音频率及共振峰两个基本参数出发,结合发音的数理本质,用直观的数学方法来进行语音演唱的合成,使得原始语音与合成语音的总体识别率达到了87.6%.合成结果表明,采用调整语音合成参数的方法进行语调的变化,能够使语音演唱的表现更加可控.  相似文献   

2.
本文探讨了一种汉语情感语音合成的方案。首先,根据汉语韵律的分层特点,采用SFC基频时长韵律模型,从语料库中提取出反映汉语情感特征的基频参数和时长参数曲线;然后,采用STRAIGHT语音分析与合成算法,用提取出的反映情感特征的韵律参数控制合成过程.从而合成出带有情感的汉语语音。  相似文献   

3.
提出了一种用于情感语音合成的基频转换方法.该方法使用定量目标逼近(q TA)特征作为语音音节层的基频描述,并用高斯双向联想贮存器(GBAM)实现中性合成语音音节层q TA参数向目标情感语音音节层q TA参数的转换.在模型训练阶段,首先基于中性语料库和统计参数语音合成方法构建中性语音合成系统;然后利用少量情感录音数据,将从情感语音文本对应的中性合成语音中提取的q TA参数作为源数据,将情感录音中提取的q TA参数作为目标数据,进行GBAM转换模型的训练.在情感语音合成阶段,利用训练得到的GABM模型,实现中性合成语音基频特征向目标情感的转换.实验结果表明,该方法在目标情感数据较少的情况下可以取得比最大似然线性回归(MLLR)模型自适应方法更好的情感表现力.  相似文献   

4.
为了合成能够模拟表达说话人的情感状态的语音,提出一种基于情感基音模板的情感语音合成方法.该方法分别建立高兴、愤怒、悲伤和中立4种不同情感下的韵母基音模板库,建立4种声调模型,统计分析语音库中情感语音的韵律特征参数,运用基音同步叠加算法(PSOLA)合成含情感色彩的语音.实验以音节为合成单位,根据情感特征参数的统计分析结果调节合成语音的韵律特征,合成各种情感的语音.仿真实验结果表明:用情感基音模板合成的目标情感语音具有目标情感的音质色彩,再通过韵律参数调节,可合成较理想的情感语音.该方法可用于增加语音合成系统的智能化,提高人机交互的能力.  相似文献   

5.
发嗲是一种特殊的情感语音。该文从情感类型的角度出发,认为发嗲并非简单的某种情绪或态度,而是一种情感上主动性强的言语模式。该文提取了发嗲在基频上的特征,发现其在基频上最显著的特征是基频提高,这种提高并非整体的同步提升,而是与调类、性别、元音等因素有关,并且伴随着基频曲线形状和基频范围的变化。该文通过语音合成和听辨实验来检验基频变化对发嗲的意义,实验表明基频的提高突出体现了发嗲在情感激发维上的主动性特征。基频提高是发嗲的关键因素,但不是唯一特征,也不是听辨的充分条件。  相似文献   

6.
选取三种典型的情感状态,通过对在不同情感状态下大量取样的语音样本的基频、能量、时长及相关韵律特征参数作统计分析,基于统计结果使用PCA方法进行情感状态识别实验,识别准确率达91.67%.结合情感识别结果,使用DTW算法通过模式匹配进行小词汇表的语音识别,提高语音识别正确率;给出输出语音韵律特征参数的调整方法,使人机语音交互得到更加人性化的改进.  相似文献   

7.
韵律标注是藏语语音合成语料库建设的重要环节.文章参考汉语韵律标注的研究成果,结合藏语自身的语音特点以及韵律特征,进行了面向藏语语音合成语料库的韵律标注研究,并设计一套包含拉丁转写、声调类型、音节结构、重音类型以及停顿指数的标注规则,为藏语语音韵律特征的研究提供了直观的、科学的方法.  相似文献   

8.
Apriori算法在语音合成应用中的一种改进   总被引:1,自引:0,他引:1  
针对目前语音合成技术中提高语音合成自然度这一难点,研究了数据挖掘在语音合成中的应用.首先通过选取基频曲线中的最高音基频值(N1)和最低音基频值(N2)优化韵律参数,然后将其运用到关联规则对韵律参数进行规则提取的方法中,提出了优化韵律参数后的规则提取过程,并对原有的Apriori算法进行改进而获得更适合语音合成的HLApriori算法,通过该算法可以将原有Apriori算法得到的规则进一步细分,从而得到更多研究者感兴趣的规则.  相似文献   

9.
基于小波变换的汉语三字词语音基音频率提取   总被引:2,自引:0,他引:2  
声调是基音频率的轮廓,为准确提取基音频率,进行具有汉语特色的连续语音识别,提出了具有汉语特色的清浊音切分方法.与常用的阈值法相比,该方法能更好地找到清浊音的切分点,尤其是在字与字连接紧密时更有效(在这种情况下阈值法往往失效).在此基础上,利用小波变换的多分辨分析特性进行了汉语三字词语音基音频率的提取.实验结果显示,该算法能有效地将三字词语音分开,且得到的基音频率曲线符合汉语三字词语音的声调模式.  相似文献   

10.
采用语音合成方法完成了汉语人名语音库的设计.声母部分直接采用录音样本,而韵母部分则通过激励声道频率响应函数来合成语音,然后通过声韵母拼接来实现人名语音合成,以此建立人名语音库.可以实现各种可能人名语音的合成,适合应用于多种电子自助系统中.  相似文献   

11.
针对语音情感线性参数在刻画不同情感类型特征上的不足,将多重分形理论引人语音情感识别中.通过分析不同语音情感状态下的多重分形特征,提取多重分形谱参数和广义hurst指数作为新的语音情感特征参数,并结合传统语音声学特征,采用支持向量机SVM对其进行语音情感识别.试验结果表明,该方法可使系统的准确率和稳定性得到有效提高.非线...  相似文献   

12.
本文基于统计学中最小二乘法,提出了一种新的声调特征.在语音识别中用其进行汉语声调识别,具有准确度高,容错性强等特点.  相似文献   

13.
汉语数码语音识别中一种新的抗噪声特征参数   总被引:1,自引:1,他引:0  
为了提高中小词汇量语音识别系统在噪声环境下的识别性能,以10个汉语数码语音为对象,利用汉语数码语音信号区别于噪声信号的准周期特性,提出了一种汉语数码语音频谱包络峰值特性的提取方法,首先用基频对语音频谱采样得到由谐波值构成的包络以提高信噪比,然后再对所得包络进行峰值提取得到汉语数码语音的峰值特征。实验结果表明,在信噪比大于5dB时,用该方法得到的峰值特征具有一定的抗噪性。  相似文献   

14.
语音情感识别是人工智能领域的研究热点.对不同的特征参数提取直接影响了语音情感识别的效果.通过提取基频、共振峰和Mel频率倒谱系数三个能够充分反映语音情感的特征,采取支持向量机的方法对样本进行分类学习.实验结果表明这三种特征参数能够有效识别语音情感.  相似文献   

15.
汉语特有的声调特征,表现为基音周期的有规律变化,也就是说声调体现于基音周期变化的模式。本文叙述了用基音模板函数法研究特定说话人核对的语音识别原理和方法,並制成语音识别控制锁。提取说话人语音的特征参数主要是声调特征(包括基音周期的长度及其变化的斜率)和时间特征等。经测试,对语音锁所有者(标准模板)的长期平均识别率为92%,其他人在已知标准单词时识别率为0.33%,未知标准单词时识别率为0%。作为衡量锁功能的指标引了对识别率系数K,当K大于100,语音锁可以实际使用。  相似文献   

16.
近年来,在汉语语音合成的研究中,如何提高合成语音的自然度越来越引起人们的关注。其中的关键问题是设计一个能灵活有效地调节汉语韵律特征的语音合成器。进行韵律调节的基本原理是基于源/滤波器理论,采用同态处理的方法,对汉语文语转换系统进行研究,并对韵律调节部分进行分析和实验。实验结果显示,这种方法要胜于PSOLA方法,下一步,一块基于DSP芯片“TMS320C54x”的PC卡将用来实现上述目标,从而期望建立一个实时的语音合成器,并使其得到广泛的应用。  相似文献   

17.
采用HTS语音训练合成工具和STRAIGHT语音合成器,尝试在未知某方言(或土语)的实际语音系统的条件下开展相应的语音训练合成工作。采用古音系统来转写汉语字音,并在此基础上设计相应的问题集以实现语音训练合成。设计了一套面向汉语方言语音合成的通用发音文本;录制了一些汉语方言点的合成语音语料库;搭建了基于古音系统的汉语方言语音合成平台。普通话的合成实验结果表明:基于古音系统训练合成出来的语音,在可懂度和音质上跟基于普通话拼音系统训练合成出来的语音非常接近。这表明基于古音系统进行汉语方言语音合成的方法是有效的、可行的。  相似文献   

18.
语音的自然度在很大程度上取决于韵律特征如声调、句调、轻重音等,而普通话、粤语与英语在这些特征上形成了鲜明对比。该文以普通话为研究对象,采用声学分析比较了普通话母语被试以及母语分别为标准粤语和美式英语的2组普通话二语被试的基频特征。通过一组句类、目标字调、焦点位置受控的语句,考察了每组被试的句调、声调、焦点重音的基频编码方式以及三者间的交互作用。研究发现,2组二语被试的偏误特征有同有异,很大程度上可归因于语言负迁移效应,这为汉语的二语语音韵律教学提供了启示。  相似文献   

19.
根据语音发声过程中的混沌特性,应用非线性动力学模型分析情感语音信号,提取了该模型下情感语音信号的非线性特征以及常用的声学特征(韵律特征和MFCC).设计情感语音识别对比实验,将非线性特征与不同声学特征融合并验证了该组合下的情感识别性能,研究了语音信号混沌特性对情感语音识别性能的影响.实验选用德国柏林语音库4种情感(高兴、愤怒、悲伤和中性)作为语料来源,支持向量机网络用于情感识别.结果表明,非线性特征有效表征了情感语音信号的混沌特性,与传统声学特征结合后,情感语音识别性能得到了显著提高.  相似文献   

20.
基于粗神经网络的语音情感识别   总被引:1,自引:1,他引:0  
语音情感识别是从语音信号中提取一些有效的声学特征,然后利用智能计算或者识别的方法对话者的情感状态进行识别。介绍了国内外在该领域中关于语音情感数据库、特征提取、识别方法的研究现状。基于对该领域现状的了解,发现特征提取对识别率有着非常大的影响。录制了1050句语音,每句语音提取了30个特征,从而形成了一个1050×30的数据库。提出了用粗糙集理论中的信息一致性对数据库中的30个特征进行化简,最后得到了12个特征。用神经网络中的BP网络对话者的情感状态进行识别,最高识别率达到了84%。从实验结果发现不同的情感用不同的方法识别结果更好。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号