首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到16条相似文献,搜索用时 160 毫秒
1.
汉语语音合成中音节内清音和浊音的时长是影响合成语音自然度的重要因素。在HMM汉语语音合成中,提出了一种基于语境特征的清浊音时长调整算法。在算法中,首先对清音相对音节的时长根据语境特征进行决策树聚类。合成时,从该决策树得到对应音节的清音相对时长参考值,合成语音的清音和浊音时长按照参考值进行调整。试验表明该算法可以提高HMM汉语语音合成的时长预测准确度,有效地提高合成语音的自然度。  相似文献   

2.
基于PSOLA技术的汉语语音规则合成系统   总被引:1,自引:0,他引:1  
研究了使用基音同步叠加算法(PSOLA),来改变汉语语音的音高、音强和音长,进行汉语语音合成的方法。同时对于其中的主要参数:基音同步标志,则利用了改进的自相关算法、HILBERT变换原理和搜索算法,建立了精确自动确定标志的软件。另外提出了汉语词调的优化统计方法,得出了词调的定量描述规则。最后运用PSOLA算法原理,加上汉语全音节音库和较为完善的韵律规则库,设计了一个较为清晰、自然的汉语语音规则实时合成系统。  相似文献   

3.
提出了一种将基音同步叠加技术用于汉语文语转换系统的方法。主要介绍了系统的基本组成、语音基元选择、语音库的结构和检索、文本的预处理、合成规则、基音同步叠加技术等。该系统在语言学处理中采用了分词精度较高的基于词形统计的汉语文本切分算法 ;韵律处理采用了能有效控制合成语音韵律的语音合成规则 ;声学处理采用了基音同步叠加技术进行语音合成 ,易于调整合成语音的音高、音长和音强。测试表明 ,本系统语音输出清晰度达 95 % ,自然度达 8.1分 (按 10分制 ) ,基本达到实用的要求  相似文献   

4.
本文探讨了时域合成汉语语音的特点,介绍了它的具体实现方法,並就如何在时域合成汉语四声的问題进行了详细地讨论,对于不同的合成方法进行了比较分析。另外探讨了韵母音素之间过渡的平稳性和其共振峰参数的关系。分析了汉语音节中过渡音的影响。  相似文献   

5.
本文介绍了以音节作为基本单元合成汉语的方法。先用线性予测法提取语音参数(反射系数),再根据汉语参数值的分布范围确定参数的最佳量化位,最后计算机按音节的参数值以及音节之间联接的规则合成语句。由于汉浯是有调语言,摸拟实验着重考虑了声调变化的规则。经初步的实验结果表明,合成语句的可懂度是较高的。  相似文献   

6.
音节时长的研究是韵律模型和语音合成系统的基础,本文基于词汇层面,随机挑选了单音节词、双音节词、三音节词、四音节词(成语)各200个,录制了1男1女藏语拉萨话发音人的语音,提取有效时长。研究了男女发音人不同长度词汇的时长分布,并对不同长度词汇的音节平均时长进行比较。结果表明:1)男女声的词汇时长总体分布比较集中;2)随着词汇长度的增加,音节平均时长逐渐变小,减小幅度成递减趋势;3)整体上来看,女声时长要大于男声时长。  相似文献   

7.
针对传统的基音同步叠加方法的缺陷提出了相应的改进方法:一是将小波变换用于声门闭合时刻(GCI)的检测,获得GCI的准确位置,在此基础上,按每个基音周期起始的精确位置进行基音同步叠加,在一定的范围内,改变单音节的基频和时长去拟合连续语流中音节的超音段变化;二是用升余弦滚降窗函数代替基音同步叠加算法中的Hamming窗函数,使合成语音的质量明显提高,调节更加方便.  相似文献   

8.
韵律词边界的协同发音问题——对语音合成自然度的思考   总被引:1,自引:0,他引:1  
就目前语音合成自然度的现状,探讨了合成语音中韵律词边界V#C,VN#C之间的无声间隙和过渡音存在的问题,以及由此造成的合成语音中词或短语之间的顿挫感和个别音段自然度较差的问题.该文在基于对普通话协同发音生理(EPG)研究的基础上,揭示了韵律词边界存在的协同发音现象并提出了解决合成自然度问题的方案.结果表明:韵律词边界闭塞(GAP)和停顿(SP)的区别在于,停顿表现在元音韵尾无过渡音且时长延长,辅音无声段时间较长,而闭塞则不同;语料库中增加擦音前韵尾的标注信息作为合成的匹配规则,可以消除合成中擦音前的顿挫感;韵尾过渡音中舌前辅音前面的韵尾F2上升,舌前辅音中的翘舌音/zh,ch,sh,r,l/使韵尾的F3下降.舌根音、唇音和唇齿音使前面的韵尾F2下降;语调短语的韵律词边界没有V#C、VN#C的过渡音且边界间是停顿而非闭塞,不存在协同发音现象.  相似文献   

9.
该文通过分析跨音段情况下前音节元音对后音节元音第二共振峰F2起点的影响,考察了汉语普通话双音节词"元音-塞音-元音"序列中2个元音之间的协同发音现象。结果发现:当2个元音之间为送气塞音时,由于送气塞音时值较长,元音间的协同发音作用便比较小,送气是抑制协同发音作用的重要因素;在塞音发音部位方面,当后接元音为/i/时,跨唇音的协同作用较大,而跨舌尖音的协同作用较小,不过发音部位与后接元音的交互作用很大,超过发音部位单方面的作用。  相似文献   

10.
以时域基音同步叠加 (TD PSOLA)技术和一个全汉语单音节库为合成单元进行汉语语音合成 ,合成的语音清晰度和自然度很高 .但是这样的系统语音库太大 ,不利于在小型设备中实现 ,影响了语音合成的进一步应用 .本文针对此问题 ,在研究A律压缩的基础上 ,采用自适应量化和自适应预测的技术 ,以较少增加合成运算量复杂度为代价 ,对语音库的编码实现压缩 ,使压缩后的语音库减小了约一半 ,大大减小了所需的存储空间 .并且利用压缩后的语音库合成语音 ,基本上不影响合成后的语音质量 ,从而进一步扩展了语音合成的应用 .  相似文献   

11.
《清华大学学报》2012,(2):218-224
In continuous speech,the pitch contour of the same syllable may vary much due to its contextual information.The Parallel Encoding and Target Approximation (PENTA) model is applied here to Mandarin speech synthesis with a method to predict pitch contours for Chinese syllables with different contexts by combining the Classification And Regression Tree (CART) with the PENTA model to improve its prediction accuracy.CART was first used to cluster the syllables’ normalized pitch contours according to the syllables contextual information and the distances between pitch contours.The average pitch contour was used to train the PENTA model with the average contour for each cluster.The initial pitch is required with the PENTA model to predict a continuous pitch contour.A Pitch Discontinuity Model (PDM) was used to predict the initial pitches at positions with voiceless consonants and prosodic boundaries.Initial tests on a Chinese four-syllable word corpus containing 2048 words were extended to tests with a continuous speech corpus containing 5445 sentences.The results are satisfactory in terms of the Root Mean Square Error (RMSE) comparing the predicted pitch contour with the original contour.This method can model pitch contours for Mandarin sentences with any text for speech synthesis.  相似文献   

12.
针对PSOL气算法会引起频域上的不连续的不足,提出一种汉语韵律调整的新方法。该方法基于语音的正弦模型理论,把每一帧短时语音信号分解为一系列不同幅值、相位和频率的正弦分量,然后进行语速和音高的调整,实验结果证明,合成的语音信号保持了原有语音的清晰度和自然度。将该方法应用于汉语文语转换系统中,得到较好的效果。  相似文献   

13.
To investigate how a low tone (tone-3, T3) syllable in Chinese can be perceived to be focal accented or not, a total of 156 sentences containing tone-3 words were synthesized and used as stimuli in a perceptual study. The sentences differed in the falling value between the two high pitches, and in the duration and phonation types of the T3 syllables. Thirty-nine subjects were asked to judge where the focus or accent was for each sentence. The results show that at least three degrees of pitch drop are involved in the focus recognition: a big sized drop of about 10 semitones; a middle sized drop of about 6 semitones; a small sized drop of about 2 semitones. The results suggest that the three sizes of pitch drop have different indications in Chinese intonation, depending on both the tone and the tone combination. In perception, there are various ways to realize tone-3 focus in the Tx-T3-Ty sentences series, but in production or for text-to-speech synthesis, the rule simply is making a middle sized pitch drop with a long and creaky T3 syllable. Similarly, to focus on the low tone syllable in the T3-Tx-Ty sentences, a creaky T3 syllable is essential. However, a long T3 syllable is a strong determinant for a low tone focus in the Tx-Ty-T3 sentences.  相似文献   

14.
由于汉语是声调语言,在连续语流中韵律词重音不仅会受到其所在韵律层级的影响,也会受到调型组合的影响。该文在大规模连续普通话语音数据库的基础上,从韵律层级和调型组合2方面对韵律词重音感知作了细致分析。实验结果表明,在不同韵律层级和调型组合条件下,重音感知呈现出规律性差异,主要表现为:1)随着韵律层级的上升,时长和基频都随着重音级别的增大而增大,但基频对重音感知的影响更大;2)在相斥的调型组合下,时长对重音感知的作用要显著高于其在相容调型组合下的作用;3)在连续语流中,双音节韵律词的重音模式没有显著稳定性。  相似文献   

15.
针对PSOLA算法会引起语音频谱的不连续,从而影响合成语音的质量,提出了一种基于正弦模型的汉语普通话语音基音同步分析和合成算法.首先,将连续的语音信号在时间轴上分为一帧帧短时信号,再把每一帧短时语音信号分解为一系列不同幅值、相位和频率的正弦分量,然后根据频率匹配的原则,对相邻两帧信号的幅度和相位进行插值,得到合成信号的正弦分量的幅值和相位,最后将各正弦分量相加,就得到了合成的语音信号.实验结果证明,该方法合成的语音信号的各个正弦波分量的相位和幅值均能平滑过渡,从而可以克服PSOLA算法带来的回声效应,有助于提高合成语音的自然度.  相似文献   

16.
在对大量的汉语普通话的语音波形进行分析之后发现汉语普通话的基音提取不能用简单的中心削波自相关方法,在进行基音标记时会存在一种基音标记偏移的现象,为此在自相关理论的基础上,根据声调语言的语音信号音高变化特征,对声调语音的基音标记的偏移现象提出了一种基于自相关法和峰值校正的算法,经实践检验,这种算法对声调语言的基音标记的偏移现象能够得到很好的校正。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号