期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

基于概率频度的普通话韵律结构预测统计模型 总被引：1，自引：0，他引：1

郑敏蔡莲红《清华大学学报(自然科学版)》2006,46(1):78-81

为进一步提高文语转换系统中韵律结构预测的准确度,提出了一个基于概率频度的统计模型的方法,预测韵律词和韵律短语边界两级韵律结构。该方法提取与韵律词和韵律短语边界有关的语言学特征(词性、语法词、长度和位置等),并进行样本训练计算各个特征的概率频度值,最终分别建立韵律词和韵律短语的统计模型。实验结果表明:统计模型的方法对于韵律词和韵律短语边界预测的正确率分别可达90.6%和84.6%,并与决策树算法和T ransform ation-based learn ing(TBL)转换规则学习算法比较,提高10%以上的正确率。相似文献

2.

基于词类序列的汉语语句韵律结构预测 总被引：1，自引：0，他引：1

裴雨来邱金萍王洪君吕士楠《清华大学学报(自然科学版)》2009,(Z1)

为完善计算机汉语语音合成,构建了韵律结构预测系统。该系统区分了现代汉语中韵律结构与语法结构存在对应关系和不存在对应关系的两类单位,采取确定韵律结构和调整韵律结构,分别处理这两类单位;考虑了"的"、"介词"等功能词在韵律短语预测中的作用;面向汉语文语转换应用的语句韵律词及韵律短语;只依赖语句的词类音节数序列等简单的文本信息。在107句语料上进行了测试。结果表明:韵律词预测正确率达95%,韵律短语预测正确率约81%,操作性较强。相似文献

3.

基于预训练语言表示模型的汉语韵律结构预测

《天津大学学报(自然科学与工程技术版)》2020,(3)

韵律结构预测作为语音合成系统中的一个关键步骤,其结果直接影响合成语音的自然度和可懂度.本文提出了一种基于预训练语言表示模型的韵律结构预测方法,以字为建模单位,在预训练语言模型的基础上对每个韵律层级设置了独立的输出层,利用韵律标注数据对预训练模型进行微调.另外在此基础上额外增加了分词任务,通过多任务学习的方法对各韵律层级间的关系及韵律与词间的关系建模,实现对输入文本各级韵律边界的同时预测.实验首先证明了多输出结构设置的合理性及使用预训练模型的有效性,并验证了分词任务的加入可以进一步提升模型性能;将最优的结果与设置的两个基线模型相比,在韵律词和韵律短语预测的F1值上与条件随机场模型相比分别有2.48%和4.50%的绝对提升,而与双向长短时记忆网络相比分别有6.2%和5.4%的绝对提升;最后实验表明该方法可以在保证预测性能的同时减少对训练数据量的需求. 相似文献

4.

藏语韵律词和韵律短语的时长特征研究

马宁于洪志李永宏何向真《西北民族学院学报》2014,(3):14-17

在藏语单句的层面上,通过时长参数的统计分析,对韵律词和韵律短语两层韵律单元的时长特征进行了研究.研究结果确定了藏语韵律词和韵律短语的基本大小,韵律词为4±2个音节,韵律短语为6±3个音节;藏语韵律单元的总体时长分布差异较大,但不同韵律单元的时长伸缩幅度差异较小.藏语韵律单元的时长分布类型以尾长型为主;韵律单元边界处普遍具有边界前音节延长,边界后音节缩短现象的特征. 相似文献

5.

基于句法依存和条件随机场的韵律短语识别

钱揖丽张二萌《清华大学学报(自然科学版)》2019,(7)

<正>确划分句子的韵律结构对于提高合成语音的质量具有重要的意义。特征的选择是韵律结构预测的关键因素之一。在中文信息处理中,文本特征可以分为浅层文本特征与深层文本特征。浅层特征包括词、词性、词长等;深层特征包括句法信息、语义信息等。该文在挖掘剖析句法结构、依存句法结构同韵律结构之间关系的基础上,从文本中获取相关浅层和深层文本特征,并采用条件随机场模型实现韵律短语预测。首先以浅层文本特征进行韵律短语识别,然后在此基础上加入句法依存深层文本特征进行模型构建。实验结果表明:加入句法依存特征后,韵律短语预测精确率提高了13.3%,召回率提高了14.69%,F值提高了14.1%。相似文献

6.

基于TBL算法的汉语韵律词预测

陈龙杨鸿武蔡莲红《西北师范大学学报(自然科学版)》2008,44(1):47-51

提出了一种新的汉语韵律词预测方法.利用标注过的语料,分析了语法词与韵律词之间的关系,发现24%的韵律词由不同语法词组合而成,语法词的词长是确定韵律词边界的主要特征.基于以上分析,实现了一种基于错误驱动的规则学习算法(TBL)的韵律词预测方法.实验结果表明,所提出的方法在测试集上能够达到97.5%的预测精度. 相似文献

7.

一种基于深度神经网络的汉语语音合成韵律结构预测模型

《科技资讯》2019,(27)

近年来,随着语音信号处理技术的发展,合成语音在很多场景下已经能够满足实际的基本要求,但在自然度上方面,还需要进一步提高和改进。在汉语语音合成中,韵律结构的预测对于自然度的影响非常大,如何精确预测韵律结构,成为语音合成技术中需要解决的重要问题。该文结合注意力机制将深度神经网络双向RNN模型用于汉语韵律词的预测,得到的预测结果表明,具有注意力机制的双向RNN模型在进行韵律词的预测方面能够获得比较准确的效果。相似文献

8.

韵律词边界的协同发音问题——对语音合成自然度的思考 总被引：1，自引：0，他引：1

郑玉玲《清华大学学报(自然科学版)》2008,48(Z1):645-651

就目前语音合成自然度的现状,探讨了合成语音中韵律词边界V#C,VN#C之间的无声间隙和过渡音存在的问题,以及由此造成的合成语音中词或短语之间的顿挫感和个别音段自然度较差的问题.该文在基于对普通话协同发音生理(EPG)研究的基础上,揭示了韵律词边界存在的协同发音现象并提出了解决合成自然度问题的方案.结果表明:韵律词边界闭塞(GAP)和停顿(SP)的区别在于,停顿表现在元音韵尾无过渡音且时长延长,辅音无声段时间较长,而闭塞则不同;语料库中增加擦音前韵尾的标注信息作为合成的匹配规则,可以消除合成中擦音前的顿挫感;韵尾过渡音中舌前辅音前面的韵尾F2上升,舌前辅音中的翘舌音/zh,ch,sh,r,l/使韵尾的F3下降.舌根音、唇音和唇齿音使前面的韵尾F2下降;语调短语的韵律词边界没有V#C、VN#C的过渡音且边界间是停顿而非闭塞,不存在协同发音现象. 相似文献

9.

维吾尔语韵律建模

《清华大学学报(自然科学版)》2017,(12)

对维吾尔语的韵律结构进行了全面的研究,从维吾尔语语音合成(text to speech,TTS)语音库中提取了音节的时长、能量、基频均值、最大值、最小值和基频范围等韵律特征参数,分析了其在音节处于不同韵律层次时的变化规律。提取了语音数据中韵律边界前后的音节延长量、音高重置和无声段等声学特征参数,并对它们的分布规律进行了统计分析。实验结果表明:不同韵律层级之间时长延长量和音高差值随着边界层级的提高而增加;韵律词边界之间没有显著地停顿,韵律短语和语调短语层级边界之间的平均停顿时长分别是154.2和212.8ms。相似文献

10.

基于Viterbi解码的中文合成音库韵律短语边界自动标注

杨辰雨朱立新凌震华戴礼荣《清华大学学报(自然科学版)》2011,(9):1276-1281

该文提出了一种基于Viterbi解码的中文合成音库韵律短语边界自动标注方法,以降低大语料库单元拼接合成系统的构建成本。该方法分为模型训练和韵律标注两阶段:模型训练阶段得到频谱、基频和音素时长的上下文相关隐Markov模型(hidden Markov model,HMM);标注阶段借助训练得到的模型采用Viterbi解码完成韵律短语自动标注。实验结果表明:该方法进行韵律短语边界标注时的F-score值达到77.64%,超过了人工标注时不同标注人员之间的一致性水平;另外该方法可以方便地增加待标注韵律属性,具有良好的扩展性。相似文献

11.

Pause or No Pause？--Prosodic Phrase Boundaries Revisited

郑秋豫张俊祥《清华大学学报》2008,13(4):500-509

This study presents evidence from analyses of the acoustic parameters of fluent continuous speech to show that within-paragraph prosodic phrase boundaries are related more to contrasts of neighborhood prosodic states rather than between-phrase pause durations; prosodic states receive more constraints from higher level discourse information. By revising a modular acoustic model by Tseng＇s hierarchical prosodic phrase grouping framework and examining the much varied prosodic phrase （PPh） boundary B3 within speech paragraph, we show that statistical accounts of layered contributions reveal distinct contrasts between boundary immediate duration and intensity patterns irrespective of pause duration. Contrasts of FO contour patterns were also observed in these locations. Evidence was also obtained to illustrate how PPh boundary states are specified more by higher level discourse information than by lower level prosodic word construction. These combined results suggest that contrastive neighboring prosodic states are more significant cues to PPh boundaries than boundary pause duration. The results also help explain why in fluent speech between-phrase pause durations vary greatly, and can be applied to automatic speech segmentation. 相似文献

12.

Pause or No Pause?——Prosodic Phrase Boundaries Revisited

TSENG Chiu-Yu CHANG Chun-Hsiang 《清华大学学报》2008,13(4)

This study presents evidence from analyses of the acoustic parameters of fluent continuous speech to show that within-paragraph prosodic phrase boundaries are related more to contrasts of neighborhood prosodic states rather than between-phrase pause durations; prosodic states receive more constraints from higher level discourse information.By revising a modular acoustic model by Tseng's hier-archical prosodic phrase grouping framework and examining the much varied prosodic phrase (PPh) boundary B3 within speech paragraph,we show that statistical accounts of layered contributions reveal dis-tinct contrasts between boundary immediate duration and intensity patterns irrespective of pause duration.Contrasts of F0 contour patterns were also observed in these locations.Evidence was also obtained to illus-trate how PPh boundary states are specified more by higher level discourse information than by lower level prosodic word construction.These combined results suggest that contrastive neighboring prosodic states are more significant cues to PPh boundaries than boundary pause duration.The results also help explain why in fluent speech between-phrase pause durations vary greatly,and can be applied to automatic speech segmentation. 相似文献

13.

Acoustic analysis and decision tree-based shifting hierarchical approach for prediction of Uyghur prosodic boundary

Guljamal Mamateli Askar Hamdulla 《武汉大学学报:自然科学英文版》2013,18(4):363-368

Correct prosodic boundary prediction is crucial for the quality of synthesized speech in text-to-speech system. This article mainly presents the prosodic hierarchy of Uyghur language, which belongs to Turkish language family of Altaic language system and further verifies the reliability of proposed Uyghur prosodic boundary annotation rules by acoustic analysis. In the prediction part, a two-layer shifting hierarchical approach based on decision tree is used for predicting prosodic word and prosodic phrase boundary, and the influence of different feature sets on the Uyghur prosodic boundary prediction is also investigated. Experimental results clearly show the acoustical changes and automatic prediction performance of different prosodic boundaries of Uyghur language, thus laying a good foundation for further research. 相似文献

14.

基于超音段韵律特征和GMM-UBM的文本无关的说话人识别

许东星戴蓓缮刘青松许敏强《中国科学技术大学学报》2010,40(2)

提出一种采用超音段韵律特征和GMM-UBM模型结构的文本无关的说话人识别方法,用多尺度小波分析方法从短时倒谱参数MFCC和基频F0随时间变化的韵律中分别提取可用于文本无关说话人识别的超音段韵律特征参数PMFCC和PF0,并组成联合参数PMFCCF0.在NIST068side-1side复杂背景电话手机语音数据库上的说话人确认实验则表明,采用一阶小波分析方法提取的超音段韵律参数PMFCC的识别性能与短时MFCC相当,采用超音段韵律特征PMFCCF0的系统确认性能比采用短时MFCC系统有较大的提高.在微软数据库进行不同信噪比测试语音的说话人辨认实验表明,PMFCCF0有比短时MFCC更好的噪声鲁棒性. 相似文献

15.

基于韵律语段的语音情感识别方法研究 总被引：2，自引：0，他引：2

韩文静李海峰《清华大学学报(自然科学版)》2009,(Z1)

语音情感识别领域提取情感特征时,普遍采用"不同情感类别,相同时长基准"的做法,忽略了人耳敏感的韵律段长会依情感不同而有所差异的现象。本文首先通过情感识别实验确定各类情感的最佳识别段长,作为人耳敏感韵律段长。并构造了基于韵律段特征的多重Elman网络模型,以期对不同情感基于特定敏感韵律段长进行识别和对多分类器识别结果进行有效融合,实现了对人耳情感辨识规律的模拟。结果表明,使用敏感韵律段特征的系统识别率达到67.9%,与使用定长语段特征相比有了很大的提高。相似文献

16.

基于正弦模型的汉语语音时长和音高的修正

周江扬柴佩琪《同济大学学报(自然科学版)》2001,29(3):312-316

把一种基于语音的正弦模型的音高和时长修正算法应用于汉语普通话语音的韵律调整,可调范围比较大,而且保证了合成语音的清晰度与自然度,非正式测听结果表明：该算法是一种很符合汉语语音的韵律调整的算法。相似文献