期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

基于概率频度的普通话韵律结构预测统计模型 总被引：1，自引：0，他引：1

郑敏蔡莲红《清华大学学报(自然科学版)》2006,46(1):78-81

为进一步提高文语转换系统中韵律结构预测的准确度,提出了一个基于概率频度的统计模型的方法,预测韵律词和韵律短语边界两级韵律结构。该方法提取与韵律词和韵律短语边界有关的语言学特征(词性、语法词、长度和位置等),并进行样本训练计算各个特征的概率频度值,最终分别建立韵律词和韵律短语的统计模型。实验结果表明:统计模型的方法对于韵律词和韵律短语边界预测的正确率分别可达90.6%和84.6%,并与决策树算法和T ransform ation-based learn ing(TBL)转换规则学习算法比较,提高10%以上的正确率。相似文献

2.

基于静音时长和文本特征融合的韵律边界自动标注

傅睿博陶建华李雅温正棋《清华大学学报(自然科学版)》2018,(1)

韵律边界标注对于语料库建设和语音合成有着至关重要的作用,而自动韵律标注可以克服人工标注中耗时、不一致的缺点。仿照人工标注流程,该文运用循环神经网络分别对文本和音频两个通道训练子模型,对子模型的输出采用模型融合的方法,从而获得最优标注。以词为单位提取了静音时长,与传统以帧为单位的声学特征相比更具有明确的物理意义,与韵律边界的联系更加紧密。实验结果表明:相比传统声学特征,该文所采用的静音时长特征使自动韵律标注的性能有所提高;相比直接特征层面的方法,决策融合方法更好地结合了声学和文本的特征,进一步提高了标注的性能。相似文献

3.

基于预训练语言表示模型的汉语韵律结构预测

张鹏远卢春晖王睿敏《天津大学学报(自然科学与工程技术版)》2020,(3):265-271

韵律结构预测作为语音合成系统中的一个关键步骤,其结果直接影响合成语音的自然度和可懂度.本文提出了一种基于预训练语言表示模型的韵律结构预测方法,以字为建模单位,在预训练语言模型的基础上对每个韵律层级设置了独立的输出层,利用韵律标注数据对预训练模型进行微调.另外在此基础上额外增加了分词任务,通过多任务学习的方法对各韵律层级间的关系及韵律与词间的关系建模,实现对输入文本各级韵律边界的同时预测.实验首先证明了多输出结构设置的合理性及使用预训练模型的有效性,并验证了分词任务的加入可以进一步提升模型性能;将最优的结果与设置的两个基线模型相比,在韵律词和韵律短语预测的F1值上与条件随机场模型相比分别有2.48%和4.50%的绝对提升,而与双向长短时记忆网络相比分别有6.2%和5.4%的绝对提升;最后实验表明该方法可以在保证预测性能的同时减少对训练数据量的需求. 相似文献

4.

采用重音调整模型的HMM语音合成系统

李雅潘诗锋陶建华《清华大学学报(自然科学版)》2011,(9):1171-1175

韵律模型一直是语音合成中的研究重点,而重音则是目前韵律研究中的主要难点。在已有的研究工作中重音的定性分析较多,但重音生成则相对较少。该文采用基于重音调整的方法,构建了一个支持重音的隐Markov模型(hid-den Markov model,HMM)语音合成系统。在文本分析模块引入最大熵模型完成了基于文本特征的重音预测,然后根据重音调整韵律参数得到调整后的HMM模型,最后采用基于隐Markov模型的语音合成技术(hidden Markov modelbased speech synthesis,HTS)系统合成语音。实验结果表明:采用该方法能够合成出抑扬顿挫的语音。该方法的优势在于能够灵活地扩展到对其他语音表现力的合成。相似文献

5.

汉语韵律边界定位与选音算法研究

程勇吴玺宏迟惠生《北京大学学报(自然科学版)》2004,40(3):451-457

论述了采用统计模型进行汉语韵律层次结构分析和韵律建模的思路,将韵律结构划分为3个基本层级：韵律词,韵律短语和韵律短语群,提出了一种新的基于统计的韵律结构模型。实验表明该模型对韵律词边界的预测准确率和召回率分别达90.37%和92.48%：对韵律短语边界的预测准确率和召回率分别达82.43%和85.59%。同时,描述了一个汉语连续语流语音合成的选音算法,它适用于基于大语料库的语音合成系统。由于同时考虑单音节、二字韵律词、三字韵律词和四字韵律词,从而降低了因拼接点不连续而造成的音质损失,提高了合成语音的自然度。相似文献

6.

基于HMM的藏语语料库词性自动标注研究

苏俊峰祁坤钰本太《西北民族学院学报》2009,30(1):42-45

针对藏语区别于英语和汉语,分析藏语的构形特征,得到词性标注集.从人工标注的语料中统计词和词性频率以及训练得到二元语法的HMM模型参数,运用Viterbi算法完成基于统计方法的词性标注. 相似文献

7.

韵律词边界的协同发音问题——对语音合成自然度的思考 总被引：1，自引：0，他引：1

郑玉玲《清华大学学报(自然科学版)》2008,48(Z1):645-651

就目前语音合成自然度的现状,探讨了合成语音中韵律词边界V#C,VN#C之间的无声间隙和过渡音存在的问题,以及由此造成的合成语音中词或短语之间的顿挫感和个别音段自然度较差的问题.该文在基于对普通话协同发音生理(EPG)研究的基础上,揭示了韵律词边界存在的协同发音现象并提出了解决合成自然度问题的方案.结果表明:韵律词边界闭塞(GAP)和停顿(SP)的区别在于,停顿表现在元音韵尾无过渡音且时长延长,辅音无声段时间较长,而闭塞则不同;语料库中增加擦音前韵尾的标注信息作为合成的匹配规则,可以消除合成中擦音前的顿挫感;韵尾过渡音中舌前辅音前面的韵尾F2上升,舌前辅音中的翘舌音/zh,ch,sh,r,l/使韵尾的F3下降.舌根音、唇音和唇齿音使前面的韵尾F2下降;语调短语的韵律词边界没有V#C、VN#C的过渡音且边界间是停顿而非闭塞,不存在协同发音现象. 相似文献

8.

基于合成质量预测的单元挑选语音合成优化方法

宋阳凌震华戴礼荣《清华大学学报(自然科学版)》2013,(6):762-766

近年来提出的基于隐Markov模型的单元挑选语音合成方法,较好地解决了传统拼接合成中存在的依赖较多人工干预以及合成效果不稳定性的问题,但该方法在综合不同声学统计模型度量时使用的模型权值无法自动训练获得,且人工优化较为困难。该文提出了一种基于合成质量预测的模型权值优化方法。该方法首先收集较少的人工测听结果并采用多元自适应回归样条构建针对不同权值下合成语音质量的预测模型,然后基于该预测模型利用模式搜索算法自动搜索最优权值。实验证明该方法可以有效优化模型权值并改善合成语音的自然度。相似文献

9.

基于隐式Markov方法的福建省降水预测

《清华大学学报(自然科学版)》2010,(6)

建立了一个基于4个隐式状态的Markov方法的降水预测模型,用以研究福建省降水规律。利用Bayes信息评价方法来确定隐式状态的数目,利用Baum-Welch算法来训练模型参数,将Viterbi算法用于隐式Markov模型的最优状态估计,确定最优隐式状态序列。分析福建省4个气象站在1981—2008年间28 a的降水数据,其中前20 a的数据用于模型学习和参数训练,后8 a的数据用于模型验证和评价。结果表明:该模型可模拟降水规律,并为突发天气预测提供了有效的方法。相似文献

10.

蒙古文词性标注及融合词性因子的蒙汉统计机器翻译

玉霞王斯日古楞《内蒙古师范大学学报(自然科学版)》2015,(3):364-367,371

借鉴并利用基于短语的因子化机器翻译方法,结合基于隐马尔科夫模型的词性标注系统实现了蒙古文的自动词性标注.首先使用基于短语的因子化机器翻译方法对词表词进行标注,然后用基于隐马尔科夫模型的词性标注方法对生词进行标注.实验结果表明,采取的蒙古文词性标注方法的准确率达到97.91%.最后,将该方法标注的词性融入到蒙汉统计机器翻译系统后,译文质量有了较大提高,进一步证明该方法的有效性和实用性. 相似文献

11.

Pause or No Pause?——Prosodic Phrase Boundaries Revisited

TSENG Chiu-Yu CHANG Chun-Hsiang 《清华大学学报》2008,13(4)

This study presents evidence from analyses of the acoustic parameters of fluent continuous speech to show that within-paragraph prosodic phrase boundaries are related more to contrasts of neighborhood prosodic states rather than between-phrase pause durations; prosodic states receive more constraints from higher level discourse information.By revising a modular acoustic model by Tseng's hier-archical prosodic phrase grouping framework and examining the much varied prosodic phrase (PPh) boundary B3 within speech paragraph,we show that statistical accounts of layered contributions reveal dis-tinct contrasts between boundary immediate duration and intensity patterns irrespective of pause duration.Contrasts of F0 contour patterns were also observed in these locations.Evidence was also obtained to illus-trate how PPh boundary states are specified more by higher level discourse information than by lower level prosodic word construction.These combined results suggest that contrastive neighboring prosodic states are more significant cues to PPh boundaries than boundary pause duration.The results also help explain why in fluent speech between-phrase pause durations vary greatly,and can be applied to automatic speech segmentation. 相似文献

12.

Pause or No Pause？--Prosodic Phrase Boundaries Revisited

郑秋豫张俊祥《清华大学学报》2008,13(4):500-509

This study presents evidence from analyses of the acoustic parameters of fluent continuous speech to show that within-paragraph prosodic phrase boundaries are related more to contrasts of neighborhood prosodic states rather than between-phrase pause durations; prosodic states receive more constraints from higher level discourse information. By revising a modular acoustic model by Tseng＇s hierarchical prosodic phrase grouping framework and examining the much varied prosodic phrase （PPh） boundary B3 within speech paragraph, we show that statistical accounts of layered contributions reveal distinct contrasts between boundary immediate duration and intensity patterns irrespective of pause duration. Contrasts of FO contour patterns were also observed in these locations. Evidence was also obtained to illustrate how PPh boundary states are specified more by higher level discourse information than by lower level prosodic word construction. These combined results suggest that contrastive neighboring prosodic states are more significant cues to PPh boundaries than boundary pause duration. The results also help explain why in fluent speech between-phrase pause durations vary greatly, and can be applied to automatic speech segmentation. 相似文献

13.

Modeling Pitch Contour of Chinese Mandarin Sentences with the PENTA Model

《清华大学学报》2012,(2):218-224

In continuous speech,the pitch contour of the same syllable may vary much due to its contextual information.The Parallel Encoding and Target Approximation (PENTA) model is applied here to Mandarin speech synthesis with a method to predict pitch contours for Chinese syllables with different contexts by combining the Classification And Regression Tree (CART) with the PENTA model to improve its prediction accuracy.CART was first used to cluster the syllables’ normalized pitch contours according to the syllables contextual information and the distances between pitch contours.The average pitch contour was used to train the PENTA model with the average contour for each cluster.The initial pitch is required with the PENTA model to predict a continuous pitch contour.A Pitch Discontinuity Model (PDM) was used to predict the initial pitches at positions with voiceless consonants and prosodic boundaries.Initial tests on a Chinese four-syllable word corpus containing 2048 words were extended to tests with a continuous speech corpus containing 5445 sentences.The results are satisfactory in terms of the Root Mean Square Error (RMSE) comparing the predicted pitch contour with the original contour.This method can model pitch contours for Mandarin sentences with any text for speech synthesis. 相似文献

14.

中英双语混合语音识别研究

张晴晴潘接林颜永红《重庆邮电大学学报(自然科学版)》2008,20(4):391-396

介绍了针对歌曲检索中出现的中英混合现象所开发的中英双语识别系统。在双语混合语音识别中,主要面临的2个问题：①在保证双语识别率的前提下控制系统的复杂度;②有效处理插入语中原用语引起的非母语口音现象。为了解决双语混合现象以及减少统计建模所需的数据量,通过音素混合聚类方法建立起一个统一的双语识别系统。在聚类算法中,提出了一种新型基于混淆矩阵的两遍音素聚类算法（TCM）,并将该方法与基于声学似然度准则的聚类方法进行了比较。实验结果表明：利用TCM进行音素聚类的识别性能优于基于声学似然度音素聚类的性能,最终得到的中英双语识别系统在纯英文测试集上的短语错误率（PER）相对基线单英文识别系统下降7.19%;在双语混合测试集上PER相对基线混合模型下降13.78%;同时在纯中文测试集上保持了基线单中文识别系统的性能。相似文献

15.

基于多种知识的盲文翻译的研究 总被引：1，自引：0，他引：1

江铭虎朱小燕夏莹谭刚包塔《清华大学学报(自然科学版)》2000,40(9):69-73

盲文到汉字的转换研究 ,分为盲文到拼音和拼音到汉字的转换研究。论文通过引入音码表 ,很好地解决了盲文到拼音转换中的歧义问题。对于拼音到汉字的转换 ,采用Markov模型 ,使用平滑算法解决此模型中的数据稀疏问题 ,并且对通常使用的字级别二元模型的平滑算法进行了改进以适应词级别二元模型。为每一个拼音句子建立一个拼音到汉字转换多部图 ,并在此转换多部图中使用 Viterbi算法搜索一条具有最大似然度的汉语句子 ,或使用 N - Best算法搜索具有头 N大似然度的 N个汉语句子。同时研究了从 1选到 N选的转换判据 ,以进行自动的 N - Best转换。实验表明 ,盲文到汉字转换系统的转换正确率为 94.38% ,若剔除专有名词 ,转换正确率还可上升 2个百分点。对 N - Best搜索算法的测试表明 5选正确率比 1选正确率提高了 3个百分点相似文献

16.

Acoustic analysis and decision tree-based shifting hierarchical approach for prediction of Uyghur prosodic boundary

Guljamal Mamateli Askar Hamdulla 《武汉大学学报:自然科学英文版》2013,18(4):363-368

Correct prosodic boundary prediction is crucial for the quality of synthesized speech in text-to-speech system. This article mainly presents the prosodic hierarchy of Uyghur language, which belongs to Turkish language family of Altaic language system and further verifies the reliability of proposed Uyghur prosodic boundary annotation rules by acoustic analysis. In the prediction part, a two-layer shifting hierarchical approach based on decision tree is used for predicting prosodic word and prosodic phrase boundary, and the influence of different feature sets on the Uyghur prosodic boundary prediction is also investigated. Experimental results clearly show the acoustical changes and automatic prediction performance of different prosodic boundaries of Uyghur language, thus laying a good foundation for further research. 相似文献

17.

段长在汉语语音识别系统后处理阶段的应用

李曜刘加《清华大学学报(自然科学版)》2009,(Z1)

针对传统的隐含马尔可夫模型(hidden Markov model,HMM)存在的缺陷,该文提出了一种在识别的后处理阶段使用段长模型的方法,并应用在基于HMM的汉语识别系统上。该方法利用归一化的段长模型对识别系统的解码结果重新打分,比较前后两次算出的分数从而选出更可靠的识别结果。实验表明,通过该方法将段长模型应用在识别过程中,可以显著提高识别系统的性能,大量减少识别结果中的插入错误。数据显示,该方法使识别系统的音节错误率下降了大约10%,识别系统最终的插入错误和删除错误都低于1%。相似文献

18.

连续语流中重音标注和大规模重音语料库建设

卢颖超李雅陶建华许小颖《清华大学学报(自然科学版)》2011,(9):1271-1275

规范的重音标注将对重音研究和语音合成技术产生积极影响。该文通过对大规模语料进行语流中词重音和句重音标注,总结出了重音标注的规则。重音标注包括标注训练、正式标注、语料库建立3个步骤。通过标注训练明确重音概念和标注方法,词重音采取词内对比法,所谓"重"主要指突显度和饱满度;句重音采取呼吸句群单位标注法,注重标注的层级性,不跨句群进行重音知觉对比。重音标注完成后,重音语料库也随之建立起来。这个大规模的重音语料库具备词重音和句重音信息,适用于语音合成领域,能较好地提高合成语音的自然度。相似文献