共查询到17条相似文献,搜索用时 78 毫秒
1.
藏语语音合成语料库的好坏对合成语音质量有很大的影响。本文介绍了藏语拉萨话语音合成语料库的设计过程,语料的设计考虑了内容上和语义上的完整性,利用Greed算法实现对语料的选取,同时严格按照标准的录音过程对语料进行录制,最后设计了一套韵律标注规则对语料库中的语音数据进行了音段特征和超音段特征的标注,基本完成了藏语拉萨话语音合成语料库的建立。 相似文献
2.
由于传统语料标注方法耗时耗力,已经难以适应大数据语料的处理,该文提出了大数据语音语料库的社会标注策略。引入了针对语音数据标注的六元组模型,将语音资源的自身特征考虑进去,并将标签对象扩展为更为广义的标记。提出基于"兴趣+收获+报酬"的标注模式,并建立标注质量的3层检验机制。通过工程实现和应用,验证了本文方法在标注效率、质量和成本等方面都具有明显优势。同时,该标注策略可以推广到其他语料的标注,特别是对主观性较强的翻译语料和评价型语料的标注。 相似文献
3.
针对藏语区别于英语和汉语,分析藏语的构形特征,得到词性标注集.从人工标注的语料中统计词和词性频率以及训练得到二元语法的HMM模型参数,运用Viterbi算法完成基于统计方法的词性标注. 相似文献
4.
5.
6.
采用语料库方法,构建了一个具有4500余条词的白马藏语语音库,并做了规范的音标标注。该库涵盖了《藏语方言调查表》91%的词汇,包含了白马藏语固有的语音和词汇特征,完全能够代表白马藏语普遍的语言现象。依据语音库标注信息,从发音部位和发音方法两方面对白马藏语声母和韵母的音位系统进行了统计分析,获得了详细的白马藏语音系数据。同时,按发音方法归纳了声母与韵母的组合规律及其分布特征,总结了白马藏语语音与藏语书面语的对应关系,为今后的白马藏语研究提供了详实的数据和新的研究思路。 相似文献
7.
韵律标注是藏语语音合成语料库建设的重要环节.文章参考汉语韵律标注的研究成果,结合藏语自身的语音特点以及韵律特征,进行了面向藏语语音合成语料库的韵律标注研究,并设计一套包含拉丁转写、声调类型、音节结构、重音类型以及停顿指数的标注规则,为藏语语音韵律特征的研究提供了直观的、科学的方法. 相似文献
8.
藏语语义依存分析是以藏语依存句法分析为基础的深层语义研究。该文从词法分析和句法分析等浅层研究出发,结合藏语自身语法结构和语义单位之间的关系特点,实现了藏语语义依存分析。在制定了藏语语义依存关系标注规范并设计了藏语语义依存关系特征模板的前提下,采用感知机进行了藏语语义依存分析模型的训练,经实验该模型在人工标注测试语料上的根准确率、依存弧准确率、依存弧类型准确率及完全准确率等4个指标分别达到了89.56%、78.63%、71.67%及32.32%,证实了该模型在藏语语义依存分析任务中具有良好的性能。 相似文献
9.
10.
藏语语音合成语料数据库的优劣对合成语音质量有很大的影响,语料的设计考虑了音段和韵律,语料库中包含藏语的音节、词语、独白语句和情景对话语等. 相似文献
11.
规范的重音标注将对重音研究和语音合成技术产生积极影响。该文通过对大规模语料进行语流中词重音和句重音标注,总结出了重音标注的规则。重音标注包括标注训练、正式标注、语料库建立3个步骤。通过标注训练明确重音概念和标注方法,词重音采取词内对比法,所谓"重"主要指突显度和饱满度;句重音采取呼吸句群单位标注法,注重标注的层级性,不跨句群进行重音知觉对比。重音标注完成后,重音语料库也随之建立起来。这个大规模的重音语料库具备词重音和句重音信息,适用于语音合成领域,能较好地提高合成语音的自然度。 相似文献
12.
CUCBNC:一个引入播音学知识的广播新闻语音库 总被引:1,自引:0,他引:1
该文描述了广播新闻语音库CUCBNC的构建过程。建设该语音库的目的是为了能将播音学相关知识应用到言语工程中。为此,通过解读播音学相关论述,提出了新的韵律特征,包括声音表达特征、语篇重音、意合群和复合韵律短语,并融入到CUCBNC语音库的韵律和文本标注规范中,目前已标注了约14h的语音数据。最后,通过观察相关韵律特征在标注数据中的统计分布,来检验融入了新特征的韵律标注规范是否合适。实验结果表明所提出的韵律特征是科学合理的。 相似文献
13.
文章通过采用两种方法对藏语语音合成语料库中的语音进行音素切分:一种是基于单音素HMM模型的自动切分方法,一种是传统的人工切分方法,并通过实验分析了自动切分与人工切分方法的准确率程度.实验结果表明:在构建语料库时,前者有助于缩短建库周期,尤其对于大语料库的建立会有明显的优势.这种方法既节省了切分与标注的大量时间和人力成本,又提高了语音语料库标注信息的精确度和一致性. 相似文献
14.
15.
16.
17.
中文篇章零元素语料库构建 总被引:1,自引:0,他引:1
针对中文零指代问题, 从篇章视角进行理论分析, 并完成中文篇章零元素语料库(Chinese Discourse Zero Corpus, CDZC)的构建工作。首先, 整理和分析已有的理论研究以及语料资源, 探究篇章层面中文零元素语料库标注的必要性。然后, 采用自底向上、前向搜索的标注策略和人机结合的半自动标注方式, 完成CDZC语料库的构建。最后, 对该语料库进行一系列详细的统计分析。结果表明, CDZC能够充分反映出中文零元素省略的语言特点, 为相关研究提供语料资源支持。 相似文献