首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到17条相似文献,搜索用时 968 毫秒
1.
对于大规模的语音语料,语音切分方法主要有传统的人工切分和机器自动化切分2种方式.人工切分大规模语音语料的切分质量易控制,但效率低、成本高;机器自动化切分效率高,但后期查找切分错误时任务极其繁重.因而提出一种人机交互语音切分系统,切分人员可选择自动切分算法,设置切分参数,修改有问题的自动切分结果,同时可自动生成用于HTK训练的标注文件.以课题组采集的1 000个普米语语音文件为研究对象,以普米语孤立词为切分基元,机器自动化切分存在难以避免的切分错误,后期检查时工作量巨大;然而使用本文提出的人机交互语言切分系统进行切分,切分人员在无需高认知度的情况下也可做到近100%的切分正确率.  相似文献   

2.
该文提出了一种基于Viterbi解码的中文合成音库韵律短语边界自动标注方法,以降低大语料库单元拼接合成系统的构建成本。该方法分为模型训练和韵律标注两阶段:模型训练阶段得到频谱、基频和音素时长的上下文相关隐Markov模型(hidden Markov model,HMM);标注阶段借助训练得到的模型采用Viterbi解码完成韵律短语自动标注。实验结果表明:该方法进行韵律短语边界标注时的F-score值达到77.64%,超过了人工标注时不同标注人员之间的一致性水平;另外该方法可以方便地增加待标注韵律属性,具有良好的扩展性。  相似文献   

3.
蒙古语电话语音的研究刚刚起步,建立规模较大的、通用的电话语音语料库成为了重要的基础工作.本次建立的蒙古语电话语音语料库是以自然口语的对话形式进行录制,并且体现了不同电话信道、不同方言、不同年龄段说话人的特点.本文详细讨论了语料库的录制整理、语音切分和语音标注等几个问题.本次建立的语料库为蒙古语电话语音的语音识别、语音检索、语音监控和说话人识别等技术的研究提供了真实的实验数据.  相似文献   

4.
协同发音是音素在语流中受前后音素的影响,而使2个以上音素的发音特征同时出现的现象.大语料库语音拼接算法获得的语音合成效果最好,但录制语料困难、算法复杂、耗费时间,需要占用很大的存储空间,在应用中存在困难.为此,针对小语料库语音合成,提出参数修改和波形拼接相结合的语音合成方法,通过参数修改方法合成协同发音段,再与自然语音进行波形拼接.实验表明,该算法合成的语音效果较好,而且对语料库内容要求较低.  相似文献   

5.
自动语音切分是语音识别、声纹识别、语音降噪等语音应用中非常重要的预处理环节,切分算法的优劣直接影响了系统输出结果的精度.在空管地空通话中,传输信道噪声、天气因素以及说话人工作状态均会对语音信号产生影响,进而在一定程度上影响语音切分性能.在分析空管地空通话语音特性基础上,提出了一种基于CGRU网络多输入特征的自动语音切分方法.该方法结合地空通话的特点,采用深度学习的方法进一步提取语音信号的时域和频域非线性特征,将语音信号帧分类为语音帧、结束帧以及其他帧三类.实验对比了多种语音特征作为输入对切分效果的影响,同时验证了GMM、CNN、CLDNN、CGRU等切分算法在真实地空通话测试集上的表现,并提出了一种简单预测结果平滑算法.实验结果表明,文中提出的自动切分方法在地空通话中具有明显优势,分类模型的AUC值达到了0.98.  相似文献   

6.
针对几百小时粗标注大语料库, 提出一种新颖的语音合成系统构建方法。首先, 借助于语音识别、文本对齐和句法分析等技术实现大语料库的自动筛选与标注。 然后, 为了有效解决大语料库声学模型训练中存在的内存空间以及计算时间开销过大等问题, 优化了传统的训练流程, 在不损失声学模型准确性的前提下, 显著提高了模型的训练速度。主观实验表明, 与具有精标注的小语料库相比, 引入粗标注的大语料库可以带来0.5分左右的MOS提升。  相似文献   

7.
为了提高词性标注模型训练语料的质量,设计了一种利用FP-Growth算法从训练语料库中自动获取词性标注规则的方法,并将该方法与基于Apriori算法的词性标注规则获取方法进行了对比实验.实验结果显示,对于0.1万、0.2万和1万词级的小规模语料库,2种方法获取的词性标注规则条数均相同,但基于FP-Growth算法的时间耗费分别仅为基于Apriori算法的0.013 866%,0.010 399%,0.003 132%;对于10万、100万词级的训练语料库,基于Apriori算法无法获取任何规则,但基于FP-Growth算法依然可以在合理时间内获取有效的规则.这说明,基于FP-Growth算法的词性标注规则获取方法是可行且高效的,满足在优化训练语料库时能从不同规模的语料库中自动获取词性标注规则的实际需求.  相似文献   

8.
近些年来语料库语言学的发展较为迅速,语料库的建设成为一项重要的工作.在对语料加工的过程中,保证词性标注的一致性也成为建设高质量语料库的重要问题.目前国内外对汉语语料库词性标注结果的校对,还停留在人工校对上,对词性标注结果不一致现象尚未进行系统的研究.对于词性标注方法不是很成熟的维吾尔语语料库来说,词性校对方面的研究工作更少.首先概要介绍了一种维吾尔语的标注方法,并受一些文献的启发,根据维吾尔语的特点对其进行词性标注自动校对的研究,并分析其适用于维吾尔语词性校对的可行性,进而提高维吾尔语词性标注的正确率.  相似文献   

9.
文章以维吾尔文为对象,提出了一种汉维对齐的维文语料库获取方法,通过对照汉维特点,首先对维文进行词干切分,并在此基础上借助词干表和词频表进行词性标注,然后对汉维进行对齐,从而实现汉维双语语料库的获取,对维文及其他少数民族语言的分析及研究提供一种可行的方法.  相似文献   

10.
多模态语料库作为一种新型计算机辅助医学诊断与学习研究的工具,有利于相似病例的诊治借鉴,但基于直观影像和电子病历标注的多模态医学语料库并不多见,且多数为人工构建,费时费力,如甲状腺等语料库.因此,该文提出了一种基于医学影像和病历文本的甲状腺多模态语料库的自动构建方法.由于甲状腺结节的声像图表现复杂多样以及良恶性判断困难,...  相似文献   

11.
该文基于优化的检测网络和多层感知(multi-layerperception,MLP)特征,提出一种可以更加准确地检测出错误发音类型的方法。首先,从第二语言学习的语音库中提取出基本的发音规则以及组合的发音规则,并相应地计算它们发生的先验概率,再将这些具有先验概率的规则用于构建基于多发音的扩展检测网络。然后在检测过程中,引入基于发音特征的MLP特征来描述发音概率,替代了传统的语音声学特征。最后使用基于MLP特征的GMM-HMM框架从检测网络中识别出最可能的发音音素串。实验表明:该方法将音素识别正确率提高了3.11%,错误类型准确率提高了7.42%。  相似文献   

12.
13.
提出一种基于语境相似度的中文分词一致性检验方法。首先利用词法和句法层面的特征, 设计基于构词、词性和依存句法的分类规则, 再使用预训练词向量, 对不一致字串所在语境的语义信息进行编码, 通过语境间的语义相似度对不一致字串进行分类。在人工构建的36万字分词语料库中进行分词一致性检验, 结果表明该方法能够有效地提高中文分词一致性检验的准确率。进一步地, 使用3 种主流中文分词模型在修正一致性后的分词语料中重新训练和测试, 结果表明该方法可以有效地提高分词语料库的质量, 3种中文分词模型的F1值分别提高1.18%, 1.25%和1.04%。  相似文献   

14.
李琼 《皖西学院学报》2011,27(1):108-110
为了建设一个面向中文信息处理的大规模复句"精加工"语料库,首先要完成自动分词和词性标注工作,在此基础上进行分句层次和关系的自动划分和标注。由于标点符号是最直观而明晰的断句标记,我们编制的初始程序让计算机一"碰到"标点符号就把它前后的语言片段都判定为分句。这就为今后基于句法和语义知识的非分句识别奠定了良好的基础。  相似文献   

15.
在借鉴和改进了一种新的语种辨识方法———基于高斯混合模型(GMM)符号化和语言模型方法———的基础上,建立了一个汉语方言自动辨识系统.实验使用了一个多说话人、非特定文本、连续语音汉语方言语音库进行系统测试.在3种主要汉语方言的辨识中,15 s语料测试平均辨识率达到了90.7%.  相似文献   

16.
基于人工标引的中文学术期刊文献自动分类算法   总被引:3,自引:0,他引:3  
为了解决期刊电子化的自动分类问题 ,提出了一种基于中文学术期刊人工标引的自动分类算法。这种算法主要利用自动分词得到各文献的特征词向量空间 ,并考虑到人工标引在分类中的关键作用 ,得到综合了特征词 TF和 IDF权重的分类准则。通过适当训练建立分类库 ,计算待分类样本与已知分类的相似性 ,判别各分类。实验表明 :该分类算法可以获得 85 %的分类识别率  相似文献   

17.
一种基于SVM和规则消除组合型歧义的算法   总被引:2,自引:0,他引:2  
歧义的处理是影响分词系统切分精度的重要因素,也是中文自动分词系统中较为困难的问题.提出一种基于支持向量机(SVM)和规则(Rules)相结合的算法(SR算法),对中文分词过程中的组合型歧义字段进行排歧.SR算法主要思想是利用支持向量机分类的原理,结合词性搭配的一些规则排除组合型歧义.实验表明,用此算法对几种不同的语料进行排歧测试,排除组合型歧义字段的切分正确率可达83%左右,为解决中文自动分词难题提供了一条新路径.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号