首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到17条相似文献,搜索用时 531 毫秒
1.
介绍了针对歌曲检索中出现的中英混合现象所开发的中英双语识别系统。在双语混合语音识别中,主要面临的2个问题:①在保证双语识别率的前提下控制系统的复杂度;②有效处理插入语中原用语引起的非母语口音现象。为了解决双语混合现象以及减少统计建模所需的数据量,通过音素混合聚类方法建立起一个统一的双语识别系统。在聚类算法中,提出了一种新型基于混淆矩阵的两遍音素聚类算法(TCM),并将该方法与基于声学似然度准则的聚类方法进行了比较。实验结果表明:利用TCM进行音素聚类的识别性能优于基于声学似然度音素聚类的性能,最终得到的中英双语识别系统在纯英文测试集上的短语错误率(PER)相对基线单英文识别系统下降7.19%;在双语混合测试集上PER相对基线混合模型下降13.78%;同时在纯中文测试集上保持了基线单中文识别系统的性能。  相似文献   

2.
维语口语发音中很多音素相对标准语产生了发音变异,基于标准语音的识别系统在识别带有发音变异的口语语料时识别率较低。该文针对维吾尔语同化、弱化、脱落、元音和谐等语流音变难点进行分析,对语音、韵律特性进行知识融合与技术创新,运用基于数据驱动和基于专家经验相结合的方法对维吾尔语方言口语中存在的发音变异现象进行研究,统计元音、辅音多发音变化映射对,建立音素混淆矩阵,为维吾尔语方言口语语音识别研究奠定基础。  相似文献   

3.
提出了一种基于音素分类的语声转换算法。根据汉语语音学理论,分析汉语语言结构,通过帧特征分析,构建了汉语元音映射表,指导音素的分类,然后对每类音素进行独立的特征参数转换,解决了传统GMM转换算法的过平滑问题,避免了训练与测试阶段的语料音素之间的不均衡,从而提高语音的可懂度与自然度。客观评测结果表明,基于音素分类的语声转换算法与GMM算法相比,谱距离比值平均降低了9.31%;主观听力测试表明,ABX测试结果提高了10.36%,同时MOS得分平均提高了29.33%。  相似文献   

4.
为了解决基于词语的维吾尔语语音识别系统集外词过多的问题,采用形态分析生成的语素或数据驱动切分生成的统计子词代替词语作为识别系统的词典单元。在此基础上,提出一种根据语素识别系统和统计子词识别系统在声学模型训练数据上的音素错误率差别选择词语最佳分解结果,从而构建语素-统计子词联合词典的方法。在维吾尔语电话交谈式语音识别任务上比较各个系统的性能。实验结果表明,语素或统计子词的运用能有效缓解词语系统集外词过多的问题。与词典大小为200K的词语系统相比,55K的语素-统计子词联合系统使测试集上的音素错误率从45.4%下降到43.8%。  相似文献   

5.
在比较各种汉语语音识别基元的基础上,结合汉语语音和随机轨迹模型的特色,提出了以音素类单元作为汉语连续语音识别系统的识别基元,基于音素基随机轨迹模型的汉语连续语音识别系统的实验结果表明,该方案可行。  相似文献   

6.
在比较各种汉语语音识别基元的基础上,结合汉语语音和随机轨迹模型的特色,提出了以音素类单元作为汉语连续语音识别系统的识别基元.基于音素基随机轨迹模型的汉语连续语音识别系统的实验结果表明,该方案可行.  相似文献   

7.
语言是人类交流信息的主要媒介,如果能用数字计算机来识别语言,必然能对人类交流信息的过程带来无可估量的影响。正因为如此,语言识别问题在近二十年来受到了很大的注意,同时由于这一问题牵涉面很广,边缘性很强,因此它又成为计算机科学中使人颇感兴趣的问题之一。Wolf曾对七十年代初期以前有关这一问题的研究作了一个较好的总结(主要指美国对英语识别所进行的研究)。语音的识别看来基本上所采用的是对于音素或类似于音素的识别,这是因为尽管人可以发出频带相当宽的声音,但作为语音来说,大致上是由几十个基本发音单元,即音素所构成的。这样,我们依靠内存于计算机中的数量不多的音素模型就可能进行语言的识别。英语的音素大致有四十多个。汉语(普通话)计算机识别用的音素可以建立在汉语拼音的基础上。如果仅从元音、辅音来说,则也不过三十多个。汉语拼音把发音单元分为声母和韵母,声母即辅音,韵母则包括单元音和复合元音。关于音素识别方面的一些辅助识别工作,诸如音节、清音、浊音、元音的区分等都与英语识别问题相类似,汉语语音识别方面的一个特殊问题是关于声调的识别。汉语以及许多亚洲语系都有声调识别的问题。汉语(普通话)分成阴平(—)、阳平(/)、上(V)、去(\)四声。如果每一个韵母加上四声的变化,则音素模型的数字将大为增多,这将增加识别检索时的困难。问题的复杂性还不止于此,如地(di)、期(qi)这类字,四声的变化只在于韵母本身,因此不影响其他相关连的音素d、q。如烟(yan)、望(wang)、两(liang) 这类带复合元音的字,四声的变化贯串于整个音节,这就是说四声的变化将影响这一音节中的其他音素,这样一来问题的复杂性就提高了。据说有些方言,如广东话,有多至十种声调的,如果把不纯正的发  相似文献   

8.
徐怡 《科技信息》2012,(15):270-270,287
二语学习者在习得二语语音时会把母语中的音素、声调等迁移到二语当中。方言对英语语音学习的负迁移作用明显。本文通过对淄博方言与英语发音规律的对比研究.分析了淄博方言在英语辅音、元音、重音和语调方面的干扰,进而提出在英语教学中可以采取尽量减少母语对英语语音学习负迁移的教学方法。  相似文献   

9.
南靖磜头客家话只有[ i, a,?]三个单元音,缺失了后高元音[ u];它的元音格局跟下洋客家话的非常相似;[?]有两个变体,呈互补分布,声学和统计分析表明它们是两个不同的元音。类型学考察表明,磜头客家话的三元音格局具有一定的独特性。[?i]变成[?]是一种自然音变,而且元音的系列变化引起了声母的前化。入声的演变,将导致单元音[ u]的重新出现,从而变成[ i, a,?, u]的四元音格局。  相似文献   

10.
为了从计算语音学角度比对朝鲜语与蒙古语单元音的相似性,提出了基于共振峰参数的对比分析方法。首先在提取朝鲜语与蒙古语的单元音前两个共振峰频率F1和F2的基础上,分别计算其均值、标准差和离散度; 其次分析了两种语音单元音共振峰频率分布的差异情况; 最后采用t-检验方法对两种语言单元音共振峰参数进行了相似性比对。对比分析结果表明,采用F1和F2参数可以明显区分不同单元音之间声学特征的差异;另外通过对比发现朝鲜语与蒙古语中有5 对单元音存在声学特征的相似性,该结果与这5 对单元音发音过程中舌位和圆唇度分析是一致的。该朝鲜语与蒙古语单元音声学特征相似性对比分析方法,可以为进一步采用计算语音学方法研究朝鲜语与蒙古语的语音相似性提供依据。  相似文献   

11.
一种新型汉语单音节识别方法   总被引:1,自引:0,他引:1  
介绍了一种新型字基 VQ/HMM语音识别方法: VQ与 HMM分级识别算法。 使得 VQ部分可用作语音识别的第一级处理, HMM部分作第二级识别。在第一级识别中 可引进汉语的音素知识,使 VQ/HMM性能进一步提高,并可用于大字汇表的实时语音识 别,存贮量、计算量均大大减少。用此方法把汉语四声作一个 HMM模型,使汉语 400 个基本音节的识别率达 96%以上.若加上精确四声识别则可识别汉语的 1200种声音。  相似文献   

12.
13.
音素HMM语音识别是当前语音识别领域的一个热点。本文在简单介绍音素识别的相关理论后,着重讨论了一种新的极低速率语音编解码器的原理、方法和其在音素识别上的应用。最后给出相关的实验结果。  相似文献   

14.
研究一种中文语音信息编码技术.通过采用语音小波分析识别处理和语音信息特征编码,包括中文语音小波包分解、语音音素和音节声调识别、口音特征参数提取、语音信息和特征参数组合编码,这种低比特率编码技术理论上可将传输效率提高1倍.  相似文献   

15.
基于音素的发音质量评价算法   总被引:6,自引:0,他引:6  
面对广大的外语学习者,计算机辅助语言学习系统已经成为一种最佳的口语学习方式。该文提出了一种新的应用于计算机辅助语言学习系统的面向英语学习人群的发音质量评价算法,名为PASS(phone-basedautomaticscoreforl2speechquality)。PASS算法以基于隐含Markov模型的语音识别和口音自适应技术为基础,考察了音素发音的准确性和流利性信息,定义了音素级的发音质量分数,从而可以综合得到整句的评分结果。在实验室自行采集和精细标注的非母语语音库上与其他评分算法进行比较实验,PASS与专家评分的句子级相关性达到了0.66,优于其他算法。目前PASS算法已经被成功地应用于清华大学出版社的互动式语言学习系统中。  相似文献   

16.
文章采用了一种以可变长音素序列为拼接单元的维吾尔语语音合成系统的技术方案,阐述了维吾尔语的语言特点及语音合成中必须考虑的语音协同发音等现象,给出了语音库的设计思路及其句子、短语、词语、音节以及音素等多级语音库结构,以便直接从语音库中找到拼接单元,还考虑了怎样合成语音库中没有拼接单元的情况。该方法能更好地利用自然语流的原始信息,提升了系统合成语音效果的自然度。  相似文献   

17.
该文实现了一个实时语音驱动的虚拟说话人面部动画方案。随着语音信号的输入,同步生成对应的面部动画。这种实时语音驱动的虚拟说话人在可视电话、虚拟会议、音视频聊天等即时通讯与娱乐媒体领域具有巨大的应用潜力。由于音素是最小的可分发音单元,因此构建音素识别器,对输入语音信号进行实时音素识别。为提高语音与口型的同步效果,改进了音素识别与输出算法。考虑协同发音影响,利用动态视素生成算法,将识别得到的音素转化为对应的面部动画参数序列。最后用参数序列驱动按照MPEG-4面部动画标准参数化的3-D头部模型,实现面部动画的同步生成。主观MOS评测结果表明:本文所实现的实时语音驱动虚拟说话人在的同步性和逼真度上的MOS评分分别达到了3.42和3.50。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号