期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

张陈昊郑方王琳琳《清华大学学报(自然科学版)》2013,(6):813-817

对于基于Gauss混合模型-通用背景模型(Gaussianmixure model-universal background model,GMM-UBM)方法的文本无关说话人识别,当测试语音时长缩短到很短时,识别率会严重下降。为了充分利用文本内容信息,该文提出了一种基于K-top多音素类模型混合(KPCMMM)的建模方法。在音素识别阶段,利用语音识别得到训练语音的音素序列,在说话人识别阶段利用音素序列对每个说话人训练多个音素类模型,测试语音则在最相近的音素类模型上进行打分判决,K是选取的相近音素类数。由于音素类定义的不同,KPCMMM方法分为基于专家知识和数据驱动这两类。实验结果显示选择合适的K值可以得到更好的识别结果。不同的音素类定义方法的比较实验结果显示:当测试语音时长小于2s时,对比GMM-UBM基线系统,该方法的等错误率(EER)相对下降38.60%。相似文献

2.

面向维吾尔语电话交谈式语音识别的词典设计方法研究

李鑫侯炜计哲《重庆邮电大学学报(自然科学版)》2013,25(3):391-396

为了解决基于词语的维吾尔语语音识别系统集外词过多的问题,采用形态分析生成的语素或数据驱动切分生成的统计子词代替词语作为识别系统的词典单元。在此基础上,提出一种根据语素识别系统和统计子词识别系统在声学模型训练数据上的音素错误率差别选择词语最佳分解结果,从而构建语素-统计子词联合词典的方法。在维吾尔语电话交谈式语音识别任务上比较各个系统的性能。实验结果表明,语素或统计子词的运用能有效缓解词语系统集外词过多的问题。与词典大小为200K的词语系统相比,55K的语素-统计子词联合系统使测试集上的音素错误率从45.4%下降到43.8%。相似文献

3.

基于Multilingual的音素识别及其在语种识别中的应用

王士进孟猛梁家恩徐波《清华大学学报(自然科学版)》2008,48(Z1):678-682

国际上对自动语种识别进行了广泛的研究,提出了各种各样的方法,美国国家标准技术研究所(NIST)多年的评测表明,基于并行音素识别(parallel phoneme recognition language modeling,PPRLM)的方法取得了很好的性能.该文提出了一种基于多种语言的音素识别方法的自动语种识别系统,系统中Multilingual音素集是使用基于数据驱动聚类获得.通过真实环境电话语音测试表明,该方法在只使用了很少的识别时间的情况下,获得了跟传统的PPRLM系统可比的识别正确率.同时经过与PPRLM系统融合后,获得了更好的性能,跟其他主流的几种语种识别方法也有可比的性能. 相似文献

4.

基于语音学分类的汉语三音子识别单元的算法

李春王作英《清华大学学报(自然科学版)》2003,43(1):16-19

为提高语音识别系统的性能,针对汉语语音的单音节结构的特点,提出了建立三音子识别单元的方法。这种方法完全利用语音学知识对上下文进行分类从而实现参数共享,而不同于传统的数据驱动的聚类共享。提出并实现了采用三音子单元的识别系统的训练算法和识别搜索算法。实验表明:基于语音学分类的三音子单元对识别性能有明显的改善,系统的首选误识率相对基线系统降低了28%。相似文献

5.

IBM GALE中文识别系统

张世磊施勤秦勇刘文 CHU StephenM KUO Hong-Kwang MANGU Lidia 《清华大学学报(自然科学版)》2009,(Z1)

为解决中文音频自动转成文字问题,IBM开发了GALE中文识别系统。该系统采用区分性声学模型训练方法和新颖的基于主题的语言模型自适应技术;为获得最优的识别性能,系统采用多遍解码的识别策略。该文还给出该系统在3个测试集上的识别结果:包括广播新闻和广播访谈节目,结果显示,IBM GALE中文识别系统取得了很好的识别性能;此外,该文还分析了特殊声学现象对识别结果的影响,结果显示,对识别率影响最大的3种声学现象为说话人语速过快、语音交叠和口音问题,这指示了系统下一步的改进方向。相似文献

6.

借助音频数据的发音字典新词学习方法

《西安交通大学学报》2016,(6)

针对已有的发音字典扩展方法只能从文本数据中学习新词而无法学习到音频数据中新词的问题,提出了一种基于混合语音识别系统的发音字典新词学习方法。该方法首先分别采用音节和字母音素对混合识别系统对音频数据进行集外词识别,利用系统间的互补性得到尽可能多的新词及其发音候选,然后借助感知器与最大熵模型对得到的新词及发音进行优化,降低错误率,最后实现发音字典的扩展,并利用语法语义信息完成对语言模型参数更新。基于华尔街日报(WSJ)语料库的连续语音识别实验表明:该方法可以有效学习到音频数据中的未知新词,采取的数据优化策略极大地提高了所得新词及发音的精度;在词错误率指标下,字典扩展后系统的识别性能相对基线系统提高约13.4%。相似文献

7.

中文连续语音识别系统音素建模单元集的构建

包叶波胡郁刘聪江辉戴礼荣刘庆峰《清华大学学报(自然科学版)》2011,(9):1288-1292,1297

在识别系统中,建模单元能够勾画一种语言的声学和语音学特性,因此对系统性能起到至关重要的作用。该文参照一些已在大词汇量连续语音识别系统(LVCSR)中取得较好效果的建模单元集,构建了新的音素建模单元集(Ne-wPS)。另外,根据NewPS中元音及其变体对前后接音素协同发音的影响,提出了基于扩展的元音三角图设计问题集(NewQS)的方法。实验表明:NewPS和NewQS结合的识别性能超越了传统的声韵母建模单元集;并且,建模单元数目大幅度的减少给系统后续模块的处理带来了便利。相似文献

8.

基于VTS的稳健语音识别

赵贤宇欧智坚王作英《清华大学学报(自然科学版)》2005,45(7):892-895

为了进一步提高矢量Taylor级数(VTS)算法的模型补偿精度以及在噪声环境下的识别性能,提出将无监督聚类与VTS算法相结合。无监督聚类算法利用噪声模型之间的Kullback-Leibler距离将含噪语音段划分为若干个子段。然后针对各个子段分别进行一阶Taylor级数展开,并在此基础上逐段估计噪声参数和补偿声学模型。该算法结合一个中文数字串识别系统进行实验,在Babble噪声和Gauss白噪声环境下该算法的误识率相对传统的VTS算法分别下降了27.7%和17.8%。证明这种结合无监督聚类的分段VTS算法能够更加有效地将语音和噪声在倒谱域上的非线性混合模型用一阶线性模型来近似。相似文献

9.

谱聚类在汉语方言辨识中的应用

张彪顾明亮王侠《徐州师范大学学报(自然科学版)》2010,28(3):48-50

建立一种好的声学模型对汉语方言识别系统的识别率有着重要的影响.为了改善汉语方言辨识效果,提出了一种新的高斯混合模型初始化方法.该方法将谱聚类算法运用到高斯混合模型参数的初始化之中,并与传统的K-Means初始化方法进行了比较.实验结果表明,谱聚类算法能够更好地优化高斯混合模型参数,并且系统辨识率也有了相对提高. 相似文献

10.

基于人工神经网络的汉语数字语音识别系统

下载免费PDF全文

卢小春胡维平王修信《广西科学》2004,11(4):320-322

利用改进的有序聚类算法得到解决时间规整问题的新算法,在此基础上建立了基于人工神经网络的普通话数字语音识别系统。对基于人工神经网络的算法和基于动态时间伸缩的算法作比较识别实验,结果表明,基于人工神经网络的语音识别算法的识别性能优于传统的动态时间伸缩算法。相似文献

11.

白、汉双语背景下英语教学研究评述

杨勤燕宋元康《大理学院学报：综合版》2006,5(9):70-73

白族在日常生活中说白语，但使用汉语作为书面语言。双语现象早在汉代就有记载，但是大理白族自治州双语教学的研究和实践却是近几年的事。白、汉双语教育的目的是保护白族语言和文化，并实施普通话教育。白语和普通话作为教学语言使用，使以白语为母语的儿童的智力得到开发，语言能力得到提高。大理市的儿童英、汉双语教学实验以提高学生的英语语言能力为目的，取得一定成效；鹤庆金墩初级中学的实验研究表明，通过比较英语和白语语音学习英语，比传统方法更有效。相似文献

12.

嵌入式中等词汇量英语语音识别片上系统 总被引：1，自引：0，他引：1

王国梁梁维谦刘加刘润生《清华大学学报(自然科学版)》2005,45(10):1393-1396

针对目前嵌入式英语语音识别系统中识别性能较差或硬件资源占用较大的问题,提出了一个在16 b定点数据信号处理语音芯片上实现的非特定人、中等词汇量英语命令字识别系统。该系统采用基于连续隐含M arkov模型(con tinuous dens ity h idden M arkov m ode l,CDHMM)的两级识别网络,通过应用改进的音素体系、B ayes ian信息准则模型参数选择算法、决策树和数据驱动相结合的状态聚类方法、最小互信息改变准则特征选择算法,在保证识别率的前提下,大大降低了模型的存贮空间和计算复杂度。实验表明,对1 235词的英语短句的识别率为96.41%,识别时间为0.46倍实时。相似文献

13.

连接数字串语音识别 总被引：2，自引：0，他引：2

尉洪杨鉴《云南大学学报(自然科学版)》2002,24(4):262-265

介绍了语音识别的一般方法,基于隐马尔可夫 (HMM )统计模型和HTK工具包,声学层选用单音子和二音子识别单元,给出了一个简单的,母语为非汉语的非特定人连接数字串识别实验. 相似文献

14.

用 TMS320C31 实时实现电话语音识别系统 总被引：3，自引：0，他引：3

刘加潘胜昔江金涛胡凯军王作英《清华大学学报(自然科学版)》1998,(9)

描述了一个新型实时声控用户交换机语音接口的设计和实现。该系统使用数字信号处理器ＴＭＳ３２０Ｃ３１开发板在ＰＣ机ＷＩＮＤＯＷ平台下实现了与人无关连续命令语音识别,完成拨号、进行电话交换。系统使用少量控制词加上连续数字串构成了电话用户交换系统的常用命令语句,并生成相应识别文法网络（语言模型）。识别采用改进的令牌传递式Ｖｉｔｅｒｂｉ算法。研究中还开发识别系统拒识算法,在无拒识情况下命令语句中数字识别率为９８％以上,数字串（串长＜４）识别率达到９１％以上,通过加入拒识算法,字符串识别率可达９５％以上。相似文献

15.

语音识别中基于模糊聚类分析的参数聚类 总被引：1，自引：0，他引：1

徐向华朱杰郭强《上海交通大学学报》2004,38(12):2086-2088,2093

为减少语音识别中声学模型的参数量，提高参数训练的鲁棒性，基于声学决策树结构，提出利用模糊聚类分析方法对模型参数聚类，包括高斯聚类和方差共享．对大词汇量汉语连续语音识别的实验结果表明：高斯模糊聚类使高斯数减少25％时，识别率提高了0．15％．进一步做模糊方差共享，当方差减少到初始模型的24％，与同样参数量的未进行聚类的模型相比，误识率下降了3．01％，证明了模糊聚类分析在语音参数聚类中的有效性．相似文献

16.

大词表孤立词语音识别的快速搜索算法

梁维谦原道德丁玉国《清华大学学报(自然科学版)》2011,(1):101-104,110

在大词表孤立词语音识别中,Viterbi搜索是时间消耗的主要因素。为改善基线系统性能,根据汉语孤立词识别的特点,提出了一种基于音节切分的束搜索算法,在音节层和词条层进行剪枝。该算法不增加内存开销。实验结果表明:在词表规模为10 000时,该算法以0.23%的识别率下降率为代价,将Viterbi搜索的时间消耗降低为基线系统的26.73%;相对于小词表,该算法在大词表情况下对系统性能的改善尤为明显。相似文献

17.

北大博士对双语语音实验研究的新突破

周燕《石河子大学学报(自然科学版)》2004,22(3):248-250

对北京大学近来的博士论文用声学语音学和实验语音学等方法研究双语语音的新进展进行了综合分析，重点对比满汉双语，确定了北京话的“轻音”和“儿化”；对比韩、汉元音、韵律特征确定了两语时长和声调高低的不同，为双语教学提供了权威的语音校正，从而突显了成果的适用价值。相似文献

18.

开放域对话系统的抗噪回复生成模型

朱钦佩缪庆亮《北京大学学报(自然科学版)》2021,57(1):38-44

为缓解输入语句中噪声对回复生成模型的干扰,提出一个基于编码-解码框架的抗噪模型.首先,在训练集输入序列中随机加入模拟噪声字符;然后,在编码端输出层训练噪声字符识别,提升模型对噪声特征的提取能力;最后,在编码端输出层融合预训练语言模型,扩大模型对噪声的覆盖面.为验证该模型的抗噪效果,构建首个带真实噪声的单轮开放域闲聊系统... 相似文献

19.

Multi-Level Cross-Lingual Attentive Neural Architecture for Low Resource Name Tagging

《清华大学学报》2017,(6)

Neural networks have been widely used for English name tagging and have delivered state-of-the-art results. However, for low resource languages, due to the limited resources and lack of training data, taggers tend to have lower performance, in comparison to the English language. In this paper, we tackle this challenging issue by incorporating multi-level cross-lingual knowledge as attention into a neural architecture, which guides low resource name tagging to achieve a better performance. Specifically, we regard entity type distribution as language independent and use bilingual lexicons to bridge cross-lingual semantic mapping. Then, we jointly apply word-level cross-lingual mutual influence and entity-type level monolingual word distributions to enhance low resource name tagging. Experiments on three languages demonstrate the effectiveness of this neural architecture: for Chinese,Uzbek, and Turkish, we are able to yield significant improvements in name tagging over all previous baselines. 相似文献