期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

《云南民族大学学报(自然科学版)》2021,(3)

随着大数据及设备超强运算能力的出现,语音识别系统的性能得到了大幅提升.但在低资源语音识别研究中,由于缺乏足够的训练数据,模型很容易出现过拟合、识别精度低等问题.为此,提出了采用元度量学习方法来解决低资源环境下的语音难识别问题,该方法是先将大量类似且不相交的任务用于模型训练,让模型从中学会如何比较样本相似性;最后再在新任务中通过计算样本的相似度来识别未知样本.实验表明:元度量学习方法能够有效避免模型过拟合、提升模型泛化能力,实验在低资源语言(佤语和普米语)孤立词语音识别中均取得了显著的识别效果. 相似文献

2.

跨语言声学模型在维吾尔语语音识别中的应用

努尔麦麦提·尤鲁瓦斯刘俊华吾守尔·斯拉木热依曼·吐尔逊达吾勒·阿布都哈依尔《清华大学学报(自然科学版)》2018,(4)

对维吾尔语而言,由于数据采集和标注存在各种困难,用于训练声学模型的语音数据不够充分。为此,该文研究了基于长短期记忆网络的跨语言声学模型建模方法,利用汉语庞大的训练数据训练深度神经网络声学模型,然后将网络的输出层权重去掉,用随机化的方式产生与维吾尔语输出层对应的权重值,采用反向传播的方式,利用维吾尔语语音数据更新所有权重来训练维吾尔语声学模型。实验结果表明:该方法使维吾尔语转写和听写识别错误率分别比基线系统相对降低了20%和30%。该方法利用汉语大数据来训练神经网络的隐藏层,使维吾尔语声学模型能在一个较好的初始权重网络上进行训练,增强了网络的鲁棒性。相似文献

3.

基于注意力机制语谱图特征提取的语音识别

姜囡庞永恒高爽《吉林大学学报(理学版)》2024,(2):320-330

针对连接时序分类模型需具有输出独立性的假设,对语言模型的依赖性强且训练周期长的问题,提出一种基于连接时序分类模型的语音识别方法.首先,基于传统声学模型的框架,利用先验知识训练基于注意力机制的语谱图特征提取网络,有效提高了语音特征的区分性和鲁棒性;其次,将语谱图特征提取网络拼接在连接时序分类模型的前端,并减少模型中循环神经网络层数进行重新训练.测试分析结果表明,该改进模型缩短了训练时间,有效提升了语音识别准确率. 相似文献

4.

借助音频数据的发音字典新词学习方法

《西安交通大学学报》2016,(6)

针对已有的发音字典扩展方法只能从文本数据中学习新词而无法学习到音频数据中新词的问题,提出了一种基于混合语音识别系统的发音字典新词学习方法。该方法首先分别采用音节和字母音素对混合识别系统对音频数据进行集外词识别,利用系统间的互补性得到尽可能多的新词及其发音候选,然后借助感知器与最大熵模型对得到的新词及发音进行优化,降低错误率,最后实现发音字典的扩展,并利用语法语义信息完成对语言模型参数更新。基于华尔街日报(WSJ)语料库的连续语音识别实验表明:该方法可以有效学习到音频数据中的未知新词,采取的数据优化策略极大地提高了所得新词及发音的精度;在词错误率指标下,字典扩展后系统的识别性能相对基线系统提高约13.4%。相似文献

5.

基于竞争信息的Tandem系统

周盼刘聪江辉刘庆峰戴礼荣《清华大学学报(自然科学版)》2011,(9):1253-1256

Tandem技术是目前主流语音识别系统中提升性能的重要手段之一,它基于训练数据和其所对应的正确标注用有监督的方式训练神经网络的参数。该文提出一种基于解码中竞争信息对传统Tandem起到补充作用的方法,能够增强Tandem技术的区分性。为了获取竞争信息,首先在词图中生成识别解码中的竞争片段,再分别使用基于时长重叠信息和后验概率信息的挑选策略来选取对神经网络训练最为有效的竞争信息,以提高竞争网络对识别性能的补充作用。实验结果表明:加入竞争信息的改进Tandem系统获得了超过传统系统的性能。相似文献

6.

面向维吾尔语电话交谈式语音识别的词典设计方法研究

李鑫侯炜计哲《重庆邮电大学学报(自然科学版)》2013,25(3):391-396

为了解决基于词语的维吾尔语语音识别系统集外词过多的问题,采用形态分析生成的语素或数据驱动切分生成的统计子词代替词语作为识别系统的词典单元。在此基础上,提出一种根据语素识别系统和统计子词识别系统在声学模型训练数据上的音素错误率差别选择词语最佳分解结果,从而构建语素-统计子词联合词典的方法。在维吾尔语电话交谈式语音识别任务上比较各个系统的性能。实验结果表明,语素或统计子词的运用能有效缓解词语系统集外词过多的问题。与词典大小为200K的词语系统相比,55K的语素-统计子词联合系统使测试集上的音素错误率从45.4%下降到43.8%。相似文献

7.

深度神经网络技术在汉语语音识别声学建模中的优化策略 总被引：1，自引：1，他引：0

肖业鸣张晴晴宋黎明潘接林颜永红《重庆邮电大学学报(自然科学版)》2014,26(3):373-379

将深度神经网络作为声学模型引入面向汉语电话自然口语交谈语音识别系统。针对自然口语中识别字错误率较高的问题,从语音的声学特征类型选择、模型训练时元参数调节以及改善模型泛化能力等方面出发,对基于深度神经网络的声学模型建模技术进行了一系列的优化。针对训练样本中状态先验概率分布稀疏的情况,提出了一种状态先验概率平滑算法,在一定程度上缓解了这种数据稀疏问题,经平滑后,字错误率下降超过1%。在所采用的3个电话自然口语交谈测试集上,相对于优化前的深度神经网络模型,经过优化后的模型取得了性能的一致提升,字错误率平均相对降低15%。实验结果表明,所采用优化策略可以有效地改善深度神经网络声学模型性能。相似文献

8.

语音关键词识别系统声学模型构建综述

《燕山大学学报》2017,(6)

语音关键词识别技术作为语音识别的重要分支在20世纪90年代逐渐被重视起来,时至今日,语音关键词识别技术已经被应用到车内语音命令识别、机器人交互及特殊语音筛选等众多领域。本文给出了语音关键词识别技术的整体模型及性能评价指标,综述了语音关键词识别系统声学模型构建技术的现状,详细总结了语音关键词识别系统声学模型构建技术,并重点总结了深度学习在声学模型构建上的应用。最后对语音关键词识别技术的发展前景进行了讨论,认为深度学习隐马尔科夫混合模型作为连续语音识别中最成熟的模型构建技术将在关键词识别中有更多应用,循环神经网络有可能凭借其序列训练能力成为更有效的模型构建技术,而大计算量、云平台及便携可穿戴将会成为语音关键词识别技术发展的主流方向。相似文献

9.

IBM GALE中文识别系统

张世磊施勤秦勇刘文 CHU StephenM KUO Hong-Kwang MANGU Lidia 《清华大学学报(自然科学版)》2009,(Z1)

为解决中文音频自动转成文字问题,IBM开发了GALE中文识别系统。该系统采用区分性声学模型训练方法和新颖的基于主题的语言模型自适应技术;为获得最优的识别性能,系统采用多遍解码的识别策略。该文还给出该系统在3个测试集上的识别结果:包括广播新闻和广播访谈节目,结果显示,IBM GALE中文识别系统取得了很好的识别性能;此外,该文还分析了特殊声学现象对识别结果的影响,结果显示,对识别率影响最大的3种声学现象为说话人语速过快、语音交叠和口音问题,这指示了系统下一步的改进方向。相似文献

10.

维吾尔语大词汇语音识别系统识别单元研究

努尔麦麦提·尤鲁瓦斯吾守尔·斯拉木热依曼·吐尔逊《北京大学学报(自然科学版)》2014,50(1)

维吾尔语是一种黏着语,单词不太适合作为维吾尔语大词汇连续语音识别系统识别单元。针对维吾尔语大词汇连续语音识别系统中的识别单元选择问题,设计更适合维吾尔语的子词识别单元,提出维吾尔语单词和子词相结合的组合识别单元构建方法,并对单词、子词和组合识别单元的语言模型和语音识别性能进行评价。实验结果表明,所提出的识别单元在单元数量、语言模型复杂度等方面表现出更加优越的性能,并且使识别系统的单词错误率比基于单词的系统相对减少22%。相似文献