首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
对维吾尔语而言,由于数据采集和标注存在各种困难,用于训练声学模型的语音数据不够充分。为此,该文研究了基于长短期记忆网络的跨语言声学模型建模方法,利用汉语庞大的训练数据训练深度神经网络声学模型,然后将网络的输出层权重去掉,用随机化的方式产生与维吾尔语输出层对应的权重值,采用反向传播的方式,利用维吾尔语语音数据更新所有权重来训练维吾尔语声学模型。实验结果表明:该方法使维吾尔语转写和听写识别错误率分别比基线系统相对降低了20%和30%。该方法利用汉语大数据来训练神经网络的隐藏层,使维吾尔语声学模型能在一个较好的初始权重网络上进行训练,增强了网络的鲁棒性。  相似文献   

2.
维吾尔语是一种黏着语,单词不太适合作为维吾尔语大词汇连续语音识别系统识别单元。针对维吾尔语大词汇连续语音识别系统中的识别单元选择问题,设计更适合维吾尔语的子词识别单元,提出维吾尔语单词和子词相结合的组合识别单元构建方法,并对单词、子词和组合识别单元的语言模型和语音识别性能进行评价。实验结果表明,所提出的识别单元在单元数量、语言模型复杂度等方面表现出更加优越的性能,并且使识别系统的单词错误率比基于单词的系统相对减少22%。  相似文献   

3.
黏着性语音的元辅音区别性特征对口语环境下的连续语音识别影响很大.通过维吾尔语和谐语音现象下的发音规律及其规则,采用语言学、实验语音学技术和数字语音信号处理等方法,研究和谐发音现象下的元音、辅音区别特征系统,建立扩展元辅音集,并以此为基础,开展基于扩展元辅音集的连续语音识别研究,进一步通过其声学模型比较研究,构建连续语音识别模型,为维吾尔语口语环境下的连续语音识别提供一种新方法.  相似文献   

4.
训练数据和测试数据之间由于信道等差异而引起的不匹配会严重影响语种识别的性能。而在实际应用中,通常只能获得少量的和测试数据匹配的标注数据(目标域数据),以及大量的和测试数据不匹配的标注数据(源域数据)。该文利用迁移学习的方法,通过无监督迁移分量分析(unsupervised transfer component analysis,UTCA),可以合理利用上述两种数据寻找到一个低维子空间,在该空间中,源数据和目标数据之间的分布差异最小,而且数据中有利于分类的属性得以保留,从而提高系统识别性能。实验表明:相对于基线系统,该算法对30s和10s语音的识别性能分别有24.7%和8%的提高。  相似文献   

5.
针对低资源环境下由于标注训练数据不足、造成语音识别系统识别率急剧下降的问题,提出一种采用长短时记忆网络的低资源语音识别(LSTM-LRASR)方法。该方法采用长短时记忆网络构建声学模型,从特征提取、数据扩展及模型优化3个方面提高低资源语音识别性能。在特征提取方面,提取语言无关的高层稳健特征参数,降低声学模型对训练数据的依赖;在数据扩展方面,对已有标注数据进行语速扰动,对无标注数据进行自动识别,从而自动获取更多标注数据;在模型优化方面,通过序贯区分性训练技术提高模型对易混淆音素的区分能力,利用最小风险贝叶斯解码对多个系统进行融合,进一步提高识别性能。对OpenKWS16评测数据的实验结果表明,采用LSTMLRASR方法搭建的低资源语音识别系统的词错率相对基线系统下降了29.9%,所有查询词的查询项权重代价提升了60.3%。  相似文献   

6.
维语口语发音中很多音素相对标准语产生了发音变异,基于标准语音的识别系统在识别带有发音变异的口语语料时识别率较低。该文针对维吾尔语同化、弱化、脱落、元音和谐等语流音变难点进行分析,对语音、韵律特性进行知识融合与技术创新,运用基于数据驱动和基于专家经验相结合的方法对维吾尔语方言口语中存在的发音变异现象进行研究,统计元音、辅音多发音变化映射对,建立音素混淆矩阵,为维吾尔语方言口语语音识别研究奠定基础。  相似文献   

7.
基于SQLite技术的汉语语音识别数据库的建立   总被引:1,自引:1,他引:0  
建立一个适合于特定说话人识别系统的汉语语音识别数据库,对推动说话人识别技术的研究和应用具有重要意义。本文基于支持向量机的说话人识别系统研究和开发过程中,构建了一个基于SQLite技术的汉语语音识别数据库,通过LabVIEW平台来实现对数据库控制操作。采用无序列样本和语音数据库样本分别进行比对实验。测试结果表明:一方面,无论是采用该语音识别数据库样本还是无序样本对说话人识别系统的识别率没有改变,这充分说明本系统建立的汉语语音识别数据库具有高稳定性和可靠性;另一方面,采用语音识别数据库样本其系统识别时间却明显缩短,这是改善基于支持向量机的说话人识别系统性能的有效途径。  相似文献   

8.
维吾尔语是一种黏着语,基于单词的语言模型不太适合于维吾尔语大词汇连续语音识别任务。该文提出了适合维吾尔语的基于音节的语言模型,引入最大匹配分词算法评价音节语言模型在大词汇连续语音识别任务中的单词识别性能。实验结果表明:基于音节的语言模型在未登录词和模型复杂度等方面表现出比基于单词的语言模型更加优越的性能,并且使识别系统的单元错误率比基于单词的系统减少了50%。因此,在维吾尔语语音识别任务上可以将音节作为识别单元。  相似文献   

9.
语音情感识别是实现自然人机交互的重要组成部分,传统语音情感识别系统主要集中于特征提取和模型构建。本文提出一种将深度神经网络直接应用于原始信号的语音情感识别方法。原始语音数据携带了语音信号的情感信息、二维空间信息和时序上下文信息。建立的模型以端到端的方式进行训练,网络自动学习原始语音信号的特征表示,无需手工特征提取步骤。该网络模型同时兼顾了CNN和BLSTM 2种神经网络的优点。利用CNN从原始语音数据中学习空间特征,其后添加一个BLSTM学习上下文特征。为了评估该模型的有效性,在IEMOCAP数据库上进行识别测试,获得的WA和UA分别为71.39%、61.06%。此外,与基线模型进行对比,验证了提出方法的有效性。  相似文献   

10.
基于标准语音的识别系统在识别带有发音变异的口语语料时,识别率较低。针对这一问题,提出了一种在标准维吾尔语发音字典的基础上生成多发音字典的方法。采用基于专家经验和数据驱动相结合的方法分析了维吾尔语方言口音发音变异规则,构造发音变异集合,生成初始的多发音字典,并运用了自动数据处理算法和门限阈值法,使得能够从方言口音训练语音数据中自动获得精简的多发音字典。实验结果表明:该方法对维吾尔语方言口音的识别性能有提升作用。  相似文献   

11.
低资源条件下的语音关键词检测是一个具有挑战性的问题,因为传统的基于大词汇量连续语音识别(LVCSR)的语音关键词检测方法不再适用.针对此问题提出了一种基于深度神经网络(DNN)输出层后验概率特征和改进的动态时间规整(DTW)算法的语音关键词检测方法.采用无监督高斯混合模型(GMM)和中、英文DNN音素模型得出的输入特征构建互补的子系统,并在SWS2013多语种数据集上进行实验.结果表明:相对于基线系统,分数层面的多语种、多系统融合能够有效地提升语音关键词检测系统的性能.  相似文献   

12.
张成  石磊  赵慧然 《科技资讯》2023,(10):253-256
维度语音情感识别是语音识别技术的重要研究方向,提取最能表达语音情感的特征码并构建具有模型泛化性和鲁棒性的声学模型是语音情感识别的重要研究内容。同时,其触及领域具备较强的多样性,心理学、模式识别以及认知科学等均属于其研究范围,而这些模块是其研究的重点,开展研究的目的主要是为了让机器具备人类情感,促使人机交互更加自然灵活。基于此,该文阐述了在情感心理学的研究基础上,分析情感语音数据库与数据标注,并对情感分类与回归加以探索,希望可以为维度语音情感识别提供新的思路。  相似文献   

13.
语音信号中的情感信息是一种很重要的信息资源,仅靠单纯的数学模型搭建和计算来进行语音情感识别就显现出不足。情感是由外部刺激引发人的生理、心理变化,从而表现出来的一种对人或事物的感知状态,因此,将认知心理学与语音信号处理相结合有益于更好地处理情感语音。首先介绍了语音情感与人类认知的关联性,总结了该领域的最新进展和研究成果,主要包括情感数据库的建立、情感特征的提取以及情感识别网络等。其次介绍了基于认知心理学构建的模糊认知图网络在情感语音识别中的应用。接着,探讨了人脑对情感语音的认知机理,并试图把事件相关电位融合到语音情感识别中,从而提高情感语音识别的准确率,为今后情感语音识别与认知心理学交叉融合发展提出了构思与展望。  相似文献   

14.
为了解决基于词语的维吾尔语语音识别系统集外词过多的问题,采用形态分析生成的语素或数据驱动切分生成的统计子词代替词语作为识别系统的词典单元。在此基础上,提出一种根据语素识别系统和统计子词识别系统在声学模型训练数据上的音素错误率差别选择词语最佳分解结果,从而构建语素-统计子词联合词典的方法。在维吾尔语电话交谈式语音识别任务上比较各个系统的性能。实验结果表明,语素或统计子词的运用能有效缓解词语系统集外词过多的问题。与词典大小为200K的词语系统相比,55K的语素-统计子词联合系统使测试集上的音素错误率从45.4%下降到43.8%。  相似文献   

15.
文章基于"维吾尔语语音声学参数数据库"研究了维吾尔语元音/ɑ/在词首和非词首位置上的声学表现,主要考察了不同的音节类型和数量以及前后辅音对该元音在口腔内的影响,并提出了[ɑ~j]、[a]、[■]、[Λ]、[ɑ]五种音位变体,其中/ɑ/为该元音的典型变体.  相似文献   

16.
为了满足超大词表语法的识别任务在嵌入式语音识别系统上的应用,提出了一种高效的双层图搜索算法.该算法通过分离声学层和词法层来构建2层图搜索空间,其中声学层记录声学模型相关信息,词法层记录词表语法信息.利用这样简洁的搜索空间可以使语音识别的解码过程更加紧凑有效.在对比实验中,传统的基于前缀合并的状态树搜索算法的大词表嵌入式单词拼读系统作为基线系统.实验结果表明,与基线系统相比,所提出的双层图搜索算法在系统解码速度相对提高10%的情况下,系统的动态内存占用仅为基线的8%.通过使用所提出的双层图搜索算法,大大提高了大词表嵌入式单词拼读系统的效率,使其更适用于大多数嵌入式平台.  相似文献   

17.
在分析和总结系统业务流程的基础上对气象数据库管理及监控系统的建设方案进行研究,提出了采用分区数据存储、分批数据清除、数据泵等技术对气象数据进行存储管理,建立了基于性能基线的数据分析方法和RMI通信技术的远程气象数据库管理监控系统.系统在民航气象领域的成功应用,表明该方案提高了系统的实时性和稳定性.  相似文献   

18.
利用"现代维吾尔语语音声学参数库",对维吾尔语清塞音[q]的单音节、双音节、三音节、多音节中男性(M2)和女性(F2)的无声间隙(GAP)、嗓音起始时间(VOT)、时长(CD)、音强(CA)、共振峰(F)等不同音节中的声学特征进行统计和声学分析,找出维吾尔语清塞音[q]在不同音节中的不同声学特征.本研究对维吾尔语教学、语音识别和语音合成有一定的理论基础和应用价值.  相似文献   

19.
面向情感变化检测的汉语情感语音数据库   总被引:3,自引:0,他引:3  
该文介绍了面向普通话情感变化检测的情感语音数据库CESD。该数据库的语音以对话形式录制,包括男女声情感对话语音1 200段。以生气、着急、中性、愉悦、高兴为基本情感,共包含20种情感变化模式。除语音文件外,还包含带有静音段/有效语音段、情感类别、情感变化段、情感质量等内容的标注文件。为了使更多的研究人员可以使用该数据库,利用P raat工具提取出67维常用声学特征,作为特征文件一同存储在该数据库中。对该数据库进行主观评价和情感变化检测的结果表明:语音情感状态自然、情感变化真实,能够满足语音情感识别和语音情感变化检测研究的双重需求。  相似文献   

20.
情感语音数据库是情感语音识别研究的基础,建立包含认知心理因素在内的维度情感语音数据库对提高识别率、改善人机交互能力具有重要意义。笔者首先对前期建立的摘引型TYUT2.0数据库进行语音听辨筛选,根据认同率阈值进行数据库优化,得到的情感语音数据库包含四种情感的语句237句,其中"悲伤"62句,"愤怒"58句,"高兴"57句,"惊奇"60句。然后利用PAD三维情感模型对该数据库语音进行标注,得到维度情感语音数据库。该数据库中的每句语音都有对应的听辨认同率以及PAD值。对每句语音的PAD值进行统计分析,证明了该维度情感语音数据库的有效性,为今后研究维度情感识别奠定了基础。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号