首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 375 毫秒
1.
针对短时语音时长过短以及训练语音和测试语音时长不等,导致语种识别性能大幅度下降的问题,提出了一种可变时长的短时广播语音多语种识别模型(Variable Duration-Language Identification, VD-LID).首先,对不同时长的语音进行时长规整;然后,对规整后的短时语音进行特征提取,提取其对数功率谱包络图作为语种特征;最后,将语种特征输入到残差神经网络中进行分类.实验结果表明,相比于传统特征输入,对数功率谱包络图特征将短时语音的语种识别准确率提高到了82.4%;相比于没有引入时长规整层的语种识别模型,VD-LID在测试语音时长为5 s和10 s的实验中,语种识别准确率分别提升了27.9%和37.7%.  相似文献   

2.
语种识别中现有的总变化因子分析仅能反映语音数据的整体结构,不能挖掘其局部内在结构信息,并且未考虑训练语音数据的语种类别。针对此问题,提出了基于邻域保持嵌入算法的语种识别,通过构建邻接图以获得语音数据的局部邻域结构,同时通过有监督训练有效利用语音数据的语种标注信息。在2011年美国国家标准与技术研究院语种识别评测的30 s和10 s测试集上进行了对比实验。实验结果表明,邻域保持嵌入算法能够有效弥补总变化因子分析的不足,可明显提高系统的识别性能。  相似文献   

3.
为减弱注册语音与测试语音时长不一致对说话人识别性能的负面影响,提出一个概率修正PLDA建模方法.根据语音时长自适应改变传统PLDA模型中i-vector的概率分布函数,提高PLDA对每个说话人每段语音的时长表征能力,以增强说话人类别的区分度.为验证基于概率修正PLDA模型的有效性,进行了NIST SRE10 corecore测试集在3种不同时长的评测实验,以及NIST 2014 i-vector machine learning challenge测试任务.结果表明,相较于传统的PLDA训练模型,通过语音时长的约束提高了说话人识别性能.  相似文献   

4.
国际上对自动语种识别进行了广泛的研究,提出了各种各样的方法,美国国家标准技术研究所(NIST)多年的评测表明,基于并行音素识别(parallel phoneme recognition language modeling,PPRLM)的方法取得了很好的性能.该文提出了一种基于多种语言的音素识别方法的自动语种识别系统,系统中Multilingual音素集是使用基于数据驱动聚类获得.通过真实环境电话语音测试表明,该方法在只使用了很少的识别时间的情况下,获得了跟传统的PPRLM系统可比的识别正确率.同时经过与PPRLM系统融合后,获得了更好的性能,跟其他主流的几种语种识别方法也有可比的性能.  相似文献   

5.
语种识别的关键问题之一是提取语音信号中的语种鉴别性信息。近期,音素对数似然比(phone log-likelihood ratio,PLLR)的新特征被引入语种识别领域,并表现出了优异的性能。该文利用F比方法分析了PLLR特征向量各维的语种鉴别性大小,提出了加权音素对数似然比(weighted PLLR,WPLLR)特征,赋予PLLR特征中含有较多语种鉴别性信息的分量较高的权重。在美国国家标准技术署(National Institute of Standards and Technology,NIST)2007年语种识别测试集上的实验结果表明:相比于原PLLR特征,该文所提出的WPLLR特征在平均检测代价和等错率2个指标上都显著降低。  相似文献   

6.
TD-PSOLA技术在汉语语音波形编码合成中的应用   总被引:1,自引:0,他引:1  
以时域基音同步叠加(PSOLA)技术和一个全汉语单音节库为合成单元进行汉语语音波形编码合成,针对汉语语音的音高、时长、音强以及音节之间的协同发音效应等影响合成语音质量的主要因素,建立相应音节的声调曲线、时长规则和音节之间协同发音规则等韵律规则,并利用时域基间同步叠加法原理调整合成语音的音高和时长,从而使合成的语音比较清晰自然。  相似文献   

7.
通过应用语音识别技术、实时翻译技术、语音朗读技术,构建出一个能适应不同口音、翻译准确、发音专业的虚拟现实远程会议实时翻译应用。在煤矿虚拟现实远程会议中,发言者的口授内容和识别后的文本内容会上传至"煤矿虚拟现实远程会议云服务器",当其它与会者所持语种与发言者不同时,识别后的文本会自动翻译为对应语种文本并朗读出来,从而实现与会各方的无缝沟通。该技术已在煤矿虚拟现实远程会议中得到验证。  相似文献   

8.
为了挖掘更多语种间区分性信息进行可靠的自动语种识别,本文提出一种将自适应领域的最大似然线性回归(maximum likelihood linear regression,MLLR)矩阵作为特征的语种识别算法。该算法首先对每个语种训练Gauss混合模型(Gaussian mixture model,GMM),然后对每个语音段在所有语种的GMM上计算MLLR矩阵。将得到的多类MLLR矩阵经归一化后拼接形成超矢量作为特征输入支持向量机(support vector machine,SVM)分类器进行训练和识别。比较了均值方差和排序两种归一化方法,并将多类MLLR-SVM算法与传统GMM语种识别算法进行对比。实验表明:排序归一化算法优于传统的均值方差归一化;建立在GMM模型基础上的MLLR-SVM系统性能有9.7%的提升,并与GMM分类器有很强的互补性。  相似文献   

9.
双门限算法是语音端点检测的一种重要方法,对藏语语音识别和处理具有重要意义。提出了用双门限端点检测技术对藏语语音进行音节分割的方法,首先根据双门限语音端点检测原理进行Matlab编程和仿真,然后结合藏语语音的音节特点和双门限算法分别在正常语速和慢语速环境下对藏语的30个辅音语音、随机抽取的双音节、三音节及句子语音进行双门限算法的音节分割和分析,实验表明双门限算法对没有太多连读音节的藏语语音和慢语速下长句的音节分割准确率较高。  相似文献   

10.
藏语数字语音识别是藏语语音识别中的基础环节。文章以藏语数字语音信号产生的数学模型为研究对象,从频域、时域、倒谱域出发,对藏语数字语音识别进行了分析,重点论述了藏语数字语音识别的原理、仿真实验及测试方法。以藏语数字语音库为数据资源,对藏语数字语音建立了训练模型并从中提取语音特征,通过模板匹配算法,获取录音数据中待识别语音的模板。实验证明已建立语音库的识别率达100%,随机录音的识别率则达90%。  相似文献   

11.
为了在语种识别时充分利用人的听感知特性提高识别性能,提出了一种基于听感知模型的特征。听感知特征采用Gammatone滤波器组代替常用的三角滤波器组计算语音信号各子带能量;根据等效矩形带宽模型,确定各滤波器的中心频率与带宽;使用反置等响度曲线模拟人耳对信号不同频率成分的主观响度感受。在基本听感知特征的基础上,还提出了一、二阶差分特征和偏移差分特征用于语种识别。对比实验表明,该文所提的听感知特征性能均优于目前普遍使用的Mel频率倒谱系数(MFCC)特征及其衍生特征。  相似文献   

12.
基于听感知特征的语种识别   总被引:3,自引:0,他引:3  
为了在语种识别时充分利用人的听感知特性提高识别性能,提出了一种基于听感知模型的特征。听感知特征采用Gammatone滤波器组代替常用的三角滤波器组计算语音信号各子带能量;根据等效矩形带宽模型,确定各滤波器的中心频率与带宽;使用反置等响度曲线模拟人耳对信号不同频率成分的主观响度感受。在基本听感知特征的基础上,还提出了一、二阶差分特征和偏移差分特征用于语种识别。对比实验表明,该文所提的听感知特征性能均优于目前普遍使用的Mel频率倒谱系数(MFCC)特征及其衍生特征。  相似文献   

13.
说话人识别技术是根据待识别人的语音与预先提取的说话人语音特征是否相匹配来鉴别说话人身份的一种生物认证技术,具有广泛的应用前景。采用矢量量化(VQ)方法,可以在信息量损失较小的情况下更好地压缩数据量,从而增高说话人识别系统的识别率。本文研究了说话人识别的相关技术,提出并设计了一个基于VQ的说话人识别系统,当用于训练的数据量较小时,可以得到比较稳定的识别性能。  相似文献   

14.
语速变化导致说话人识别系统性能显著下降。该文提出一种分数域语速归一化方法来降低语速变化对说话人识别系统的影响。由不同语速语音数据组成参考集(全局和局部),对每一个登入说话人估计其对参考集中每一类参考语音的分数分布,局部参考集通过按相对语速划分全局参考集而获得。基于该文录制的语速数据库在GMM-UBM(Gaussian mixture model-universal background model)框架下对测试语音进行分数归一化,并通过训练数据扩展有效解决了数据系数问题,最终等错误率相对下降33.33%。研究结果表明:全局和局部归一化方法都有效减少了语速变化对说话人识别系统的影响。  相似文献   

15.
针对低资源环境下由于标注训练数据不足、造成语音识别系统识别率急剧下降的问题,提出一种采用长短时记忆网络的低资源语音识别(LSTM-LRASR)方法。该方法采用长短时记忆网络构建声学模型,从特征提取、数据扩展及模型优化3个方面提高低资源语音识别性能。在特征提取方面,提取语言无关的高层稳健特征参数,降低声学模型对训练数据的依赖;在数据扩展方面,对已有标注数据进行语速扰动,对无标注数据进行自动识别,从而自动获取更多标注数据;在模型优化方面,通过序贯区分性训练技术提高模型对易混淆音素的区分能力,利用最小风险贝叶斯解码对多个系统进行融合,进一步提高识别性能。对OpenKWS16评测数据的实验结果表明,采用LSTMLRASR方法搭建的低资源语音识别系统的词错率相对基线系统下降了29.9%,所有查询词的查询项权重代价提升了60.3%。  相似文献   

16.
在语音情感识别系统中,语音情感特征的提取尤为重要,本文在前期已有对EMD分解研究的基础上,将EMD分解与Teager能量算子相结合,用于语音情感识别。文中首先利用EMD分解得到一组IMF分量,再对各阶IMF分量提取Teager能量,然后通过对不同语种的不同情感语音的Teager能量在Mel频率的分析,提出了一种新的情感特征:基于EMD分解的Mel频率的Teager能量谱系数(ETMC),最后利用SVM分类方法对不同语种的不同情感进行识别,实验结果表明,该方法有很好的识别结果。  相似文献   

17.
基于SQLite技术的汉语语音识别数据库的建立   总被引:1,自引:1,他引:0  
建立一个适合于特定说话人识别系统的汉语语音识别数据库,对推动说话人识别技术的研究和应用具有重要意义。本文基于支持向量机的说话人识别系统研究和开发过程中,构建了一个基于SQLite技术的汉语语音识别数据库,通过LabVIEW平台来实现对数据库控制操作。采用无序列样本和语音数据库样本分别进行比对实验。测试结果表明:一方面,无论是采用该语音识别数据库样本还是无序样本对说话人识别系统的识别率没有改变,这充分说明本系统建立的汉语语音识别数据库具有高稳定性和可靠性;另一方面,采用语音识别数据库样本其系统识别时间却明显缩短,这是改善基于支持向量机的说话人识别系统性能的有效途径。  相似文献   

18.
语音关键词识别技术作为语音识别的重要分支在20世纪90年代逐渐被重视起来,时至今日,语音关键词识别技术已经被应用到车内语音命令识别、机器人交互及特殊语音筛选等众多领域。本文给出了语音关键词识别技术的整体模型及性能评价指标,综述了语音关键词识别系统声学模型构建技术的现状,详细总结了语音关键词识别系统声学模型构建技术,并重点总结了深度学习在声学模型构建上的应用。最后对语音关键词识别技术的发展前景进行了讨论,认为深度学习隐马尔科夫混合模型作为连续语音识别中最成熟的模型构建技术将在关键词识别中有更多应用,循环神经网络有可能凭借其序列训练能力成为更有效的模型构建技术,而大计算量、云平台及便携可穿戴将会成为语音关键词识别技术发展的主流方向。  相似文献   

19.
小波变换在语音变速上的应用   总被引:1,自引:0,他引:1  
对语音生成及其特征进行描述,提出了一种基于保持音调前提下的语音变速方法⒚利用基频估值可以得到语音的基音周期,适当地复制或删除若干个基音周期可以改变语音的语速,而音调基本保持不变  相似文献   

20.
中国地域辽阔,汉语包括多种方言。方言转换技术可实现方言间语音的转换,丰富语音交流的方式,增强语音交流的可懂性、友好性和趣味性。该文分析了普通话与沈阳方言在声调调类与调值、时长和特殊词等方面的差异;探讨了普通话与沈阳方言转换的可行性;提出了基于混合聚类算法的方言基频转换模型、基于统计的方言时长转换模型和基于加权有限状态机的特殊词识别算法;通过基本转换和说话人音色还原构建了方言转换系统,实现了实时普通话语音输入、沈阳方言语音输出。评测结果显示通过方言转换系统得到的方言语音与目标方言语音具有较高相似度。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号