期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

夏耀峰胡起秀《清华大学学报(自然科学版)》2006,46(7):1329-1332

该文指出了常用的倒谱均值归一方法在去除信道因素的同时,也去掉了一些说话人的语音特征,因此,在信道失配的环境下鲁棒性较差。提出利用信道间差异,补偿信道失配的信道空间映射方法,并构建了一个与文本无关对随机信道鲁棒的说话人识别系统。实验结果表明:对来自随机信道的说话人语音,第1名和前30名的正确识别率,与实验室基线系统的性能比较,分别提高了5.4%和18.6%。寻找并补偿信道间的差异,是一种提高说话人识别鲁棒性的有效方法。相似文献

2.

防止假冒者闯入说话人识别系统 总被引：3，自引：0，他引：3

张利鹏曹犟徐明星郑方《清华大学学报(自然科学版)》2008,48(Z1):699-703

如何防止假冒者闯入,是说话人识别研究中的重要课题之一.回放高保真录音和模仿目标说话人声音是假冒者闯入说话人识别系统的2种常见方式.该文针对用高保真录音来闯入系统进行了初步探索.高保真录音设备是一个模数转换系统,语音通过它会发生一些特性变化.通过检测语音中是否存在高保真录音设备的特性,可以检测假冒者是否在使用回放高保真录音来闯入系统.以Gauss混合模型和通用背景模型(Gaussian mixture model-universal background model,GMM-UBM)说话人识别系统为基础,用语音数据的静音段对信道进行建模,检测待识别语音与训练语音的信道是否相同,进而判断是否属于高保真录音闯入.实验表明,加入了基于静音段的信道检测后,说话人识别系统对含有假冒者闯入的测试数据的等错误率下降了40％左右. 相似文献

3.

快速口音自适应的动态说话人选择性训练

董明刘加刘润生《清华大学学报(自然科学版)》2005,45(7):912-915

为解决语音识别系统实用中的说话人口音快速自适应问题,提出了一种动态说话人选择性训练方法。基于说话人选择性训练方法,采用基于Gauss混合模型似然分数计算的置信测度选择训练用说话人,改变训练用说话人的绝对数目选取方式,提高了选取的效能并拓展了选取标准的推广性。根据各个训练用说话人同被适应说话人的不同似然程度,加权地合成动态说话人选择性训练的语音模型,提高了自适应训练的效果。实验表明:该方法使识别率从80.16%提高到84.12%,相对误识率降低了19.96%,在实用中提高了基线系统的识别性能。相似文献

4.

基于DSP开集说话人识别系统的实时实现

林琳王树勋王秀丽《吉林大学学报(信息科学版)》2006,24(3):252-258

为了给说话人识别系统的应用提供一个较为重要的技术途径,利用美国TI公司生产的TMS320VC5402DSP作为CPU开发的DSP(D igital S ignal Processor)系统,实时实现了一个基于说话人自适应的开集说话人识别系统。为了提高系统的处理速度和识别的准确性,系统采用少量的语音数据产生说话人模型,在改进的矢量量化方法的基础上,利用一种说话人自适应的阈值处理算法,有效地提高了系统的识别率。同时对降低算法的计算量、数据的存储量进行了较深入的研究。从说话人识别的响应时间、训练时间等综合方面考虑,使真正意义上的说话人识别系统在DSP芯片上实现成为可能。实验表明,该系统在普通机房条件下,可以取得较好的实验效果,系统识别时间小于1 s,完全满足实时性的要求。相似文献

5.

基于SQLite技术的汉语语音识别数据库的建立 总被引：1，自引：1，他引：0

刘祥楼《科学技术与工程》2011,11(14)

建立一个适合于特定说话人识别系统的汉语语音识别数据库,对推动说话人识别技术的研究和应用具有重要意义。本文基于支持向量机的说话人识别系统研究和开发过程中,构建了一个基于SQLite技术的汉语语音识别数据库,通过LabVIEW平台来实现对数据库控制操作。采用无序列样本和语音数据库样本分别进行比对实验。测试结果表明：一方面,无论是采用该语音识别数据库样本还是无序样本对说话人识别系统的识别率没有改变,这充分说明本系统建立的汉语语音识别数据库具有高稳定性和可靠性;另一方面,采用语音识别数据库样本其系统识别时间却明显缩短,这是改善基于支持向量机的说话人识别系统性能的有效途径。相似文献

6.

基于MFCC等组合特征的说话人识别模型

朱建伟孙水发刘晓丽《三峡大学学报(自然科学版)》2009,31(6):77-79,93

为了有效提取语音特征,提高说话人识别的准确率,系统采用基于有限状态机的端点检测算法对原始语音做VAD处理,提出了新的特征组合参数：基于人的听觉特性的MFCC参数、基于发音生理特征的基音轮廓特征以及衍生的基音周期一阶差分、基音周期变化率,并将它们作为说话人识别系统的特征参数,建立了基于VQ的识别模型.实验表明：本文系统使用VAD,使系统的识别率提高了5%8%,较单独使用MFCC参数的说话人识别系统的识别率提高了2%3%. 相似文献

7.

基于高维空间映射失配补偿方法的说话人确认

郭伟李辉许敏强刘青松《中国科学技术大学学报》2010,40(2)

针对电话手机语音的文本无关说话人确认中,训练集语音和测试集语音来自不同信道所产生失配而导致系统性能下降的问题,采用一种基于高维空间映射的方法对系统进行补偿.在分析了已有的说话人确认系统的基础上,提出了一种基于特征参数映射支持向量机模型(PSVM)的说话人确认系统.首先用大量已知信道类型的语音训练出信道空间及映射矩阵,然后训练语音和测试语音都通过映射,消除因信道不同而导致的失配影响.在NIST数据库上的实验结果表明,这种方法弥补了训练语音和测试语音的失配,说话人确认系统的性能有了明显的提高. 相似文献

8.

动态时间规整算法与说话人识别技术研究

檀蕊莲《科技资讯》2010,(8):6-6

说话人识别是语音识别的一种特殊方式,其目的不是识别语音内容,而是识别说话人是谁,即从语音信号中提取个人特征。采用动态时间规整（DTW）方法,可以利用使用过程中的数据不断修正原模板,使模板逐次趋于完善。本文研究了说话人识别的相关技术,提出并设计了一个基于DTW的说话人识别系统,当用于训练的数据量较小时,可以得到比较稳定的识别性能。相似文献

9.

基于失配信息子空间失配补偿的话者确认

刘青松戴蓓蒨许东星吴德辉《中国科学技术大学学报》2010,40(8)

对于电话手机语音的文本无关说话人确认,语音受到传输信道、话筒等的影响,失配问题尤为显著.为此提出一种GMM-UBM框架下基于失配信息子空间的说话人确认失配补偿方法,该方法利用失配信息子空间和基准信息模型获得训练和测试语音的相对失配信息,此失配信息是失配信息子空间中超矢量的一种线性组合,补偿更为准确,能够根据失配对不同语音类的不同影响,对不同的语音类进行相应的补偿.NIST06数据库上的实验表明,经过失配补偿的系统性能在EER和MinDCF有近50%的提高. 相似文献

10.

改进i-向量说话人识别算法研究

邢玉娟潘颖曹晓丽《科学技术与工程》2014,14(34)

针对信道变化环境下说话人识别系统鲁棒性差及识别率低的问题,提出一种改进i-向量说话人确认算法。首先,利用系统注册说话人GMM-UBM提取话者i-向量;然后,采用加权线性判别分析对i-向量降维和信道补偿,提取更具判别性的特征向量;紧接着,结合类内协方差归一化技术和ZT-norm规整技术对余玄距离得分进行规整,进一步消除信道干扰;最后,构建高鲁棒性余玄距离分类器判定目标说话人。仿真实验结果表明该算法可以有效地提高系统性能。相似文献

11.

Advances in SVM-Based System Using GMM Super Vectors for Text-Independent Speaker Verification

赵剑 ;董远 ;赵贤宇 ;杨浩 ;陆亮 ;王海拉《清华大学学报》2008,13(4):522-527

For text-independent speaker verification, the Gaussian mixture model （GMM） using a universal background model strategy and the GMM using support vector machines are the two most commonly used methodologies. Recently, a new SVM-based speaker verification method using GMM super vectors has been proposed. This paper describes the construction of a new speaker verification system and investigates the use of nuisance attribute projection and test normalization to further enhance performance. Experiments were conducted on the core test of the 2006 NIST speaker recognition evaluation corpus. The experimental results indicate that an SVM-based speaker verification system using GMM super vectors can achieve appealing performance. With the use of nuisance attribute projection and test normalization, the system performance can be significantly improved, with improvements in the equal error rate from 7.78% to 4.92% and detection cost function from 0.0376 to 0.0251. 相似文献

12.

Maximum Likelihood A Priori Knowledge Interpolation-Based Handset Mismatch Compensation for Robust Speaker Identification

LIAO Yuanfu ZHUANG Zhixian YANG Jyhher 《清华大学学报》2008,13(4)

Unseen handset mismatch is the major source of performance degradation in speaker identifica-tion in telecommunication environments.To alleviate the problem,a maximum likelihood a priori knowledge interpolation (ML-AKI)-based handset mismatch compensation approach is proposed.It first collects a set of handset characteristics of seen handsets to use as the a priori knowledge for representing the space of handsets.During evaluation the characteristics of an unknown test handset are optimally estimated by in-terpolation from the set of the a pdod knowledge.Experimental results on the HTIMIT database show that the ML-AKI method can improve the average speaker identification rate from 60.0% to 74.6% as compared with conventional maximum a posteriori-adapted Gaussian mixture models.The proposed ML-AKI method is a promising method for robust speaker identification. 相似文献

13.

Maximum Likelihood A Priori Knowledge Interpolation-Based Handset Mismatch Compensation for Robust Speaker Identification

廖元甫 ;庄智显 ;杨智合《清华大学学报》2008,13(4):528-532

Unseen handset mismatch is the major source of performance degradation in speaker identification in telecommunication environments. To alleviate the problem, a maximum likelihood a priori knowledge interpolation （ML-AKI）-based handset mismatch compensation approach is proposed. It first collects a set of handset characteristics of seen handsets to use as the a priori knowledge for representing the space of handsets. During evaluation the characteristics of an unknown test handset are optimally estimated by interpolation from the set of the a priori knowledge. Experimental results on the HTIMIT database show that the ML-AKI method can improve the average speaker identification rate from 60.0% to 74.6% as compared with conventional maximum a posteriori-adapted Gaussian mixture models. The proposed ML-AKI method is a promising method for robust speaker identification. 相似文献

14.

基于i-vector全局参数联合的说话人识别

下载免费PDF全文

杨明亮龙华邵玉斌杜庆治《重庆邮电大学学报(自然科学版)》2021,33(1):144-151

以高斯通用背景模型(Gaussian mixture model-universal background model,GMM-UBM)和i-vector模型为主的说话人识别算法在实际应用中取得了不错的成绩,但i-vector说话人识别模型中存在没有充分考虑通用背景(uni-versal background,UB)数据与训练数据耦合性的问题导致模型性能不佳.提出了基于i-vector全局参数联合(global parameter joint of identify vector,GPJ-Ⅳ)的说话人识别方法.该方法利用背景说话人特征训练得到说话人通用背景模型(universal background model,UBM),构建基于全局联合差异空间和联合信道补偿的GPJ-Ⅳ模型.通过实验测试并与传统方法进行对比,实验结果显示,所提出的GPJ-Ⅳ模型相比i-vector模型,等错误率(equal error rate,EER)和最小检测代价函数(minimum detection cost function,MinDCF)性能分别提升了58.99％和15.9％. 相似文献

15.

一种新型的与文本相关的说话人识别方法研究

下载免费PDF全文

周雷龙艳花魏浩然《上海师范大学学报(自然科学版)》2017,46(2):224-230

在与文本相关的说话人识别研究中,既要包含说话人身份的识别,又要包含语音文本内容的识别.提出一种基于语音识别的与文本相关的说话人识别方法,从而建立说话人的声纹模型和语音文本模型,与传统的仅建立一种模型的方法相比,该方法能更精确地描述说话人身份信息和语音的文本信息,较好地解决了短时语音样本识别效果不佳的问题.测试实验表明,和传统与文本相关的说话人识别方法(如基于动态时间规整、高斯混合-通用背景模型)相比,由本方法建立的系统虚警概率降低了8.9%,识别性能得到了提高. 相似文献

16.

基于分数规整的发音方式鲁棒的说话人识别

王琳琳张利鹏徐明星《清华大学学报(自然科学版)》2009,(Z1)

实际环境下,一个说话人识别系统的性能受到很多因素的影响,说话人自身发音方式的变化所引起的训练与识别语音的不匹配是其中很重要的一个方面。该文以一个含有多种发音方式变化的数据库为基础,对于不限定发音方式变化类型的情形,在分数域提出了一系列发音方式分数规整(S-Norm)的解决方法。实验结果表明:SZ-Norm、ST-Norm及SZT-Norm的做法均使系统的整体性能在基线基础上有了明显提高,尤其是在SZT-Norm的情况下等错误率下降约为27%,这说明基于分数规整的方法是有效的。相似文献

17.

电话语音双人检测算法

李科刘加《清华大学学报(自然科学版)》2007,47(1):65-68

为了提高两个说话人情况下电话语音双人检测的性能,提出了一种基于长时距离与短时距离之和的双人语音分段算法,并对分段过程中的聚类过程进行了改进。对于分段得到的语音采用基于GMM-UBM(Gaussian mixturemodel-universal background model,GMM-UBM)模型的说话人确认算法,构成一个电话语音双人检测系统。实验结果表明:在美国国家标准技术局1999年组织的年度说话人识别评测双人检测数据库上的检测等错误率为15.1%。该算法取得了良好的效果。相似文献

18.

基于支持说话人权重的快速说话人自适应算法

蔡铁朱杰《上海交通大学学报》2005,39(12):1997-2001

针对语音识别系统中快速说话人自适应问题，提出了一种支持说话人权重算法．该算法通过支持说话人的计算实现了说话人选择与自适应参数的降维，减少了自适应时的存储量，有效提高了自适应数据较少时的性能．有监督自适应的实验结果表明，在仅有一句自适应语句的情况下系统误识率相对非特定人（SI）系统下降了5．82％，明显优于其他快速自适应算法．相似文献