首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 133 毫秒
1.
目的 获得具有更好的说话人鉴别特征,改善说话人识别系统.方法 首先用KFD对语音信号的MFCC特征进行再提取,然后用SVM对提取的特征分类辨认.结果 比较了LPC和KDA提取MFCC后的3种特征的识别结果.其中LPC的识别结果在89%左右,MFCC识别结果在96%左右,提取后的识别结果在97%左右.其识别率比提取前有明显的提高.结论 该方法对说话人有更好的识别能力.KFD比传统的LDA能提取出可分性更强的特征,提高了系统的识别率,同时由于该方法的复杂性,也增加了系统的运算时间.今后,应该针对如何进一步提高系统的识别率和缩短系统的运算时间等问题进行研究.  相似文献   

2.
 鉴于应用支持向量机进行说话人识别过度依赖于选择核函数的问题,提出一种基于组合核函数支持向量机(SVM)的说话人识别方法.对多项式核函数、径向基核函数进行线性加权,构建既具有全局核函数优点又具有局部核函数优点的组合核函数,并通过多重网格搜索调节权重系数使组合核函数适用于当前数据分布,确定组合核函数SVM 的最优参数,实现对说话人的有效识别.对TIMIT 数据集和含噪声数据集的仿真实验显示,基于组合核函数SVM 的说话人识别性能明显优于单一的多项式核函数、径向基核函数和线性核函数.  相似文献   

3.
用于说话人鉴别的特征组合方法(英文)   总被引:1,自引:2,他引:1  
线性预测系数(LPC)与mel倒谱系数(MFCC)作为说话人识别的两种常用特征,取得了较高的识别率.但这两种特征都存在维数限制的问题,即当特征维数增加到一定程度时,识别率不再提高.该现象可以从机理方面解释,实验数据也表明了这一现象.本文试图用特征组合方法克服这种限制,实验表明,在无噪和噪声情况下,特征组合都表现出其有效性.  相似文献   

4.
说话人识别技术是通过判断待识别人语音与预先提取的说话人语音特征是否匹配来鉴别说话人身份的一种生物认证技术,环境噪声是说话人识别技术走向实用化的一个主要障碍.针对噪声环境中说话人识别性能较差的不足,结合小波变换的优点,提出了将小波变换技术与传统的特征参数提取方式相结合的方法.该方法首先对语音信号进行小波分解,在此基础上再对小波系数进行阈值处理,仅保留阈值以上的数据,而后提取相关性不大的传统特征参数进行组合,分别作为说话人识别系统的输入矢量.仿真结果表明:在噪声环境中,说话人识别系统能较好识别出说话人,经过小波变换后再提取特征参数的方法可以得到更高的识别率,大大提高说话人识别系统的识别性能.  相似文献   

5.
基于机器学习理论开展说话人识别的研究取得了很大进展,在基于核极限学习机(kernel extreme learning machine,KELM)和梅尔倒谱系数(mel-frequency cepstral coefficients,MFCC)说话人识别研究基础上,通过主成分分析算法(principal component analysis,PCA)对MFCC进行降维优化、粒子群优化算法(particle swarm optimization,PSO)对KELM初始输入参数进行优化开展基于PSO和PCA融合优化KELM说话人识别算法研究。改进后的算法在MATLAB平台上仿真通过,并与MATLAB语音工具箱提供的神经网络和支持向量机说话人识别算法做了性能对比分析。仿真研究结果表明:通过PSO和PCA融合优化改进的KELM,初始输入参数可以任意确定并且不需要迭代更新,并能有效克服因初始权重随机确定导致的性能不稳定,进一步提高分类匹配和运算速度,具有很好的推广应用价值。  相似文献   

6.
为提高说话人识别系统的识别率,提出了一种提取Mel频率倒谱系数(MFCC)与差分特征组合参数的方法:先对传统的MFCC参数进行特征分量归一化处理,提升MFCC系数的噪声鲁棒性;再用高斯混合模型(GMM)构建了说话人识别系统。使用TIMIT语音库进行实验测试,并比较了不同高斯混合数的MFCC特征参数组合对识别率的影响。结果表明:使用改进的MFCC混合参数明显地提高了说话人的识别率。  相似文献   

7.
为了提高两个说话人情况下电话语音双人检测的性能,提出了一种基于长时距离与短时距离之和的双人语音分段算法,并对分段过程中的聚类过程进行了改进。对于分段得到的语音采用基于GMM-UBM(Gaussian mixturemodel-universal background model,GMM-UBM)模型的说话人确认算法,构成一个电话语音双人检测系统。实验结果表明:在美国国家标准技术局1999年组织的年度说话人识别评测双人检测数据库上的检测等错误率为15.1%。该算法取得了良好的效果。  相似文献   

8.
为了在存储量受限的情况下尽可能提高线性预测编码(linear predictive coding,LPC)系数量化性能,提出了一种基于码本共享算法的分模式多级矢量量化(multi-stagevector quantization,MSVQ)算法。由于LPC参数的分布与清浊音(unvoiced/voiced,U/V)参数相关,该算法对不同U/V对应的LPC参数进行不同量化,然后利用码本共享算法减少存储量需求。实验表明:在相同码率的情况下,该算法较MSVQ平均谱失真(spectrum distortion,SD)降低3.2%,码本大小增加26.7%;较分模式量化(mode-basedquantization,MBQ)平均谱失真升高3.6%,但是码本尺寸下降了92.1%。该算法是MSVQ与MBQ算法的一种折衷,在增加少量存储量的情况下提高了LPC系数的量化性能。  相似文献   

9.
近来,一种结合语音识别中深度神经网络(deep neural network,DNN)模型和说话人识别中身份认证矢量(identity vector,i-vector)模型的方法被证明对说话人识别十分有效。为了进一步提升系统性能,该文提出使用基于说话人标签的DNN模型提取Bottleneck特征代替该模型中的短时频谱特征来计算充分统计量,从而使统计量中包含更多有利于说话人识别的信息。在美国国家标准与技术研究院说话人识别库2008年度女性电话对电话英语测试任务上进行的实验证明了该方法的有效性。相比原来的短时频谱特征,基于Bottleneck特征的说话人识别系统在等错误率和最小检测代价上相对减小了7.65%和5.71%。  相似文献   

10.
环境失配问题严重影响着说话人识别的性能,这一问题在非平稳噪音条件下表现得更为显著.为了增强说话人识别在环境失配条件下的鲁棒性,基于稀疏表示提出了一种高维鲁棒语音特征的生成方法,并针对上述高维语音特征的稀疏特性提出了一个说话人模型.在该说话人识别方法中,首先以优化的联合基作为稀疏表示的基,在此基础上对信号进行分解,用于从带噪语音中剥离噪音成分,并从中提取语音信号的内蕴时频结构;之后在此基础上提出了一种鲁棒的稀疏谱语音特征,并根据该特征的高维稀疏特性给出了基于混合k-means的说话人模型.实验结果显示,与基于梅尔倒谱系统特征的基线系统相比,提出的说话人识别方法在NIST SRE-2003语料库条件下的等错误率下降了28.16%,在Chinese-863语料库和不同信噪比(5dB和0dB)的非平稳汽车噪音环境下的等错误率分别下降了9.84%和14.21%.上述结果表明,在环境失配情况下,提出的说话人识别方法的性能明显优于基于梅尔倒谱系数特征的基线系统.  相似文献   

11.
基于VQ的说话人识别系统的实现   总被引:1,自引:0,他引:1  
王吉林 《高等职业教育》2004,13(6):39-42,48
系统以语音信号的LPC倒谱系数、差值倒谱系数、基音周期和差值基音周期的混合特征参数作为识别的特征矢量集,运用矢量量化(VQ)技术实现了与文本有关的说话人识别。在一个10人,1800个语音的语音库上进行了系统的识别实验,其中单音节语音的平均识别率达到了92%,双音节语音达到了96.67%,四音节语音达到了97.67%。系统用于实时识别也收到了较好的效果。  相似文献   

12.
主要讨论了一种使用语音频谱动态特性的倒谱距离测量对通信系统或通信设备进行客观音质评价方法,它是在使用LPC倒谱距离评价普通话语音质量的基础上发展起来的,语音频谱动态特性是利用倒谱对时间的回归分析来表示的,这种度量方法中,使用倒谱系数,倒谱回归系数和能量回归系数3个参数的距离测量,在使用了谱包络信息的基础上,考虑了谱包络随时间的变化量及信号能量随时间的变化,比较了4种距离估算方法和主观音质评价(MO  相似文献   

13.
一种语音信号线性预测系数的求解新方法   总被引:1,自引:0,他引:1  
语音信号的线性预测分析是语音信号处理中的重要部分,线性预测系数提取的速度和精确程度直接影响后续的处理工作.现提出一种基于BP神经网络的线性预测系数的求解方法.实验表明,该方法能以较少的训练次数得到较高的计算精度.  相似文献   

14.
本文研究了两种LPc声道参数的量化方法。首先研究了反射系数(下称R参数)的量化方法,采用最小偏差量化对10个R参数用36比特进行编码,使平均频谱偏差低于1dB。其次研究了线谱对(LSP)参数的提取及量化,提出了一种快速的便于实时实现的LSP参数的提取方法,并对10个LSP参数用30比特进行自适应量化。性能比较结果表明,LSP参数的量化优于R参数,并且具有较强的抗误码性能。  相似文献   

15.
本文从LPC系数的统计特性出发,基于线性均方误差估值的思想,提出了一种用于语音识别的新的LPC距离量度——LMSE距离.在一个IBM-PC机语音处理系统和一个VAX-11/750机语音处理系统上,做了大量孤立词识别实俭,证实了这种距离的可行性.文中还将它与著名的Itakura距离进行了比较.  相似文献   

16.
先讨论由语音信号反演声门激励函数,发现波沿非均匀声管传导既能产生新的频率(共振作用),也可抑制原有频率(滤波作用).这说明目前用于语音处理基础的全极点LPC模型并不能充分反映这些特征.然后研究如何直接从语音生成的偏微分方程模型出发,用反演方法提取一种新的语音特征参数代替LPC作为研究各种语音处理的基础.  相似文献   

17.
提出一种具有良好抗噪性的语音特征分析方法.将语音信号的短时自相关序列进行时间方向上的平滑处理,然后利用平滑后的序列代替原语音信号进行线性预测分析,从而得到线性预测倒谱系数.实验表明,利用该特征参数的语音识别系统的识别性能优于MEL倒谱系数、LPC倒谱系数等传统的语音特征参数.  相似文献   

18.
频谱包络转换是语音转换中的一项重要内容,基于双线性转换函数进行频谱搬移的方法可以有效的进行谱包络转换,并且基于小语料库训练时仍能得到稳定的转换谱包络。本文基于LPC分析,在求解频谱搬移后的系统单位冲激响应的基础上,提出求解频谱搬移后LPC系数的方法,以此来实现频谱包络的变换,取得较好的效果。  相似文献   

19.
语音编码中一般用线性预测编码(LPC)建立信号的声道响应,如何提高LPC的预测增益并用尽可能少的比特数量化LPC参数将直接影响编码器的性能.文中提出了一种基于信号谐振结构的LPC技术(HLPC),利用HLPC可使LPC谱与信号谐振峰具有最佳的拟合,同时可获得0.36dB的额外预测增益.设计了LPC参数的线性预测多层分裂码本矢量量化(LPMSVQ)方法.数值实验表明,利用LPMSVQ可在21bit/帧下获得透明的量化质量.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号