首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 109 毫秒
1.
说话人性别识别是语音识别研究中的一个重要分支.通过说话人的语音识别作为说话人性别识别的预分类技术可以降低研究问题的复杂度,提高系统的准确率.文中首先从建立的藏语语音性别库入手,提取语音的特征参数MFCC,进而利用SVM进行训练和识别.实验结果表明:用于说话人识别的MFCC特征能有效地用于藏语说话人性别识别,且与SVM联...  相似文献   

2.
目的研究语音特征梅尔频率倒谱系数(MFCC)的选取对说话人识别系统性能的影响。方法采用基于平均影响值(MIV)的支持向量机(SVM)方法研究了说话人识别中的梅尔频率倒谱系数各维倒谱分量对于识别分类的贡献度。结果选择具有代表性的特征向量进行说话人分类识别,能得到维数更低、识别率更高的特征参数。结论通过MIV值可判断各维特征参数分量的重要性,选取权重值高的MFCC特征参数来提高系统识别率和缩短系统运行时间。  相似文献   

3.
采用生物的特征识别技术,对说话人识别中说话人确认与说话人辨认的传统方法与分类进行了讨论,对现在使用的各种说话人识别算法进行了综合分析。以LPCC(Linear Prediction coding Coefficient)和MFCC(MEL Frequency Cestrum Coefficient)两种特征参数提取为基础,对GMM(Gaussian MixtureModels),VQ(vector Quantization),DHMM(Discrete Hidden Markov Model),CHMM(Concatenation HiddenMarkov Model)等几种识别方法进行了实现,做到了真正的与文本无关。特别以GMM识别方法的部分实验结果为例进行分析,解决了系统中的阈值设置问题,改进了该方法的决策手段。根据实验数据,在各种方法中,说话人确认的错误拒识率和误识率相对说话人辨认总是较高,本文把说话人辨认的阈值选择方法应用于说话人确认,以多模板匹配方式为辅助,使得说话人确认的错误拒识率和误识率大大降低,并通过实验证明了该种改进方法的有效性。  相似文献   

4.
一种基于小波神经网络混合模型的说话人识别方法   总被引:2,自引:2,他引:0  
提出一种混合模型,即将隐马尔可夫模型(HMM)和小波神经网络(WNN)相结合应用于说话人识别的模型.该方法利用HMM的时序建模能力以及小波神经网络较强的模式分类能力,进行与文本无关的说话人的识别.实验表明,采用这种混合模型可以提高系统的识别率,特别在噪声环境中具有一定的噪声鲁棒性,提高了识别性能.  相似文献   

5.
针对支持向量机不能直接处理动态时间序列的语音数据问题,提出一种基于PCS-PCA分类器和AOI-Fisher分值(add original information fisher score)法的序列特征提取方法.首先利用PCA对每位注册说话人的特征向量进行维数约简,由转换矩阵得到每位说话人的主成分空间(principal component space,PCS),在此空间上快速判断出可能的R个说话人;然后在R个可能说话人的约简向量集上建立高斯混合模型;最后利用AOI-Fisher分值法进行向量定长转换的同时,为每位说话人的特征向量添加一维原始分类信息log P(X|θ).仿真实验结果表明,将该序列特征提取方法应用于SVM说话人确认系统,在不影响系统识别速度的情况下,具有较高的识别性能.  相似文献   

6.
基于机器学习理论开展说话人识别的研究取得了很大进展,在基于核极限学习机(kernel extreme learning machine,KELM)和梅尔倒谱系数(mel-frequency cepstral coefficients,MFCC)说话人识别研究基础上,通过主成分分析算法(principal component analysis,PCA)对MFCC进行降维优化、粒子群优化算法(particle swarm optimization,PSO)对KELM初始输入参数进行优化开展基于PSO和PCA融合优化KELM说话人识别算法研究。改进后的算法在MATLAB平台上仿真通过,并与MATLAB语音工具箱提供的神经网络和支持向量机说话人识别算法做了性能对比分析。仿真研究结果表明:通过PSO和PCA融合优化改进的KELM,初始输入参数可以任意确定并且不需要迭代更新,并能有效克服因初始权重随机确定导致的性能不稳定,进一步提高分类匹配和运算速度,具有很好的推广应用价值。  相似文献   

7.
提出一种新的可用于说话人识别的径向基函数网络(RBFN)阵列.RBFN网设计思想是在确定网络中心点之后采用最小线性方差作为目标函数解得最优权重,该方法并不能得到最优分类效果.使用Fisher目标函数,替代RBF中的误差目标函数来求取最优权重,用与文本无关的闭集说话人识别系统对该算法进行了验证,实验结果表明,该方法提高了RBF分类能力,比传统的RBF、算法以及ROLS算法具有更高的识别率,并在识别效果接近GMM方法的情况下计算量大幅度减少。  相似文献   

8.
针对大数据量音频的高速处理,提出一种快速的声学特征超向量生成方法,有效提高音频识别系统的识别速度和精度.所提方法首先将多个连续音频帧的常用声学特征构成声学特征图,进而使用低复杂度的运算方法在其中快速提取维数达数十万的Haar-like声学特征;然后使用AdaBoost.MH算法,筛选出具有较高代表性的Haar-like声学特征模式组合,用以构成声学特征超向量;进而提出Random AdaBoost特征筛选方法,进一步提高特征筛选速度.实验结果表明,在音频事件识别、说话人识别、说话人性别识别3种场合下,使用Haar-like声学特征可以使SVM、C5.0、AdaBoost等识别算法获得比MFCC、PLP、LPCC等常用声学特征更高的识别准确率,同时可以获得7~20倍的训练速度提升和5~10倍的识别速度提升.   相似文献   

9.
本文提出了多级模糊识别模型及多级混合式模糊谡别模型,并对它在综采工作面顶板分类问题中的应用进行了研究。依据工作面顶板岩层与液压支架相互作用性质的分类方法给出了顶板分类的模糊谡别模型,为顶板分类提供了一种量比手段.  相似文献   

10.
近来,一种结合语音识别中深度神经网络(deep neural network,DNN)模型和说话人识别中身份认证矢量(identity vector,i-vector)模型的方法被证明对说话人识别十分有效。为了进一步提升系统性能,该文提出使用基于说话人标签的DNN模型提取Bottleneck特征代替该模型中的短时频谱特征来计算充分统计量,从而使统计量中包含更多有利于说话人识别的信息。在美国国家标准与技术研究院说话人识别库2008年度女性电话对电话英语测试任务上进行的实验证明了该方法的有效性。相比原来的短时频谱特征,基于Bottleneck特征的说话人识别系统在等错误率和最小检测代价上相对减小了7.65%和5.71%。  相似文献   

11.
基于组合神经网络的与文本无关的说话人识别   总被引:1,自引:1,他引:0  
提出了一种用于N个说话人识别的组合神经网络,由N个子网组成,每个子网完成两类模式区分,将这N个子网组合起来完成N类模式的区分.子网选用RBF神经网络,并给出了自组织选取中心的方法.实验显示,对6名说话人,识别率达到94%.对10名说话人,识别率达93.17%.  相似文献   

12.
提出一种新的说话人识别方法,即将D-S证据理论应用于说话人识别中。该方法通过抽取说话人特征,用D-S证据理论对语音特征矢量的各个分量进行数据融合,重新分配基本概率赋值,并依此得出证据可信度,从而达到识别说话人身份的目的。仿真实验证明使用D-S证据理论对说话人的识别比使用矢量量化有更好的识别效果。  相似文献   

13.
Fractal dimension of voice-signal waveforms   总被引:2,自引:0,他引:2  
The fractal dimension is one important parameter that characterizes waveforms. In this paper, we derive a new method to calculate fractal dimension of digital voice-signal waveforms. We show that fractal dimension is an efficient tool for speaker recognition or speech recognition. It can be used to identify different speakers or distinguish speech. We apply our results to Chinese speaker recognition and numerical experiment shows that fractal dimension is an efficient parameter to characterize individual Chinese speakers. We have developed a semiautomatic voiceprint analysis system based on the theory of this paper and former researches. Foundation item: Supported by the Special Funds for May State Basic Research Projects Biography: Xie Yu-qiong(1964-), female, Ph. D candidate, research direction: fractal geometry.  相似文献   

14.
Mel频率倒谱系数提取及其在声纹识别中的作用   总被引:8,自引:0,他引:8  
从说话人的语音信号中提取出说话人的个性特征是声纹识别的关键。本文介绍了一种基于HMM的声纹识别系统,采用能够反映人对语音的感知特性的Mel频率倒谱系数(Mel-Frequency Cepstral Coefficients,MFCC)作为特征参数,取得了很好结果。  相似文献   

15.
随着待识别人数的增加,文本无关的说话人识别准确率下降明显. 针对这一问题提出了一种高准确率大规模说话人识别方法,该方法采用多个连续音频帧的声学帧特征构成声学特征图,进而获得高维度的2D-Haar声学特征,为训练出性能更优的分类器提供可能;再利用AdaBoost.MH算法筛选出具有较好区分度的2D-Haar声学特征组合进行分类器训练. 实验结果表明,600人规模下的正确识别率为89.5%,100~600人规模下的平均准确率为91.3%. 该方法适用于大规模说话人的识别,引入的2D-Haar声学特征有效,识别准确率高. 此外,该方法还具有较低的算法复杂度和较高的时间效率.   相似文献   

16.
提出利用挥手行为进行性别识别的方法.使用基于含时切平面的方法检测周期,用平均剪影表征一个周期序列的挥手行为,PCA降维后利用支持向量机进行分类.实验在60人(30男,30女)的数据库上进行.实验结果表明,用提出的算法从三种挥手行为(挥左手、挥右手、挥双手)中识别出性别的正确率达到89.83%或更高.实验还将人体分成5部分:手臂、头肩、腰、臀和腿,研究人体各组成部分对性别识别的贡献.93个对比实验结果表明,去掉手臂部分识别率下降最快;只通过手臂识别正确率达到86.44%或更高;使用两部分识别,手臂+臀部是最优组合;使用三部分识别,手臂+头肩+腰是最优组合.  相似文献   

17.
本文讨论了基于非均匀矢量量化、隐马尔可夫模型(HMM)的孤立数字语音识别系统。在现有的连续密度隐马尔可夫模型多说话人孤立数字识别系统中,通常采用 LBG 算法建立矢量码本,并采用全搜索识别算法,这样的结果限制了识别精度和识别速度。本文提出了一种新的系统算法,即用非均匀矢量量化(Non-Uniform Vector Quantization——NUVQ)取代原矢量量化部份,实验结果证明,本系统在识别速度和识别精度上都有了较大的改善。  相似文献   

18.
19.
基于VQ的说话人识别系统的实现   总被引:1,自引:0,他引:1  
王吉林 《高等职业教育》2004,13(6):39-42,48
系统以语音信号的LPC倒谱系数、差值倒谱系数、基音周期和差值基音周期的混合特征参数作为识别的特征矢量集,运用矢量量化(VQ)技术实现了与文本有关的说话人识别。在一个10人,1800个语音的语音库上进行了系统的识别实验,其中单音节语音的平均识别率达到了92%,双音节语音达到了96.67%,四音节语音达到了97.67%。系统用于实时识别也收到了较好的效果。  相似文献   

20.
大学生闽南语说话人识别语音库的设计   总被引:1,自引:0,他引:1  
设计了一个包含120名在校大学生的闽南语说话人识别语音库.该语音库可以根据闽南语口音、说话人性别等条件来进行语音语料的查询.针对不同口音的说话人进行了一系列的GMM(Gaussian Mixture Speaker Model)说话识别实验,验证了特定口音模型比非特定口音模型的识别率一般要高10%左右.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号