首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 125 毫秒
1.
在与文本相关的说话人识别研究中,既要包含说话人身份的识别,又要包含语音文本内容的识别.提出一种基于语音识别的与文本相关的说话人识别方法,从而建立说话人的声纹模型和语音文本模型,与传统的仅建立一种模型的方法相比,该方法能更精确地描述说话人身份信息和语音的文本信息,较好地解决了短时语音样本识别效果不佳的问题.测试实验表明,和传统与文本相关的说话人识别方法(如基于动态时间规整、高斯混合-通用背景模型)相比,由本方法建立的系统虚警概率降低了8.9%,识别性能得到了提高.  相似文献   

2.
随着待识别人数的增加,文本无关的说话人识别准确率下降明显. 针对这一问题提出了一种高准确率大规模说话人识别方法,该方法采用多个连续音频帧的声学帧特征构成声学特征图,进而获得高维度的2D-Haar声学特征,为训练出性能更优的分类器提供可能;再利用AdaBoost.MH算法筛选出具有较好区分度的2D-Haar声学特征组合进行分类器训练. 实验结果表明,600人规模下的正确识别率为89.5%,100~600人规模下的平均准确率为91.3%. 该方法适用于大规模说话人的识别,引入的2D-Haar声学特征有效,识别准确率高. 此外,该方法还具有较低的算法复杂度和较高的时间效率.   相似文献   

3.
为了提升说话人识别技术在复杂噪声环境下的识别性能,提出了一种基于高斯均值矩阵和卷积神经网络的鲁棒性说话人识别方法,应用于纯净语音训练出的模型上测试含噪语音的场景.其中高斯均值矩阵是采用最大后验概率(MAP)对传统的梅尔频率倒谱系数(MFCC)特征进行自适应操作得到的,这一操作增加了帧与帧之间的关联性,使特征携带更丰富的说话人身份信息.同时采用卷积神经网络进一步对帧层面的信息进行对准,并从数据中学习到更有利于说话人识别的特征表示,从而提升说话人识别的鲁棒性.实验结果表明在Libri语音数据集上,所提出方法的鲁棒性优于GMM-UBM和GSV-SVM算法.  相似文献   

4.
本文讨论了基于非均匀矢量量化、隐马尔可夫模型(HMM)的孤立数字语音识别系统。在现有的连续密度隐马尔可夫模型多说话人孤立数字识别系统中,通常采用 LBG 算法建立矢量码本,并采用全搜索识别算法,这样的结果限制了识别精度和识别速度。本文提出了一种新的系统算法,即用非均匀矢量量化(Non-Uniform Vector Quantization——NUVQ)取代原矢量量化部份,实验结果证明,本系统在识别速度和识别精度上都有了较大的改善。  相似文献   

5.
采用生物的特征识别技术,对说话人识别中说话人确认与说话人辨认的传统方法与分类进行了讨论,对现在使用的各种说话人识别算法进行了综合分析。以LPCC(Linear Prediction coding Coefficient)和MFCC(MEL Frequency Cestrum Coefficient)两种特征参数提取为基础,对GMM(Gaussian MixtureModels),VQ(vector Quantization),DHMM(Discrete Hidden Markov Model),CHMM(Concatenation HiddenMarkov Model)等几种识别方法进行了实现,做到了真正的与文本无关。特别以GMM识别方法的部分实验结果为例进行分析,解决了系统中的阈值设置问题,改进了该方法的决策手段。根据实验数据,在各种方法中,说话人确认的错误拒识率和误识率相对说话人辨认总是较高,本文把说话人辨认的阈值选择方法应用于说话人确认,以多模板匹配方式为辅助,使得说话人确认的错误拒识率和误识率大大降低,并通过实验证明了该种改进方法的有效性。  相似文献   

6.
提出一种新的说话人识别方法,即将D-S证据理论应用于说话人识别中。该方法通过抽取说话人特征,用D-S证据理论对语音特征矢量的各个分量进行数据融合,重新分配基本概率赋值,并依此得出证据可信度,从而达到识别说话人身份的目的。仿真实验证明使用D-S证据理论对说话人的识别比使用矢量量化有更好的识别效果。  相似文献   

7.
本文利用主分量神经网络分析法(PCANN)和反向传播神经网络,提出了一种具有较强自适应性和较高识别率的说话人识别方法.在此算法过程中,主分量分析法主要是对语音信号的原始特征作分析以得到更好的特征参数;BP神经网络则是作为一个分类器对说话人进行分类.文章将主分量分析与BP神经网络相结合,提高了识别的正确率,增强了系统抗噪声能力,减少了训练时间和计算量,同时简化了网络结构.  相似文献   

8.
提出了一种新的语音识别方法,该方法综合了VQ,HMM和无教师说话人自适应算法的优点。该方法首先在每个状态通过用矢量量化误差值取代传统HMM的输出概率值来建立VQ-HMM,同时采用无教师自适应矢量量化算法,来改变VQ-HMM的各状态的码字,从而实现对未知说话人的码本适应。本文通过非特定人汉语数码(孤立和连续数码)识别实验,把新的组合方法同基于CHMM的自适应和识别方法进行了比较,实验结果表明该方法鲁棒性好,所需计算量较少,自适应和识别效果远优于基于CHMM的方法。  相似文献   

9.
为获得说话人发音特征,基于仿生思想,提出一种基于语谱图统计的方法,通过对说话人短时语谱图的线性叠加获得可表征说话人稳定发音特征的特征语谱图。为解决资源受限的设备中说话人识别系统网络训练速度慢、识别效率低的问题,基于传统自组织映射(self-organizing feature map,SOM)神经网络提出了一种自适应聚类SOM (adaptive clustering-SOM,ACSOM)算法,随着待识别说话人数的增加,自动调节增加竞争层神经元个数,直至聚类数达到说话人个数。采用该AC-SOM模型对100人的自建特征语谱图样本库进行聚类识别,最大训练时间只需304 s,最大单张识别时间小于28 ms;在识别人数相同时,相对于所对比的其他识别方法,该方法大大提升了网络训练速度和识别速度,满足了边缘智能(edge intelligence)系统中对数据处理与执行的实时性的要求。  相似文献   

10.
环境失配问题严重影响着说话人识别的性能,这一问题在非平稳噪音条件下表现得更为显著.为了增强说话人识别在环境失配条件下的鲁棒性,基于稀疏表示提出了一种高维鲁棒语音特征的生成方法,并针对上述高维语音特征的稀疏特性提出了一个说话人模型.在该说话人识别方法中,首先以优化的联合基作为稀疏表示的基,在此基础上对信号进行分解,用于从带噪语音中剥离噪音成分,并从中提取语音信号的内蕴时频结构;之后在此基础上提出了一种鲁棒的稀疏谱语音特征,并根据该特征的高维稀疏特性给出了基于混合k-means的说话人模型.实验结果显示,与基于梅尔倒谱系统特征的基线系统相比,提出的说话人识别方法在NIST SRE-2003语料库条件下的等错误率下降了28.16%,在Chinese-863语料库和不同信噪比(5dB和0dB)的非平稳汽车噪音环境下的等错误率分别下降了9.84%和14.21%.上述结果表明,在环境失配情况下,提出的说话人识别方法的性能明显优于基于梅尔倒谱系数特征的基线系统.  相似文献   

11.
用于LBG初始码书设计的改进PNN算法   总被引:1,自引:1,他引:0  
矢量量化初始码书对于码书的形成非常重要,为了改善初始码书的性能和提高最终的码书质量,在分析成对最邻近(pair-wise nearest neighbor,PNN)算法与基础上,提出2种改进算法用于LBG算法初始码书的设计。改进的算法将训练矢量的分量和值排序与一次迭代多次融合用于PNN算法中,有效地降低了PNN算法的复杂度,减小了PNN算法的收敛时间。实验证明,该算法具有合理性和有效性,与LBG算法结合可进一步提高码书质量。  相似文献   

12.
为了有效地减少语音编码的比特数、降低量化误差以及提高解码语音质量,提出了一种二级矢量量化的LPC声码器算法.该算法在模糊聚类与LBG级联的VQ算法的基础上,进一步采用二级矢量量化算法对特征参数矢量进行量化.特征参数为语音的两个特征值:基音周期与增益.第一级码本为矢量码本;第二级码本为误差码本.将该算法应用于LPC声码器中进行仿真实验,结果表明:该算法能有效地降低量化比特数并且减少了量化误差,从而使解码语音质量得到改善.  相似文献   

13.
在介绍矢量量化以及LBG算法和SOFM算法的基础上,通过实验对比了LBG算法和SOFM算法在应用于图象矢量量化压缩过程时,码书大小、码字大小以及初始码书生成方式等因素对图像压缩性能的影响,得到了相关结论:固定码字矢量维数,码书越大,压缩比越小,重建图像质量越好;固定码书,码字矢量维数越小,编码性能越好;LBG算法对初始码书敏感,而SOFM算法由于所具备的自适应特性对初始码书不敏感。论文最后提供了一些改进思路,为改进传统矢量量化算法及设计新的矢量量化算法以提供了参考。  相似文献   

14.
一种新的基于分裂法的矢量量化算法   总被引:2,自引:0,他引:2  
提出了一种新的适合于矢量量化技术的码书设计算法,它的主要思想是依据等误差准则和分区域收敛性质,对满足迭代终止条件的质心区域进行标记,以后不再对已标记区域进行迭代,每一步迭代执行基于分裂码字的改进LBG算法。该算法简单,能极大地提高训练速度,并得到较低的失真,而且不适合于并行计算。理论分析和实验结果表明本文提出的算法是有效的并优于其它算法。  相似文献   

15.
为了设计最优码书,提出了一种新的渐进构造模糊聚类(PCFC)算法,并将其应用到图像的矢量量化中.通过与其他矢量量化算法(如LBG和FCM)的比较,证明该算法不论在生成码书的质量还是在计算速度上都具有很强的优势.这种模糊矢量量化算法为进一步改善图像压缩的矢量量化性能提供了新途径  相似文献   

16.
实现一种数字图像压缩编码方法。该方法首先应用LBG算法对数字图像进行矢量量化编码,然后对矢量量化编码所得的最佳码书的索引进行Huffman编码。该方法的图像压缩比可以达到17.2:1。  相似文献   

17.
一种基于小波分析的图像压缩编码方法   总被引:2,自引:2,他引:0  
提出一种基于小波变换的图像压缩编码算法。即首先对图像进行小波分解 ,然后对高频子图像用改进后的LBG算法形成码书 ,进行VQ编码。算法充分利用了不同分辨率间各种子图像的相似性 ,仅对最高分辨率层进行码书地址索引 ,低频区域用DPCM编码 ,最低分辨率层用游程编码。模拟实验的结果验证了该算法在提高图像的恢复质量及降低位码率方面有一定的价值  相似文献   

18.
本文提出了一种基于模糊矢量量化(FVQ)和隐马尔柯夫模型(HMM)模糊训练的语音识别新方法.利用模糊矢量量化替代了传统方法中的矢量量化,语音特征参数序列经过模糊矢量量化后得到模糊观察符号序列.在此基础上提取出一个反映训练样本总体随机变化特性的模糊观察符号序列,然后用它对该音节的HMM进行一次性全局训练,训练算法经传统的Baum-Welch算法改进得到.经十个汉语数字的对比实验表明,该训练算法大大提高了系统的训练速度,模糊矢量量化与传统的矢量量化相比,不仅提高了隐马尔柯夫模型的鲁棒性,进而提高了系统的识别率,而且在语音训练数据不充足的情况下,也能得到很好的识别性能.  相似文献   

19.
基于小波变换的矢量量化快速码字搜索算法   总被引:1,自引:1,他引:0  
针对矢量量化过程中编码的复杂性,提出了一种基于小波变换的自适应快速码字搜索算法.该算法使用欧几里德距离的平方作为量化的失真测度,首先为输入矢量选择合理的初始匹配码字,然后利用多控制点的三角不等式和变换域中矢量的性质去排除不可能匹配的码字,最后通过搜索空间的逐次降低找到与输入矢量最匹配的码矢量.仿真结果表明:在需要很少预先计算量和额外存储量的条件下,文中算法的编码质量和全搜索算法相同,但是其计算量却极大地降低.  相似文献   

20.
基于GA/VQ的说话人辨认的研究与实现   总被引:3,自引:0,他引:3  
为了改善在矢量量化说话人识别中,采用模板(码书)表征说话人,模板的质量对识别系统的性能。采用遗传算法改进模板的生成方式,构建了一种GA/VQ说话人辨认系统,给出了一种GA/VQ识别算法,通过遗传操作获得全局优化的说话人模板。实验证明,GA/VQ方法提高了码书的质量,比经典矢量量化识别系统识别率高。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号