首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 234 毫秒
1.
针对非对称语料库情况下的语音转换,提出了一种基于混合Gauss归一化的语音转换方法。通过背景说话人模型,分别自适应训练得到源说话人和目标说话人模型。利用训练得到的模型自适应参数,提出了基于Gauss归一化的特征映射方法,为了进一步提高转换效果,进而提出了混合Gauss归一化的方法。针对说话人模型中未被更新的参数,采用KL散度(Kullback-Leibler divergence)方法进行了优化。最后通过主客观实验对提出的算法的有效性进行了仿真和验证。实验结果表明:该文提出的基于混合Gauss归一化的语音转换方法,在倒谱失真度、转换语音的目标倾向度以及感知质量上,都获得了接近基于对称语音库的传统Gauss混合模型(Gaussian mixture model,GMM)方法的效果。  相似文献   

2.
两阶段混合因子分析算法   总被引:1,自引:0,他引:1  
混合因子分析是一种对具有复杂结构的多维数据建立模型的方法.提出了一种两阶段的混合因子分析算法,它们都能够使用期望-最大化算法来实现.当给定一组随机样本时,首先建立此样本概率分布的Gauss混合模型,进而再对每一个Gauss混合项进行因子分析.实例表明算法是有效的.  相似文献   

3.
谱聚类是目前最有效的视频镜头聚类算法之一,但是如何自动选择最优化的分类个数仍是谱聚类算法中的难题。该文提出一种基于最优化分类的视频镜头谱聚类算法,对每个镜头采用分区域的Gauss混合模型(DGMM)进行特征建模,并提取模型参数特征作为镜头谱聚类的特征向量,通过构造DGMM和谱聚类的联合评价函数来自动选择最优化的分类个数和特征空间维数。实验结果表明,该文提出的算法比原有谱聚类算法分类结果更加准确和有效。  相似文献   

4.
在采用支持向量机的文本无关的说话人确认中,针对传统的均值超向量特征区分性不够明显的情况,该文提出采用相对背景模型的权重更新量以及均值更新量形成超向量,用这个超向量作为支持向量机的特征函数,在线性核函数的情况下,能够取得优于均值超向量和传统的Gauss混合模型一通用背景模型(GMM-UBM)的方法.在2006年美国国家标准与技术研究所说话者识别(NIST SRE)lconv4w-lconv4w数据库上,该方法相对于基线的GMM-UBM系统等错误率降低了22%.实验结果表明:权重参数在支持向量机中具有重要的作用,在不考虑与UBM的耦合性的情况下超向量能够取得更强的分类能力.  相似文献   

5.
GMM-UBM和SVM说话人辨认系统及融合的分析   总被引:3,自引:0,他引:3  
在说话人辨认任务中,Gauss混合模型-通用背景模型(Gaussian mixture model-universal backgroundmodel,GMM-UBM)采用帧向量进行建模和识别,突出了说话人个性特征,但受信道影响较大;支持向量机(support vector machine,sVM)利用帧向量在空间中分布的Gauss混合的均值进行建模和识别,对信道的鲁棒性较好,但对说话人的个性体现不够.该文分析了这2种说话人识别系统的优缺点,并采用融合方法来提高系统的性能.在美国国家标准与技术研究所(NIST)评测数据集的实验中,融合系统的等错误率从GMM-UBM系统的9.30%和SVM系统的8.26%降低到7.34%,分别相对降低了21.08%和11.14%.  相似文献   

6.
针对人脸图像受表情、光照、角度变化等因素影响,传统算法难以获得较理想的人脸识别结果问题,提出一种基于混合Gauss模型的鲁棒人脸识别算法.先将每副图像划分成子块,提取其方向梯度直方图特征,并加入子块相应的空间位置信息产生人脸图像的局部特征向量;再采用全部图像的局部特征向量训练混合Gauss模型生成人脸特征向量;最后采用最小二乘支持向量机建立人脸识别分类器,实现人脸匹配与识别.采用ORL,Yale和CIGIT人脸库进行仿真对比测试,仿真结果表明,该算法的人脸识别率高于其他人脸识别算法,对光照、角度、表情等有较强的鲁棒性,且可以获得更快的人脸识别速度.  相似文献   

7.
音频频带扩展是根据接收的宽带信号在解码端人为地重建出丢失的高频成分,以提升音频听觉质量。该文基于耳蜗滤波器倒谱参数提出了一种盲目式音频频带扩展方法。该方法模拟外耳听觉系统,提取耳蜗滤波器倒谱系数来描述宽带音频频谱信息,并利用Gauss混合模型对高频谱包络进行估计。结合基于最近邻匹配的谱细节恢复方法,实现了宽带向超宽带音频的有效扩展。主客观测试表明,该方法的重建音频质量优于基于传统音频特征的扩展方法。  相似文献   

8.
为识别QAM等阶数高于4的数字调制信号及提高调制识别算法对高斯白噪声(AWGN)的鲁棒性,在决策论识别参数的基础上,增加了高阶统计量识别参数,并利用混合参数的经向基函数(RBF)神经网络实现数字信号调制样式自动识别,提高了对数字调制信号的识别能力.仿真结果表明,  相似文献   

9.
提出一种基于Krawtchouk矩的脱机手写汉字识别方法。与Zernike矩和Legendre矩等连续正交矩特征相比,Krawtchouk矩是数字域的离散正交矩,不存在数字化过程中所带来的近似误差问题,在计算过程中不需要进行坐标转换,而且构造简单,更加适合用来描述数字图像。在此将Krawtchouk矩用于手写大写金额的识别,并在隐马尔可夫模型(HMMs)框架下对其性能进行了测试。实验结果表明,Krawtchouk矩比传统的连续矩更适合用来描述数字图像,识别效果比连续矩有较显著提高。此外,还对不同参数下的Krawtchouk矩性能进行考察。  相似文献   

10.
研究手写数字多种智能识别方法的逻辑组合和加权统计综合模型.应用综合模型对多种智能识别系统进行综合,提高了手写数字识别的可靠率.  相似文献   

11.
针对应用高斯混合模型(GMM)进行视频建模与分割时的模型选择及参数估计初值选择的难点,提出了一种基于GMM的视频对象分割算法.首先进行特征提取,在特征矢量中引入加权运动信息,可根据不同需要选择合理的加权系数,然后通过分割投影进行模型选择及期望最大化(EM)算法的参数初始化并估计参数,这种初值选择方案使得EM算法的初值和真实值较接近,加快了迭代运算的收敛速度,从而提高了视频对象的分割速度,最后对特征矢量进行聚类分割.仿真实验表明,在保持良好分割效果的同时,所提算法的运算速度约为常规方案的76%,并且具有良好的稳定性.  相似文献   

12.
一种新的高斯混合模型参数估计算法   总被引:3,自引:0,他引:3  
该文提出了一种高斯混合模型(GMM)参数估计的改进算法.原始的特征向量先经Schmidt正交化消除各维间的相关性,再用数学形态学方法估计出各维概率分布中混合分量的真实个数,最后按真实的混合分量个数用EM算法对各维分别作标量GMM参数估计.该方法能缓解GMM传统参数估计算法引起的“不易扩展”的不便.实验结果表明,将其应用于说话人辨认,能在较大幅度提高训练速度的基础上相对传统GMM参数估计方法获得更高的识别率.  相似文献   

13.
采用传统的高斯混合模型(Gaussian mixture model,GMM)进行语音带宽扩展时,会出现所估计的特征参数过平滑的问题,其主要原因是协方差估计不准确而导致扩展的高频特征细节信息的丢失,因此本文提出了码本映射(codebook mapping,CM)与高斯混合模型相结合的语音带宽扩展算法.提取高、低频特征参数,并训练高斯混合模型,基于高斯混合模型参数训练偏移矢量的码本;在扩展阶段,利用偏移矢量的码本将低频偏移矢量映射为高频偏移矢量,再将高频偏移矢量与高斯混合模型估计部分相加作为估计的高频特征参数.对利用该方法进行带宽扩展后的语音质量进行主观/客观评测.实验结果表明,相比传统的GMM语音带宽方法,CM-GMM合成的高频语音更接近原始高频语音,明显消除了高频过平滑现象.   相似文献   

14.
基于MFCC和GMM的个性音乐推荐模型   总被引:1,自引:1,他引:0  
提出一种基于Mel频率倒谱系数(MFCC)和高斯混合模型(GMM)的个性音乐推荐模型的建立方法.该方法采用MFCC技术提取歌曲的语音特征,并利用GMM算法生成该歌曲的模板,然后利用音乐模板库对音乐文件进行相似度计算.实验结果表明,利用该模型为用户推荐的歌曲平均准确率为90%.  相似文献   

15.
结合高斯混合模型(GMM)和嗓音起始时间(VOT)特征的普通话音素发音错误检测,提出了一种结合语音声道特征信息和音源特征信息的发音错误检测方法。其中GMM用于反映声道特征信息的MFCC参数的建模与评测,并直接对大部分音素的发音质量直接进行错误检测。对于少数通过MFCC参数和GMM难于检测区分的辅音音素,则通过反映VOT信息的音源特征参数进行区分。实验表明,该方法在训练数据有限的情况下取得了较好的性能,非常适合用于聋人语言康复的计算机辅助训练。  相似文献   

16.
针对传统的特征参数Mel频域倒谱系数MFCC难以满足语音信号的非平稳性问题,提出一种基于小波分析的新特征参数FPBW的提取方法.为了提高训练速度,采用正交高斯混和模型,将正交变换改到最大期望EM算法之前进行,从而减少训练时间.实验结果表明,新的特征参数FPBW优于特征参数MFCC,并且采用正交高斯混合模型进一步提高了识别性能和训练速度.  相似文献   

17.
EM算法是对有限混合模型进行参数估计的通用算法, 然而标准EM算法中所需的混合模型分量数实际上往往是未知的. 研究并改进了一种采用惩罚性最小匹配距离估计分量数的方法, 结合贪婪EM算法框架, 提出一种可以在进行参数估计的同时, 快速准确地自动估计高斯混合模型分量数的算法. 通过一元和二元的高斯混合模型的仿真实验, 验证了算法的有效性. 关键词:有限混合模型; 分量数; 惩罚性最小匹配距离; 贪婪EM; Parzen窗; 带宽  相似文献   

18.
为了实现高质量低速率语音编码,提出了高效线性预测Gauss混合模型(Gaussianmixturemodel,GMM)线谱频率参数量化算法(LP-GMM-LSFQA)。线谱频率(linearspectralfrequency,LSF)参数先去均值,经过一阶线性预测,得到残差信号,将残差用协方差矩阵为对角阵GMM量化算法进行量化。在此基础上,利用反量化后参数自适应更新GMM的加权系数和均值,进一步提出了预测自适应GMM-LSF量化算法(LP-AGMM-LSFQA)。实验表明LP-GMM-LSFQA在20b/帧时量化性能超过预测分裂矢量量化22b/帧时的量化性能,节约2b/帧;LP-AGMM-LSFQA量化性能优于LP-GMM-LSFQA。  相似文献   

19.
为了在训练样本受限的情况下,提高汉语方言辨识的效果,提出了一种基于AdaBoost的汉语方言辨识新方法.该方法将GMM与语言模型组成的辨识系统看成一组弱分类器,然后对这组弱分类器所得的分类结果进行加权投票,最终决定汉语方言测试语音的所属类别.实验结果表明:增加GMM或弱分类器的个数,可以有效提高系统的辨识效果;测试语音越长,系统辨识效果越好;当训练样本有限的情况下,采用AdBoost方法比采用ANN方法具有更高的辨识率.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号