首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 31 毫秒
1.
高斯混合模型(GMM)在语音转换中得到了广泛应用,但其最大缺点在于进行谱包络转换时存在过平滑问题.研究了过平滑现象主要由转换函数中的均值项造成.因此提出一种替换均值法,在各均值项所对应的高斯混合模型类内,使用后验概率与均值项的后验概率最接近的特征来代替转换函数中的均值项.实验表明,采用该方法的语音转换算法能有效缓解过平滑现象,改善转换语音的听觉感知特性.  相似文献   

2.
采用传统的高斯混合模型(Gaussian mixture model,GMM)进行语音带宽扩展时,会出现所估计的特征参数过平滑的问题,其主要原因是协方差估计不准确而导致扩展的高频特征细节信息的丢失,因此本文提出了码本映射(codebook mapping,CM)与高斯混合模型相结合的语音带宽扩展算法.提取高、低频特征参数,并训练高斯混合模型,基于高斯混合模型参数训练偏移矢量的码本;在扩展阶段,利用偏移矢量的码本将低频偏移矢量映射为高频偏移矢量,再将高频偏移矢量与高斯混合模型估计部分相加作为估计的高频特征参数.对利用该方法进行带宽扩展后的语音质量进行主观/客观评测.实验结果表明,相比传统的GMM语音带宽方法,CM-GMM合成的高频语音更接近原始高频语音,明显消除了高频过平滑现象.   相似文献   

3.
改进的GMM模型语声转换系统   总被引:1,自引:0,他引:1  
传统的基于GMM模型线性语音转换系统在语音转换阶段,由于转换函数的概率加权组合使合成语音共振峰带宽变宽,谱包络过于平滑.文中提出依据后验概率大小和前后语音的相关性,选择部分转换分量函数进行语音转换.实验表明不仅简化了语音转换,而且经过转换的语音质量也有一定的提高,对语音的实时转换有重要的意义.  相似文献   

4.
语音转换是将源说话人的个性特征转换为目标说话人个性特征的过程。主要研究了基于STRAIGHT模型的语音转换系统原理及实现过程。通过STRAIGHT模型提取目标语音和源语音的基本频率以及平滑的声道频谱作为特征参数,并将声道频谱转换为LSF参数,进行时间对齐和GMM训练。从实验结果数据分析可以看出:由STRAIGHT模型提取的参数很好地避免了声道谱过平滑的现象,合成后的目标语音与源语音的相似度较高。  相似文献   

5.
基于G auss ian混合模型的音色变换算法在预测目标说话人频谱时会出现过平滑问题,导致声音转换结果的音质下降。该文分析了造成过平滑问题的原因,并提出一种考虑帧间动态特征的音色变换改进算法,在估计参数的目标函数中加入了连续性和方差的影响,从而改善了映射结果的帧间连续性,并使方差最大化,克服了过平滑现象。实验表明该算法在保证变换结果的目标倾向性的同时,能够使变换语音的音质主观意见得分由3.11提高到3.89,证明动态特征对提高音色变换的音质有重要意义。  相似文献   

6.
为了实现高质量低速率语音编码,提出了高效线性预测Gauss混合模型(Gaussianmixturemodel,GMM)线谱频率参数量化算法(LP-GMM-LSFQA)。线谱频率(linearspectralfrequency,LSF)参数先去均值,经过一阶线性预测,得到残差信号,将残差用协方差矩阵为对角阵GMM量化算法进行量化。在此基础上,利用反量化后参数自适应更新GMM的加权系数和均值,进一步提出了预测自适应GMM-LSF量化算法(LP-AGMM-LSFQA)。实验表明LP-GMM-LSFQA在20b/帧时量化性能超过预测分裂矢量量化22b/帧时的量化性能,节约2b/帧;LP-AGMM-LSFQA量化性能优于LP-GMM-LSFQA。  相似文献   

7.
针对非对称语料库情况下的语音转换,提出了一种基于混合Gauss归一化的语音转换方法。通过背景说话人模型,分别自适应训练得到源说话人和目标说话人模型。利用训练得到的模型自适应参数,提出了基于Gauss归一化的特征映射方法,为了进一步提高转换效果,进而提出了混合Gauss归一化的方法。针对说话人模型中未被更新的参数,采用KL散度(Kullback-Leibler divergence)方法进行了优化。最后通过主客观实验对提出的算法的有效性进行了仿真和验证。实验结果表明:该文提出的基于混合Gauss归一化的语音转换方法,在倒谱失真度、转换语音的目标倾向度以及感知质量上,都获得了接近基于对称语音库的传统Gauss混合模型(Gaussian mixture model,GMM)方法的效果。  相似文献   

8.
为提高通话环境中的回波抑制效果,提出了基于高斯混合模型下的残留回波抑制方法。首先以线性预测系数为特征提取近端用户语音的特征向量,然后在高斯混合模型下对其进行训练,得到用户语音模板,通过对比用户语音模板和残留回波信号特征向量,判断非用户语音帧,最后将非用户语音帧予以消除。仿真实验结果表明,所提算法能正确区分用户语音帧与非用户语音帧,具有更好的回波抑制效果。在误判率约为1%~2%的情况下,可将自适应滤波器的回波消除量提高7~10dB。  相似文献   

9.
基于MFCC和GMM的个性音乐推荐模型   总被引:1,自引:1,他引:0  
提出一种基于Mel频率倒谱系数(MFCC)和高斯混合模型(GMM)的个性音乐推荐模型的建立方法.该方法采用MFCC技术提取歌曲的语音特征,并利用GMM算法生成该歌曲的模板,然后利用音乐模板库对音乐文件进行相似度计算.实验结果表明,利用该模型为用户推荐的歌曲平均准确率为90%.  相似文献   

10.
提出了一种基于音素分类的语声转换算法。根据汉语语音学理论,分析汉语语言结构,通过帧特征分析,构建了汉语元音映射表,指导音素的分类,然后对每类音素进行独立的特征参数转换,解决了传统GMM转换算法的过平滑问题,避免了训练与测试阶段的语料音素之间的不均衡,从而提高语音的可懂度与自然度。客观评测结果表明,基于音素分类的语声转换算法与GMM算法相比,谱距离比值平均降低了9.31%;主观听力测试表明,ABX测试结果提高了10.36%,同时MOS得分平均提高了29.33%。  相似文献   

11.
为了实现高质量低速率的语音编码,提出了高效线性预测Gauss混合模型(Gaussian mixture model,GMM)线谱频率参数量化算法(LP-GMM-LSFQA)。线谱频率(linear spectral frequency,LSF)参数先去均值,经过一阶线性预测,得到残差信号,将残差用协方差矩阵为对角阵GMM量化算法进行量化。在此基础上,利用反量化后参数自适应更新GMM的加权系数和均值,进一步提出了预测自适应GMM-LSF量化算法(LP-AGMM-LSFQA)。实验表明:LP-GMM-LSFQA在20 b/帧时量化性能超过预测分裂矢量量化22 b/帧时的量化性能,节约2b/帧;LP-AGMM-LSFQA量化性能优于LP-GMM-LSFQA。  相似文献   

12.
在混合激励线性预测 (mixed excitation linear prediction, MELP) 模型的基础上,以超帧为单位,采用多帧联合编码技术,分模式对子帧的语音特征参数进行联合量化,实现了一种码率为600 bit/s的声码器。为了进一步减小量化误差,设计出了一种基于高斯混合模型的预测分类分裂矢量量化器(predictive switched split vector quantization based on Gauss mixture model, GMM-PSSVQ),该量化器对超帧中某些子帧的线谱频率进行量化,并利用帧间预测和线性插值等方法提高编码效率。采用谱失真对设计的矢量量化器进行性能评估,并分别与多级矢量量化和预测分裂矢量量化算法进行性能比较;通过客观感知语音质量评估和主观判断韵字测试对实现的声码器进行性能测试。测试结果表明,设计的矢量量化器平均谱失真最低,实现的声码器合成语音具有较高的清晰度和可懂度。  相似文献   

13.
背景减除法通过计算当前帧与背景模型的差来实现运动目标的检测,因此背景建模是背景减除法的关键;混合高斯模型(Gaussian mixture model,GMM)可对存在渐变及重复性运动的场景进行建模,有效的提高了在光线强度变化,物体摇摆等复杂场景下建模的准确性;但它也有其固有缺点,针对利用传统EM算法进行GMM模型参数估计时,易陷入解空间的局部最优的缺陷,采用基于最大惩罚的EM参数估计,对传统的EM算法进行改进;另外,在检测不需要满足实时性时,提出了一种基于差分进化算法的GMM参数估计法;最后把改进的GMM参数估计方法应用于基于GMM模型的运动目标检测当中进行验证,并得到很好的检测效果.  相似文献   

14.
针对混合高斯背景模型运动目标检测的光照突变误检以及突然运动目标的“鬼影”问题,提出了一种基于三帧差分的混合高斯背景模型运动目标检测算法。通过图像前景检测比例判断光照是否发生突变,利用三帧差分法对图像的背景区域、运动区域和背景显露区域进行划分,并根据光照情况及时改变各区域的学习率以调节混合高斯模型背景迅速更新,设计了基于三帧差分的学习率自适应混合高斯模型背景更新的方法。该方法使光照突变及目标突然运动后产生的新的背景模型得到迅速更新,从而改善这两种情况下运动目标检测效果。实验结果表明,该算法避免了光照突变时的大面积误检现象,并且同时解决了突然运动目标的“鬼影”问题。  相似文献   

15.
为研究自适应多速率(AMR)算法应用于汉语语音和英语语音所产生的差异,针对AMR语音编码算法的特点,在分析了大量汉语语音数据的基础上,对算法中的线谱频率(LSF)、基音周期等关键编码参数采用高斯混合模型(GMM)进行了比较并给出相应结论.该研究有助于AMR算法针对汉语语音的性能优化.  相似文献   

16.
为了有效地进行语音变换,改善变换后语音的自然度和目标人倾向度.依据语音信号传播机理和(Fourier-Bessel)展开式系数对语音信号的表现能力,提出了利用F-B展开系数作为变换参数.在该算法中,根据F-B展开系数无语音相位信息的特点,提出基于最大基频相位的语音分帧算法;针对F-B展开式数据量过大的问题,提出了基于Karhunen-Loeve变换的参数压缩算法,转换模型使用GMM(Gaussian mixture model)模型.对算法进行了仿真实验.对变换后语音所进行的ABX测试表明,算法能够较好地完成语音变换,变换后语音的目标人趋向度比较高.  相似文献   

17.
为解决现有视频监控系统中目标检测算法无法应付复杂的环境且计算量较大等问题,结合背景模型算法和帧间差分的优点,对混合高斯背景方法和帧间差分进行改进,提出一种基于混合高斯模型背景法和混合差分相结合的运动目标检测改进算法.利用分块思想进行高斯背景建模,利用多帧差分实现混合差分,既能得到较高的灵敏度又能进一步提高检测效果和速度.通过实验证明该算法的可靠性和实时性.  相似文献   

18.
针对传统帧间差分在目标检测中的不足,提出了基于改进的差分相乘的运动目标检测方法.该算法通过四帧差分分别和混合高斯建模得到的背景图像差分之后再相与,然后通过阈值技术得到运动目标,背景自适应的更新减少了噪声和光照变化对检测的影响,从而解决传统帧差法可能出现的无法检测完整目标的现象.实验表明,改进算法改善了传统帧差法中存在的较多伪目标点与空洞现象,提高了运动目标检测的效率和准确性.  相似文献   

19.
提出了一种新的语音说话人转换算法,利用变分贝叶斯方法估计高斯混合模型参数,进而将其应用于语音转换的声道谱参数映射过程,实现说话人身份转换.将变分贝叶斯算法用于模型参数的估计,一方面解决了训练数据量稀少情况下容易使模型产生"过拟合"的问题,另一方面通过将模型参数概率化,使得参数估计问题不再是"点估计",而成为了"全局估计",因此在一定程度上提高了模型的精度.主观和客观实验结果表明:将基于变分贝叶斯估计得到的统计模型用于语音声道谱参数的转换,明显提高了在训练数据稀少的情况下系统的鲁棒性,同时转换后语音的音质和说话人个性特征均优于经典的语音转换系统.  相似文献   

20.
茅正冲  王丹  徐昊 《科学技术与工程》2013,13(14):4070-4073,4078
针对传统的混合高斯模型算法检测时存在较多噪声的不足,提出了一种基于混合高斯模型与三帧差法相结合的运动目标检测算法。该算法首先分别通过混合高斯模型算法和三帧差法各获得一幅前景图像,然后将两幅图像进行逻辑或运算;再对获得的图像进行自适应中值滤波处理,并利用连通域阈值面积去噪法除去剩余的噪声,最终提取出运动目标。实验仿真结果表明,利用该方法可以有效地提高运动目标的检测率。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号