排序方式: 共有21条查询结果,搜索用时 15 毫秒
1.
提出了一种新的基于支持向量回归(SVR)的情感语音的变换方法.通过提取普通话10种情感语音的韵律特征,对比分析了中性语音和情感语音之间的韵律特征差异,利用SVR建立了基频、时长、能量、停顿等韵律特征参数的预测模型,并利用Straight算法实现了由中性语音向情感语音的转换.利用这种方法变换出的10种情感语音,其情感主观平均(EMOS)得分为3.4. 相似文献
2.
3.
根据藏语和汉语在发音上的相似性,提出了一种基于隐Markov模型(hidden Markov model,HMM)的汉藏双语语音合成方法。以声韵母为合成基元,采用多个普通话说话人和1个藏语说话人的语料库,利用说话人自适应训练,获得一个汉藏双语混合语言的平均音模型。通过说话人自适应变换,从混合语言的平均音模型获得普通话或藏语的说话人相关模型,从而合成出普通话或藏语语音。实验结果表明,在藏语训练语句较少的情况下,该方法合成的藏语语音明显优于仅采用说话人相关模型合成的藏语语音。 相似文献
4.
利用FFT算法和面向对象的程序设计方法在Windows环境下模拟了一维、二维夫琅和费衍射。 相似文献
5.
提出了一种新的汉语韵律词预测方法.利用标注过的语料,分析了语法词与韵律词之间的关系,发现24%的韵律词由不同语法词组合而成,语法词的词长是确定韵律词边界的主要特征.基于以上分析,实现了一种基于错误驱动的规则学习算法(TBL)的韵律词预测方法.实验结果表明,所提出的方法在测试集上能够达到97.5%的预测精度. 相似文献
6.
为了提高情感语音合成的质量,提出一种采用多个说话人的情感训练语料,利用说话人自适应实现基于深度神经网络的情感语音合成方法。该方法应用文本分析获得语音对应的文本上下文相关标注,并采用WORLD声码器提取情感语音的声学特征;采用文本的上下文相关标注和语音的声学特征训练获得与说话人无关的深度神经网络平均音模型,用目标说话人的目标情感的训练语音和说话人自适应变换获得与目标情感的说话人相关的深度神经网络模型,利用该模型合成目标情感语音。主观评测表明,与传统的基于隐马尔科夫模型的方法比较,该方法合成的情感语音的主观评分更高。客观实验表明,合成的情感语音频谱更接近原始语音。所以,该方法能够提高合成情感语音的自然度和情感度。 相似文献
7.
为了对系统中的时延进行估计,基于MRAS结构、最小均方算法和模糊理论,利用系统的输入和输出数据,提出了自适应模糊滤波AFLMS算法。该算法的运算量比通常具有IIR形式的系统辨识算法小得多,且收敛快,便于实时应用。在各种最小均方算法中,μ因子决定算法的收敛速度和稳定性,然而它是难以选择的。采用模糊技术来确定μ因子,克服了其困难。采用PRBS作为输入测试信号,利用计算机和采样电路,对带有时延的系统的仿真结果说明了该算法的有效性。 相似文献
8.
9.
提出了一种新的基于STRAIGHT算法的汉语语音morphing方法.通过标注源和目标STRAIGHT频谱上的特征点,并利用线性和对数叠加的方法实现对频谱的morphing;通过插值的方法对基频进行morphing.实验结果表明,morphing后的语音在语义特征不变的情况下,保持了源和目标语音的特征,morphing的结果获得了高质量的合成语音,MOS得分为3.87分. 相似文献
10.
提出了一种利用加权Mel倒谱提取语音信号共振峰的算法.首先对短时语音信号进行加权Mel倒谱分析,获得包含频谱主要成分的加权Mel倒谱系数;然后利用离散余弦平滑算法,从加权Mel倒谱系数获得谱包络,并从谱包络的峰值位置获得候选共振峰;最后根据共振峰的连续性约束条件和频率范围,从候选共振峰筛选得到共振峰的估计值.实验结果表明,本算法比倒谱法提取的共振峰误差更小,在噪声环境下具有较好的鲁棒性. 相似文献