首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 0 毫秒
1.
通过对语音和唇形的信号采集,设计了12个外唇线关键点和9个内唇线关键点的提取方案,同时建立起语音、唇形数据库,并对其进行参数提取和统计分析,从而建立了汉语普通话语音、唇型之间的关联模型,在此基础上实现了语音驱动的唇形合成系统.  相似文献   

2.
Kinect可实时获取运动数据,且比传统的运动捕捉设备成本低廉,因此被广泛应用于实时角色动画。文章提出一种基于Kinect运动捕捉数据实时驱动动画角色的方法,采用均值滤波平滑Kinect实时捕获人体关节点的位置数据,并根据位置信息反求出关节点的旋转变换矩阵;将Kinect所捕获的人体骨架结构与目标骨架相匹配进行运动重定向;由骨骼顶点计算出网格顶点变换矩阵,实现蒙皮动画以驱动动画角色。实验结果表明,与惯性运动捕捉仪采集到的运动数据所驱动的角色动画相比,该方法可产生流畅的角色动画,节约了制作成本,而且具有一定程度的视觉真实感。  相似文献   

3.
语调是语音分析和合成领域关注的重要课题,可计算的语调模型是实现语调控制的关键。该文分析了大规模语句的音节音高在句子中的变化,归纳了语调模式。陈述语调主要表现为基调的升降和音高下倾;疑问语调主要特点是疑问焦点的音高提升和调型变化。该文提出了一种陈述语调归一化描述方法,以及疑问语调调型差异模型。利用基于隐Markov模型的语音合成系统的控制机制,实现了对语调的控制。实验表明:基于陈述句语调归一化描述方法模拟了陈述句语调的变化,基于疑问语调调型差异模型实现了陈述到疑问语调的转换。语调控制使合成语音的表现力得到了提高。  相似文献   

4.
为提高三维人脸动画的控制精度,设计一种基于不同语音情绪的映射网络,预测三维人脸控制参数.对语音信号进行处理以生成语谱图;针对频域特征提取子网络和时频特征提取子网络,以卷积神经网络为架构融入通道注意力机制,强调语音情绪的特征提取能力;采用多轮交替运算的Mogrifier LSTM替换BiLSTM,强化前后语音情绪与人脸控制参数的对应关系,提高时序关联性.不同方法试验结果表明,本文设计方法能够实现不同情绪、不同人的语音情绪识别和三维人脸控制参数预测,相比于其他4种方法,在数据集的平均误差分别降低了23.9%、40.6%、13.4%和6.0%,在8种不同情绪中,本文方法的平均误差比融合CNN与BiLSTM方法降低了5.4%,在保证较高的时间平滑和控制参数预测精度的同时,进一步加强了三维人脸动画的流畅度和真实度.  相似文献   

5.
本文论述了语音播放的基本原理,描述了DHA缓冲区,介绍了可装载驱动程序的加载方法和过程,说明了驱动程序的初始化,并对磁盘双缓冲模式下语音的输出进行了理论上的说明和具体程序上的实现。  相似文献   

6.
线性预测编码(Linear Predictive Coding)是实现语音编码的一项重要技术.通过对语音信号和LPC的研究,介绍了语音信号的线性预测分析原理,详细分析用来求解线性预测方程的自相关法和计算方法,并用Matlab对实际语音信号进行线性预测编码实验.实验结果表明,应用LPC法合成的语音信号误差小、计算简单、合成速度快.  相似文献   

7.
提出了一个基于人体面部解剖学特征的面部表情动画模型,这个模型包含一个面造型和若干用于控制面模型形状的构件。并介绍了一种面部表情动画的脚本语言,给出两个基于该模型的表情动画实例。  相似文献   

8.
提出了一个基于人体面部解剖学特征的面部表情动画模型,这个模型包含一个面造型和若干用于控制面模型形状的构件.并介绍了一种面部表情动画的脚本语言,给出两个基于该模型的表情动画实例.  相似文献   

9.
具有真实感的面部动画合成是虚拟现实的重要研究内容,在传统的基于多流隐马尔可夫模型(MSHMM)的可视语音合成中,由于MSHMM不能为发音器官的运动关系建模,合成的嘴部图像模糊且缺乏细节变化.提出了结合发音特征的多流动态贝叶斯网络语音模型(AF_AVDBN),定义了各节点的条件概率分布,使得发音特征(如嘴唇、舌体和声门/软腭)之间可以异步,并在此基础上推导了基于极大似然估计原理的嘴部最优参数学习算法.嘴部动画合成实验结果表明,基于AF_AVDBN的合成方法能够得到非常逼真的嘴部图像,效果远远优于基于MSHMM的可视语音合成方法,能够更好地应用于人机交互等领域.  相似文献   

10.
基于PSOLA技术的汉语语音规则合成系统   总被引:1,自引:0,他引:1  
研究了使用基音同步叠加算法(PSOLA),来改变汉语语音的音高、音强和音长,进行汉语语音合成的方法。同时对于其中的主要参数:基音同步标志,则利用了改进的自相关算法、HILBERT变换原理和搜索算法,建立了精确自动确定标志的软件。另外提出了汉语词调的优化统计方法,得出了词调的定量描述规则。最后运用PSOLA算法原理,加上汉语全音节音库和较为完善的韵律规则库,设计了一个较为清晰、自然的汉语语音规则实时合成系统。  相似文献   

11.
研究了使用基音同步叠加算法,来改变汉族语音的音高,音强和音长,进行了汉族语音合成的方法。同时对于其中的主要参数;基音同步标志,则利用改进的自相关算法,HILBERT变换原理和搜索算法,建立了精确自动确定标志的软件。  相似文献   

12.
本文提出一种口型动画同步算法,可以根据输入的语音信号,生成与该信号同步的口型动画.该算法分为预处理与运行时两个阶段.在预处理阶段,预定义一个基本口型动作集合,然后令设计师通过定义该集合中元素的权重变化曲线,来设计不同音素对应的口型动画.在运行时阶段,首先获取输入语音信号对应的音素序列,然后将该序列映射到一系列口型动画片段上,最后将这些片段互相拼接,即可得到最终输出的结果.试验表明,该算法具有较高的准确率,在运行时耗时较少,并且对于不同的人脸模型具有较高的可重用性.  相似文献   

13.
14.
针对PSOLA算法会引起语音频谱的不连续,从而影响合成语音的质量,提出了一种基于正弦模型的汉语普通话语音基音同步分析和合成算法.首先,将连续的语音信号在时间轴上分为一帧帧短时信号,再把每一帧短时语音信号分解为一系列不同幅值、相位和频率的正弦分量,然后根据频率匹配的原则,对相邻两帧信号的幅度和相位进行插值,得到合成信号的正弦分量的幅值和相位,最后将各正弦分量相加,就得到了合成的语音信号.实验结果证明,该方法合成的语音信号的各个正弦波分量的相位和幅值均能平滑过渡,从而可以克服PSOLA算法带来的回声效应,有助于提高合成语音的自然度.  相似文献   

15.
该文实现了一个实时语音驱动的虚拟说话人面部动画方案。随着语音信号的输入,同步生成对应的面部动画。这种实时语音驱动的虚拟说话人在可视电话、虚拟会议、音视频聊天等即时通讯与娱乐媒体领域具有巨大的应用潜力。由于音素是最小的可分发音单元,因此构建音素识别器,对输入语音信号进行实时音素识别。为提高语音与口型的同步效果,改进了音素识别与输出算法。考虑协同发音影响,利用动态视素生成算法,将识别得到的音素转化为对应的面部动画参数序列。最后用参数序列驱动按照MPEG-4面部动画标准参数化的3-D头部模型,实现面部动画的同步生成。主观MOS评测结果表明:本文所实现的实时语音驱动虚拟说话人在的同步性和逼真度上的MOS评分分别达到了3.42和3.50。  相似文献   

16.
研究了语音合成芯片TSP5220的合成原理及使用方法,设计并实现了由IBM/PC机及TSP5220组成的语音合成系统。该系统合成的语音具有较好的可懂性和自然度,且速率仅为1~1.7kb/s,与64kb/sPCM相比较,大大降低了存储语音所需的容量  相似文献   

17.
18.
本文采用语音信号的正弦表示方法并利用耳蜗模型提取了语音信号的基本物征参数,建立了一个语音分析/合成系统。  相似文献   

19.
该文使用音高映射方法,通过选择合适的标准语音,合成出音段、音色保持不变,而只是声调变为标准语音声调的教学语音用于声调训练,减少了语音信号中声调信息之外的复杂变化带来的信息冗余与干扰。以汉语双字调的合成语音为实验材料,对日本被试进行了声调训练实验。训练结果表明:合成语音方法在声调的感知和产出的相对进步率,以及泛化产出的效果上都优于标准语音方法,远好于没有训练的对照组,大部分实验结果差异在统计上具有显著性。实验结果佐证了语音学习时存在人脑的选择性注意机制,为将合成语音方法集成到计算机辅助汉语声调教学系统,提供了实验和理论依据。  相似文献   

20.
基于对人类表情肌活动效果的归纳,采用一种新的面部特征构造描述面部状态。以支持向量机的后验概率作为依据,提出一种基于面部肌肉特征的面部表情度量方法,并对基于不同特征和不同面部素材库的决策模型进行对比实验。结果表明,相比其他的方法,基于新特征的度量方法能够对不同的面部表情产生具有足够区分度的度量,并能够以较高的准确率提取视频文件中”最夸张”的表情。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号