首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 93 毫秒
1.
本文提出一种口型动画同步算法,可以根据输入的语音信号,生成与该信号同步的口型动画.该算法分为预处理与运行时两个阶段.在预处理阶段,预定义一个基本口型动作集合,然后令设计师通过定义该集合中元素的权重变化曲线,来设计不同音素对应的口型动画.在运行时阶段,首先获取输入语音信号对应的音素序列,然后将该序列映射到一系列口型动画片段上,最后将这些片段互相拼接,即可得到最终输出的结果.试验表明,该算法具有较高的准确率,在运行时耗时较少,并且对于不同的人脸模型具有较高的可重用性.  相似文献   

2.
对于基于Gauss混合模型-通用背景模型(Gaussianmixure model-universal background model,GMM-UBM)方法的文本无关说话人识别,当测试语音时长缩短到很短时,识别率会严重下降。为了充分利用文本内容信息,该文提出了一种基于K-top多音素类模型混合(KPCMMM)的建模方法。在音素识别阶段,利用语音识别得到训练语音的音素序列,在说话人识别阶段利用音素序列对每个说话人训练多个音素类模型,测试语音则在最相近的音素类模型上进行打分判决,K是选取的相近音素类数。由于音素类定义的不同,KPCMMM方法分为基于专家知识和数据驱动这两类。实验结果显示选择合适的K值可以得到更好的识别结果。不同的音素类定义方法的比较实验结果显示:当测试语音时长小于2s时,对比GMM-UBM基线系统,该方法的等错误率(EER)相对下降38.60%。  相似文献   

3.
音素是一个语言体系中最小的语音单位,音素识别在大词汇语音识别任务中不受词汇和语句的限制.因此,选择音素作为识别单元,建立基于CNN-BGRU的神经网络模型,实现音素语谱图的分类.首先,使用短时傅里叶变换生成音素语谱图作为模型的输入;其次建立CNN-BGRU模型,利用改进的VGGNet模型提取音素语谱图的特征,再使用双向门控循环单元(BGRU)实现音素语谱图的序列信息表示;最后,通过Softmax分类器实现音素语谱图的分类.实验使用TIMIT英语语音数据集进行音素语谱图识别,准确率达到98.6%,优于CNN(VGG16)、CNN-RNN、CNN-BRNN、CNN-BLSTM这4个模型.  相似文献   

4.
维语口语发音中很多音素相对标准语产生了发音变异,基于标准语音的识别系统在识别带有发音变异的口语语料时识别率较低。该文针对维吾尔语同化、弱化、脱落、元音和谐等语流音变难点进行分析,对语音、韵律特性进行知识融合与技术创新,运用基于数据驱动和基于专家经验相结合的方法对维吾尔语方言口语中存在的发音变异现象进行研究,统计元音、辅音多发音变化映射对,建立音素混淆矩阵,为维吾尔语方言口语语音识别研究奠定基础。  相似文献   

5.
协同发音是音素在语流中受前后音素的影响,而使2个以上音素的发音特征同时出现的现象.大语料库语音拼接算法获得的语音合成效果最好,但录制语料困难、算法复杂、耗费时间,需要占用很大的存储空间,在应用中存在困难.为此,针对小语料库语音合成,提出参数修改和波形拼接相结合的语音合成方法,通过参数修改方法合成协同发音段,再与自然语音进行波形拼接.实验表明,该算法合成的语音效果较好,而且对语料库内容要求较低.  相似文献   

6.
基于小波分析的梅尔频率倒谱参数?   总被引:1,自引:0,他引:1  
采用HMM模型和MFCC参数的语音识别器对普通话中声母音素的区分度不够理想,而在基于识别的计算机辅助发音教学系统中的辅音的识别具有特别重要的意义.考虑到相同发音位置不同发音方式的声母音素变化较快且高频信息较多,本文将小波分析的方法引入到提取梅尔频率倒谱参数(MFCC)的过程当中,来提高信号高频部分的时域分辨率,提出了基于小波分析的梅尔倒谱参数MFCC_Wavelet.结合高低频不同分帧方式的MFCC_Wavelet参数与HMM模型的语音识别器,本文测试了MFCC和MFCC_Wavelet两种参数在4类发音中的区分性,实验结果表明,在相同发音位置不同发音方式、塞音与不塞音、送气音与不送气音及擦音与不擦音4类发音错误中,MFCC_Wavelet的总体效果好于MFCC.  相似文献   

7.
提出了一种基于PCANN/PDP混合结构的实际环境下说话人识别的方法。它采用相继几帧组成的特征参数矢量作为说话人识别系统的输入,能有效地在说话人识别系统中引入帧间相关信息。针对噪声往往具有帧间相关性小,能量分布频率范围广且数值较小,在语音信号主分量特征中对应于贡献率较小的分量等特点,话人识别系统的前端增加语音参数压缩的主分量分析神经网络(PCANN)。同时提出了概率DP匹配说话人识别方法。通过对噪声环境下与文本无关的说话人识别实验,这种方法的有效性得到了验证。  相似文献   

8.
利用计算机识别少数民族语音是保护和传承民族文化的重要手段。白族是祖国西南边陲重要的少数民族之一,其历史悠久,文化灿烂。为实现使用白族语进行人与计算机的语音交互,提出了一种基于HTK的白族语音词识别方法。该方法针对白族语的发音特点,以音素为基本识别单元,利用HTK工具提取39维MFCC语音特征参数,构建HMM模型,采用Viterbi算法进行模型训练和匹配来实现白族语音的识别。实验表明,算法的识别准确率达到93-3%。该方法识别准确率高,为研究少数民族语音识别提供了有益的借鉴。  相似文献   

9.
在语音识别中,为了得到分布共享的异音模型,先要知道与发音语境无关的音素模型.在本文中,给出一种用于训练与发音语境无关音素模型的方法,然后利用这种音素模型完成对异音模型的训练、以及对异音模型的输出分布的二值决策树聚类.实验结果表明,使用给出的方法,可以实现对与发音语境的无关音素模型,以及异音模型的可靠训练.  相似文献   

10.
隐马尔科夫模型的对数后验概率算法是计算机辅助语言学习系统中用来衡量考生发音质量的重要指标。但在普通话智能测试系统中,传统的后验概率算法与专家评分之间存在比较明显的差距。文章从普通话语音评价的主观标准出发,将普通话发音的语言学知识引入后验概率算法,重构算法的语音识别网络,同时从音素评分模型角度对现有的发音质量评价算法进行改进。  相似文献   

11.
针对当前动作捕捉方法中基于旋转矩阵的虚拟角色控制方法,虚拟角色模型运动还原度低、人体动作不能实时展现、抗光照干扰能力弱的问题,提出一种基于骨骼信息的四元向量控制方法。该方法以 Kinect 体感摄像机捕获的人体骨骼关节点数据为基础,计算并记录人体运动过程中关节点空间位移和关节点之间夹角的变化,根据相邻图像序列中的运动数据确定虚拟角色每个骨骼关节点的旋转角度,并将其转化为四元旋转向量。根据正向运动学原理,从根节点对虚拟角色模型进行调整并根据人体动作进行实时反馈。通过理论分析和仿真结果表明,与基于旋转矩阵的的虚拟角色控制方法相比,该方法的人体姿态还原度高,角度误差低,实时预览效果直观,实时性与抗光照干扰能力强。  相似文献   

12.
介绍建立在无限冲击响应分解/合成滤波器和快速搜索矢量量化算法基础上的16kb/s子带编码语音编译码方案。采用数字通信及数字信号处理技术,用单片数字信号处理器(TMS320C25)实现了基于该编译码技术的实时通信实验系统,给出了实验情况和评测结果。  相似文献   

13.
分组网络环境下的实时语音质量客观评价   总被引:1,自引:0,他引:1  
提出了一种利用前馈随机神经网络在分组网络中进行实时语音质量评价的新方法.从接收到的语音分组中提取美尔频率倒谱系数向量,利用实时传输控制协议计算语音分组传输过程中的丢包率、延迟和抖动,构成网络传输参数向量.将随机神经元组织成具有1个输入层、1个隐含层和1个输出层的3层前馈网络结构,再以上述2种向量作为输入的多类别信号,以相应的主观平均意见(MOS)评分值作为输出对网络进行训练,从而获得稳定的权值矩阵.利用训练过的网络进行多类别信号的语音质量评分映射,并将映射结果与MOS进行二次多项式拟合,得到最终的语音质量评分值.实验表明,所提算法与主观评价之间的平均相关度可达到0.881.  相似文献   

14.
应用目前广泛使用且价格低廉的微处理器设计并实现了用于语音子频带编码中的正交镜象滤波器,为克服微处理器速度慢和精度低的缺点,提出并采用了一系列方法,例如分配算法,附加硬件逻辑以及多微处理器结构体,用32点FIR滤波器和Z80A-CPU,当存贮的中间值的精度为16比特,输入信号精度为12比特时,所实现系统的最高采样频率为9000赫兹,完全满足了实时处理语音信号的要求。  相似文献   

15.
从听话在交际口语中的作用和听话的基本规则两方面阐述倾听的重要性;从交谈话题的选择、交谈时的态度、交谈的原则、交谈的技巧等方面阐述如何与人交谈,从而达到交谈目的和效果。  相似文献   

16.
说课是介于备课和讲课之间的一种新兴的教研活动,它是提高教师教学基本功的有效途径,也是目前对教师进行考核的重要方法.本文论述物理说课的内容并结合实例加以剖析.  相似文献   

17.
针对异种语言、异种文化间的信息交换,提出了化身话的概念,并就基于此技术的智能通信技术进行了详细的阐述.通过引入XML(eXtensible Markup Language)技术建立了作为智能通信基础的化身数据库,实现了异种要素数据库的互连、要素的表现以及基于SVG的化身图像的动态生成.同时,结合远程教育实际预测了该技术的应用领域和应用前景.  相似文献   

18.
用HD38880语音合成芯片构成的汉语合成器   总被引:1,自引:0,他引:1  
数字语音合成技术作为语音智能的一部分有着广泛的应用前景,它是利用语音的参数模型,从语音信号中提取若干个参数,存放在固定的内存中,再生时用语音合成芯片还原成语音的,我们的工作是将日语专用的语音合成芯片HD38880移植到汉语上来,获得了满意的效果。本文介绍的汉语合成器是用合成芯片 HD38880以及参数EPROM 等少量硬件制成,合成声音清晰自然,且具有体积小結构简单的特点,在仪器仪表语音智能化、计算机自动应答等方面都可以应用。汉语合成器中参数EPROM的制作直接影响合成声音的自然度。文中将对参数EPROM的研制过程,汉语合成器的硬件結构和软件流程作详细描述,同时对其应用实例“报时时钟”作简要介绍。  相似文献   

19.
本文首先讨论了在实时系统中处理语音信号的一般要求及方法,然后介绍了我们研制的基于TC8830AF单片语音合成芯片的智能语音卡,该语音卡能满足实时计算机系统对实时性的要求.  相似文献   

20.
实际环境中,语音总会受到外界噪声不同程度的干扰和影响.文章采用TMS320VC5416 DSP和TLV320AIC23 Codec组成实时系统,实时实现了基于卡尔曼滤波的谱减法的实时语音增强系统,能够实时、有效地提高语音信噪比,增强语音可懂度,改善语音质量.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号