首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 0 毫秒
1.
该文实现了一个实时语音驱动的虚拟说话人面部动画方案。随着语音信号的输入,同步生成对应的面部动画。这种实时语音驱动的虚拟说话人在可视电话、虚拟会议、音视频聊天等即时通讯与娱乐媒体领域具有巨大的应用潜力。由于音素是最小的可分发音单元,因此构建音素识别器,对输入语音信号进行实时音素识别。为提高语音与口型的同步效果,改进了音素识别与输出算法。考虑协同发音影响,利用动态视素生成算法,将识别得到的音素转化为对应的面部动画参数序列。最后用参数序列驱动按照MPEG-4面部动画标准参数化的3-D头部模型,实现面部动画的同步生成。主观MOS评测结果表明:本文所实现的实时语音驱动虚拟说话人在的同步性和逼真度上的MOS评分分别达到了3.42和3.50。  相似文献   

2.
两级决策的开集说话人辨认方法   总被引:10,自引:0,他引:10  
为了减少语音数据量 ,提高处理速度和识别的准确性 ,提出了一种采用公共码本、个人隐 Markov模型 (HMM)和个人拒识阈值进行两级决策来实现开集说话人辨认的新方法。在系统实现时 ,采用了一种改进的语音切分算法来提高输入数据的有效性 ,并将说话人识别和人脸识别融合在一起进行身份验证。实验证明这种融合方法能够有效地降低识别的相等错误率至 1%。  相似文献   

3.
该文提出一种改进的基于隐Markov模型(HMM)和Bayes信息准则(BIC)的说话人日志系统。它用来检测会议语音数据中"谁在什么时候说话"。在对说话人模型进行Gauss混合模型(GMM)建模的时候,考虑到用来建模的数据通常会比较短,首先训练一个通用背景模型,然后用最大后验概率(MAP)准则得到相应片段的模型。在NIST 2004年举办的说话人日志评测任务数据集RT-04S上的实验结果表明:该系统与国际主流系统相比有一定的优势。  相似文献   

4.
为了提高基于Gauss混合模型通用背景模型(GMM-UBM)的说话人辨认系统的运算效率,提出一种基于参考说话人模型的双层结构用于目标说话人剪枝,采用矢量量化方法从目标说话人模型集合中训练参考说话人模型,利用语音与参考说人模型的偏差来描述说话人的发音特性,将辨认语音偏差向量和目标说话人偏差向量的相似性作为距离度量来进行目标说话人剪枝。实验结果表明:在基于GMM-UBM的说话人辨认系统中,对包含5 200个目标说话人和1 000个集外说话人的测试集进行开集辨认的条件下,在提高辨认的运算效率12.5倍的同时识别率仅下降0.3%。  相似文献   

5.
基于HMM/MLFNN混合结构的说话人辨认研究   总被引:3,自引:0,他引:3  
将隐马尔可夫模型与人工神经网络相结合既利用HMM能够较好地描述动态时间序列又ANN静态分类能力强的特点,应用于说话人辨认。本文将一个多层前馈神经网络与HMM相结合构成混合模模型,与以往的方法不同。具有所需训练数据量小,推广性能良好的特点。  相似文献   

6.
提出一种混合模型,即将隐马尔可夫模型(HMM)和小波神经网络(WNN)相结合应用于说话人识别的模型.该方法利用HMM的时序建模能力以及小波神经网络较强的模式分类能力,进行与文本无关的说话人的识别.实验表明,采用这种混合模型可以提高系统的识别率,特别在噪声环境中具有一定的噪声鲁棒性,提高了识别性能.  相似文献   

7.
为了提高情感语音合成的质量,提出一种采用多个说话人的情感训练语料,利用说话人自适应实现基于深度神经网络的情感语音合成方法。该方法应用文本分析获得语音对应的文本上下文相关标注,并采用WORLD声码器提取情感语音的声学特征;采用文本的上下文相关标注和语音的声学特征训练获得与说话人无关的深度神经网络平均音模型,用目标说话人的目标情感的训练语音和说话人自适应变换获得与目标情感的说话人相关的深度神经网络模型,利用该模型合成目标情感语音。主观评测表明,与传统的基于隐马尔科夫模型的方法比较,该方法合成的情感语音的主观评分更高。客观实验表明,合成的情感语音频谱更接近原始语音。所以,该方法能够提高合成情感语音的自然度和情感度。  相似文献   

8.
根据藏语和汉语在发音上的相似性,提出了一种基于隐Markov模型(hidden Markov model,HMM)的汉藏双语语音合成方法。以声韵母为合成基元,采用多个普通话说话人和1个藏语说话人的语料库,利用说话人自适应训练,获得一个汉藏双语混合语言的平均音模型。通过说话人自适应变换,从混合语言的平均音模型获得普通话或藏语的说话人相关模型,从而合成出普通话或藏语语音。实验结果表明,在藏语训练语句较少的情况下,该方法合成的藏语语音明显优于仅采用说话人相关模型合成的藏语语音。  相似文献   

9.
将神经网络预测模型(NPM)应用于说话人识别中,经过实验,获得了较满意的结果。这说明神经网络对于说话人识别是一种很有潜力的方法。  相似文献   

10.
电话语音的多说话人分割聚类研究   总被引:2,自引:0,他引:2  
为了提高电话多人语音中提取的单人语音纯度,即多说话人分割聚类处理的性能,该文在传统的分步分割聚类算法机制上增加了重分割处理,提出逐级算法增强处理机制: 在分割部分,该文提出了一种基于Bayesian信息准则的分割算法,融合基于不同距离测度检测得出的分割点提高了分割点检测率;在聚类部分提出了基于BIC和交叉似然比准则(CLR)的分层聚类算法;在重分割部分引入和改进了进化隐Markov模型算法精化分割结果.该文在美国国家标准技术局(NIST) 1998年度多说话人识别数据库上进行实验,聚类后性能"类纯度"比传统算法提高了10%.  相似文献   

11.
连续语音识别中的说话人快速自适应技术   总被引:2,自引:0,他引:2  
语音识别技术中说话人快速自适应技术受到普遍关注。该文综述了说话人快速自适应技术在国际上的研究现状 ,并且介绍了本研究组提出的快速自适应方法 ,即最大似然模型插值快速自适应框架及插值算法。与现有的相关自适应方法相比 ,该算法在更复杂的识别系统上同时实现了均值和协方差的自适应 ,并取得较好的自适应效果。当仅有一句自适应数据时 ,识别系统的误识率从 2 8.75 %下降到2 4 .93%。  相似文献   

12.
基于云南境内说话人母语为纳西语、僳僳语的汉语普通话语音,采用隐马尔可夫模型(HMM),由标准普通话语音库训练得到基线系统的声学模型(HMMSTD).然后以基线系统的声学模型为初始模型,分别用母语为纳西语、傈僳语的汉语普通话语音训练得到各自的声学模型(HMMNX和HMMLS),对于未知语音,根据各识别系统的概率得分。采用最大概率准则进行口音的分类判决.实验表明,基于HMM的口音识别系统,其正确识别率达93%。  相似文献   

13.
基于组合神经网络的与文本无关的说话人识别   总被引:1,自引:1,他引:0  
提出了一种用于N个说话人识别的组合神经网络,由N个子网组成,每个子网完成两类模式区分,将这N个子网组合起来完成N类模式的区分.子网选用RBF神经网络,并给出了自组织选取中心的方法.实验显示,对6名说话人,识别率达到94%.对10名说话人,识别率达93.17%.  相似文献   

14.
隐马尔可夫模型(HMM)广泛应用于说话人识别系统中,主要研究了HMM与自组织人工神经网络(SONN)相结合的混合模型HMMNN,并分析构造了基于HMMNN的说话人识别的系统模型.  相似文献   

15.
基于高斯混合模型的说话人识别系统   总被引:2,自引:0,他引:2  
针对概率得分均值法出现的单个帧概率打分容易畸低的情况以及投票法因归一化而损失掉正面影响帧的打分,提出了一种引入可信度的均值方法,实验证明:该方法兼顾二者的优势的同时,在一定程度上消除了各自产生的不利影响,提高了说话人识别的精度。  相似文献   

16.
为了解决浅层特征不能有效刻画说话人特征,导致说话人检索率不高的问题,提出了一种基于深层说话人矢量的说话人检索方法.使用受限波尔兹曼机逐层构建一个多层的深层特征提取器用以提取说话人深层特征.为说话人构建基于深层特征的深层说话人矢量.通过计算要检索的说话人的深层说话人矢量和检索库中的说话人深层特征之间的最小距离,对目标说话人进行检索.实验结果表明:在深层特征下,使用深层说话人矢量可以检索到绝大部分的目标说话人;随着深度层数的增加,检索率先增后减,检索率最高对应的深度层数是7;随着深度层数的增加,检索时间非线性增加.  相似文献   

17.
研究了遍历型和从左到右型隐马尔可夫模型用于自由语句的说话人识别.本文作者与其合作者已在过去发表的研究成果中阐明,由于遍历型模型可自动将音素根据语音类分配到各状态上,所以这种模型很适用于自由语句的说话人识别.对于从左到右型模型,我们用了一个子字技术来适合自由语句实验.我们预计此方法会较遍历模型更好,因为它不仅能反映说话人的静态信息,而且还能反映语声动态信息.在对于美国《TIMIT》语声库中的40个人的实验中,遍历型模型和从左到右型模型的说话人识别率分别达到87.5%和100%.  相似文献   

18.
对于基于Gauss混合模型-通用背景模型(Gaussianmixure model-universal background model,GMM-UBM)方法的文本无关说话人识别,当测试语音时长缩短到很短时,识别率会严重下降。为了充分利用文本内容信息,该文提出了一种基于K-top多音素类模型混合(KPCMMM)的建模方法。在音素识别阶段,利用语音识别得到训练语音的音素序列,在说话人识别阶段利用音素序列对每个说话人训练多个音素类模型,测试语音则在最相近的音素类模型上进行打分判决,K是选取的相近音素类数。由于音素类定义的不同,KPCMMM方法分为基于专家知识和数据驱动这两类。实验结果显示选择合适的K值可以得到更好的识别结果。不同的音素类定义方法的比较实验结果显示:当测试语音时长小于2s时,对比GMM-UBM基线系统,该方法的等错误率(EER)相对下降38.60%。  相似文献   

19.
蔡铁  朱杰 《上海交通大学学报》2005,39(12):1997-2001
针对语音识别系统中快速说话人自适应问题,提出了一种支持说话人权重算法.该算法通过支持说话人的计算实现了说话人选择与自适应参数的降维,减少了自适应时的存储量,有效提高了自适应数据较少时的性能.有监督自适应的实验结果表明,在仅有一句自适应语句的情况下系统误识率相对非特定人(SI)系统下降了5.82%,明显优于其他快速自适应算法.  相似文献   

20.
为了克服传统VQ与GMM说话人识别的缺点,提出了一种新的FVQMM说话人识别方法。该方法综合了VQ、GMM和模糊集理论的优点。通过用模糊VQ误差尺度取代传统GMM的输出概率函数,减少了建模时对训练数据量的要求,提高了识别速度。实验结果表明该方法是有效的。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号