首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
汉语特有的声调特征,表现为基音周期的有规律变化,也就是说声调体现于基音周期变化的模式。本文叙述了用基音模板函数法研究特定说话人核对的语音识别原理和方法,並制成语音识别控制锁。提取说话人语音的特征参数主要是声调特征(包括基音周期的长度及其变化的斜率)和时间特征等。经测试,对语音锁所有者(标准模板)的长期平均识别率为92%,其他人在已知标准单词时识别率为0.33%,未知标准单词时识别率为0%。作为衡量锁功能的指标引了对识别率系数K,当K大于100,语音锁可以实际使用。  相似文献   

2.
探讨了HMM(隐马尔可夫模型 )在说话人识别领域中的应用 ,并对说话人确认系统中的关键问题———确认阈值的确定 ,提出了一种新的解决方法。实验结果表明 ,该方法较好地解决了不同说话人的确认阈值的确定问题。  相似文献   

3.
为解决语音识别系统实用中的说话人口音快速自适应问题,提出了一种动态说话人选择性训练方法。基于说话人选择性训练方法,采用基于Gauss混合模型似然分数计算的置信测度选择训练用说话人,改变训练用说话人的绝对数目选取方式,提高了选取的效能并拓展了选取标准的推广性。根据各个训练用说话人同被适应说话人的不同似然程度,加权地合成动态说话人选择性训练的语音模型,提高了自适应训练的效果。实验表明:该方法使识别率从80.16%提高到84.12%,相对误识率降低了19.96%,在实用中提高了基线系统的识别性能。  相似文献   

4.
环境失配问题严重影响着说话人识别的性能,这一问题在非平稳噪音条件下表现得更为显著.为了增强说话人识别在环境失配条件下的鲁棒性,基于稀疏表示提出了一种高维鲁棒语音特征的生成方法,并针对上述高维语音特征的稀疏特性提出了一个说话人模型.在该说话人识别方法中,首先以优化的联合基作为稀疏表示的基,在此基础上对信号进行分解,用于从带噪语音中剥离噪音成分,并从中提取语音信号的内蕴时频结构;之后在此基础上提出了一种鲁棒的稀疏谱语音特征,并根据该特征的高维稀疏特性给出了基于混合k-means的说话人模型.实验结果显示,与基于梅尔倒谱系统特征的基线系统相比,提出的说话人识别方法在NIST SRE-2003语料库条件下的等错误率下降了28.16%,在Chinese-863语料库和不同信噪比(5dB和0dB)的非平稳汽车噪音环境下的等错误率分别下降了9.84%和14.21%.上述结果表明,在环境失配情况下,提出的说话人识别方法的性能明显优于基于梅尔倒谱系数特征的基线系统.  相似文献   

5.
为有效找出会议语音中的说话人角色个数及各角色的说话人语音,提出了一种多说话人角色聚类方法.首先定义说话人角色聚类的特征,然后采用测地距离度量特征的相似度,进而提出了一种利用类内距离来控制类间合并的多说话人角色聚类方法,最后采用4种不同类型的会议语音对该方法进行测试.结果表明:对手工分割和自动分割后的会议语音进行说话人角色聚类时,如果采用相同的聚类方法,则使用测地距离的性能优于使用传统距离的性能;如果采用相同的距离度量方法,则文中方法的性能优于传统层次聚类方法.  相似文献   

6.
该文提出了一种适于说话人辨认的自适应频率尺度变换,基于说话人信息在不同频带中的非均匀分布性质,通过F比衡量不同频率子带对说话人信息的贡献大小,设计自适应频率滤波器,提高贡献大的频带的频率分辨率,降低贡献小的频带的频率分辨率,提取鉴别性特征DFCC。干净语音环境下,不同测试文件的实验表明,该文提出的DFCC特征的识别率比传统MFCC特征平均提高了1.45%,表明特征的稳定性好,对语音内容不存在依赖性;在不同信噪比的噪声环境下,识别率平均提高了6.37%,表明DFCC特征能够充分利用语音频带中包含的说话人信息,具有良好的抗噪性能。  相似文献   

7.
敬语是说话人对听话人或第三者表示尊敬的一种语言手段。它是根据说话人与听话人以及与话题有关的第三者之间的关系以不同的语言表达形式来体现的。因此要正确地掌握人际关系,才能准确地使用敬语。  相似文献   

8.
将神经网络预测模型(NPM)应用于说话人识别中,经过实验,获得了较满意的结果。这说明神经网络对于说话人识别是一种很有潜力的方法。  相似文献   

9.
阐述了分析非线性、非平稳信号的Hilbert—Huang变换(HHT)算法。针对非平稳语音信号,提出了一种基于HHT的提取语音特征参数HHT—IF的新方法,设计了基于VQ的说话人辨认系统,分别采用HHT-IF和LPCC从不同角度进行说话人辨认实验。结果表明,特征参数HHT-IF用于说话人识别是可行的。  相似文献   

10.
处处皆音乐     
音乐,给人带来欢愉和美的享受。一段让人百听不厌的曲子常常能使人心花开放。现在,音乐借助新的技术已经渗透到日常生活的各个角落,它不仅美化生活,还服务于生活,仿佛成了一种优美的、无形的“机器人”。 (1)、音乐锁。这是由日本生产的一种能说会唱的新型锁。客人刚进门,它即用歌声禀报主人,并欢迎客人。这种锁获得“迎宾锁”的美称。 (2)、音乐床。这是瑞士一家公司设计制造的。当你躺在床上,它就开始播放温柔的催眠曲,催你进入梦乡。清晨,如果你沉睡不醒,  相似文献   

11.
语言的使用过程是说话人不断做出选择的过程,说话人对表达形式、内容或策略的选择在不同程度上反映了他的元语用意识,并且受元语用意识的影响和调控.元语用意识会在语用层面上留下痕迹.填充词的使用可以表明说话人对命题的态度,启动,保持和结束话轮的意图以及协调人际关系的努力,是一种意图性很强的语用标识,是说话人的元语用意识指导选择的表达方式.  相似文献   

12.
针对语音特征参数受说话人说话内容的不同、年龄、病变等因素的影响而带来的说话人识别精度的降低,本文提出了特征参数的混合方差优化加权系数法,经大量实验和研究证明,该方法能够提高语音特征参数的顽健性,提高了说话人识别的精度。  相似文献   

13.
针对电话手机语音的文本无关说话人确认中,训练集语音和测试集语音来自不同信道所产生失配而导致系统性能下降的问题,采用一种基于高维空间映射的方法对系统进行补偿.在分析了已有的说话人确认系统的基础上,提出了一种基于特征参数映射支持向量机模型(PSVM)的说话人确认系统.首先用大量已知信道类型的语音训练出信道空间及映射矩阵,然后训练语音和测试语音都通过映射,消除因信道不同而导致的失配影响.在NIST数据库上的实验结果表明,这种方法弥补了训练语音和测试语音的失配,说话人确认系统的性能有了明显的提高.  相似文献   

14.
基于组合神经网络的与文本无关的说话人识别   总被引:1,自引:1,他引:0  
提出了一种用于N个说话人识别的组合神经网络,由N个子网组成,每个子网完成两类模式区分,将这N个子网组合起来完成N类模式的区分.子网选用RBF神经网络,并给出了自组织选取中心的方法.实验显示,对6名说话人,识别率达到94%.对10名说话人,识别率达93.17%.  相似文献   

15.
为了解决浅层特征不能有效刻画说话人特征,导致说话人检索率不高的问题,提出了一种基于深层说话人矢量的说话人检索方法.使用受限波尔兹曼机逐层构建一个多层的深层特征提取器用以提取说话人深层特征.为说话人构建基于深层特征的深层说话人矢量.通过计算要检索的说话人的深层说话人矢量和检索库中的说话人深层特征之间的最小距离,对目标说话人进行检索.实验结果表明:在深层特征下,使用深层说话人矢量可以检索到绝大部分的目标说话人;随着深度层数的增加,检索率先增后减,检索率最高对应的深度层数是7;随着深度层数的增加,检索时间非线性增加.  相似文献   

16.
利用软件MATLAB仿真了语音信号的经验模态分解(EMD)特性,并与相关文献报导的其他分解方法进行了比较,结果表明:EMD法能达到更好的说话人识别效果。当不同的人发相同语音时,其频谱特性是不同的,把语音信号进行EMD分解后的IMF做频谱变换,便能得到一个特征向量,于是根据特征向量的不同而达到说话人识别的目的。以上实验结果有助于开辟说话人识别的新途径。  相似文献   

17.
为了提高基于Gauss混合模型通用背景模型(GMM-UBM)的说话人辨认系统的运算效率,提出一种基于参考说话人模型的双层结构用于目标说话人剪枝,采用矢量量化方法从目标说话人模型集合中训练参考说话人模型,利用语音与参考说人模型的偏差来描述说话人的发音特性,将辨认语音偏差向量和目标说话人偏差向量的相似性作为距离度量来进行目标说话人剪枝。实验结果表明:在基于GMM-UBM的说话人辨认系统中,对包含5 200个目标说话人和1 000个集外说话人的测试集进行开集辨认的条件下,在提高辨认的运算效率12.5倍的同时识别率仅下降0.3%。  相似文献   

18.
说话人识别技术目前已经成为身份认证及人工智能领域研究的一个热点,解决噪声环境下的说话人识别问题具有重要的理论价值和深远的实用意义.针对这一问题,提出了一种基于支持向量机和小波分析的识别方法及其框架模型,并且设计与实现了一个识别系统,即利用小波阈值去噪法将语音信号和噪声分离,实现语音增强,最终采用SVM分类器基于样本进行训练和测试,实现说话人的分类识别.  相似文献   

19.
为了提升说话人识别技术在复杂噪声环境下的识别性能,提出了一种基于高斯均值矩阵和卷积神经网络的鲁棒性说话人识别方法,应用于纯净语音训练出的模型上测试含噪语音的场景.其中高斯均值矩阵是采用最大后验概率(MAP)对传统的梅尔频率倒谱系数(MFCC)特征进行自适应操作得到的,这一操作增加了帧与帧之间的关联性,使特征携带更丰富的说话人身份信息.同时采用卷积神经网络进一步对帧层面的信息进行对准,并从数据中学习到更有利于说话人识别的特征表示,从而提升说话人识别的鲁棒性.实验结果表明在Libri语音数据集上,所提出方法的鲁棒性优于GMM-UBM和GSV-SVM算法.  相似文献   

20.
利用分层采样方法,融合波达方向和时间延迟两种信息,实现了对说话人的定位与跟踪.分层采样方法考虑波达方向和时间延迟这两种不同观测信息对说话人位置估计精度的差异,将基于波达方向滤波得到的状态后验概率密度函数作为基于时间延迟滤波的重要性采样函数,增强了重要性概率密度函数与后验概率密度函数的相似程度,从而改善了重要性概率密度函数的质量,减小了采样粒子权值的方差,提高了对说话人位置的估计精度.仿真实验验证了该方法的有效性.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号