首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 62 毫秒
1.
藏语语音在识别过程中会受到各种信号的干扰,从而影响语音识别的质量。在进行语音识别预处理过程中,语音信号的降噪技术是一个关键的环节。文章通过分析各种降噪手段,重点研究了藏语语音信号降噪方法,提出了符合藏语语音信号降噪的小波包降噪算法。其研究结果为进一步的藏语语音识别技术的研究提供了基础。  相似文献   

2.
随着信息化时代的快速到来以及计算机技术的不断完善发展,语音识别在众多领域都得到了应用,同时语音识别有着广阔的发展前景。当下,在对语音识别的研究方面,研究人员大多以线性系统理论为基础,采用隐马尔可夫模型(HMM)、动态时间规整(DTW)、矢量量化(VQ)等技术。随着研究的深入,发现以线性系统理论为基础的方法和语音的非线性过程特性不能很好的融合,采用非线性理论研究成为了语音识别的重要突破口。人工神经网络(ANN)等非线性理论成为了研究语音识别的热点。采用Python语言进行深度学习与语音识别相结合的方法进行研究,希望能够使语音识别在速度、准确度等方面得到较好的效果。介绍了Python在深度学习语音识别中的使用。通过实验结果可以看出,DNN-HMM方法在准确率方面比GMM-HMM方法有所提高。  相似文献   

3.
选取三种典型的情感状态,通过对在不同情感状态下大量取样的语音样本的基频、能量、时长及相关韵律特征参数作统计分析,基于统计结果使用PCA方法进行情感状态识别实验,识别准确率达91.67%.结合情感识别结果,使用DTW算法通过模式匹配进行小词汇表的语音识别,提高语音识别正确率;给出输出语音韵律特征参数的调整方法,使人机语音交互得到更加人性化的改进.  相似文献   

4.
Spark SDK是L&H公司推出的可进行二次开发的语音识别软件 ,它提供了一种快速简便的方法 ,使开发人员可以将语音部分识别功能添加到他们的应用程序中。在雷达情报口报录取器中 ,利用Spark SDK实现连接数字语音识别 ,并通过编写识别专业词汇的函数以及修改Spark SDK的语法规则等方法提高了语音识别软件的识别率。  相似文献   

5.
语音识别技术被广泛应用到各个领域,而利用单片机来实现语音识别成为一种经济快捷的应用方案。该文从介绍语音识别的基本原理出发,论述了利用单片机实现语音识别技术的硬件基础及软件基础,并且通过一个典型的应用实例来说明其应用方法及技巧。  相似文献   

6.
随着自然语音识别技术的成熟,智能语音识别业务将会在传统电信行业迎来大发展,MRCPv2标准协议使得语音识别能力的集成变得更加方便快捷.该文详细介绍了MRCPv2协议的系统架构和控制流程,总结了MRCPv2协议的使用规范,并且通过MRCPv2在语音识别中状态机变迁、关键方法、事件以及重要消息头的讲解,对一次典型语音识别业务中MRCPv2协议的应用进行了详细的阐述.  相似文献   

7.
藏语语音识别技术研究已成为当今一大热点,而端点检测则是语音识别预处理阶段的关键环节之一。文章以标准拉萨藏语为对象,通过将加窗、短时能量和过零率相结合的方法对藏语语音识别技术中端点检测的算法进行了研究。实验表明,采用上述三种算法相结合的研究方法对浊音较重的藏语语音识别较为合适,可显著提高识别率。  相似文献   

8.
通过分析基于隐马尔可夫模型(HMM)语音识别的原理,针对模板提取过程中语音信号的基音频率差别增大而出现的语音识别率下降的问题,提出分类识别的方法,通过采用基音周期(Pitch)判决方法,将特征相近的帧合并,并计算基音频率的MEL频率倒谱系数,采用隐马尔可夫模型(HMM)进行语音识别,最终通过仿真实验验证分类识别方法对语音识别率提高的影响,得出此方法的适用环境和范围.  相似文献   

9.
说话人识别中改进的MFCC参数提取方法   总被引:1,自引:0,他引:1  
何朝霞 《科学技术与工程》2011,18(18):4215-4218,4227
在说话人识别技术中,特征参数的提取对语音训练和识别有着非常重要的作用。而Mel频标倒谱系数MFCC是一种常用的特征,它能对语音信号进行分析处理,去除对语音识别无关紧要的冗余信息,获得影响语音识别的重要信息。同时由于语音信号具有时变和混沌特性,以非线性随机共振理论和人类对听觉的理解为基础,提出了一种基于随机共振的MFCC特征参数提取方法。通过实验比较两种方法的结果,论证了改进方法的可行性以及优越性,为说话人识别技术中特征参数提取提供了一条新的研究方向。  相似文献   

10.
随着深度学习理论的兴起,BLSTM-CTC模型成为目前主流的语音识别声学模型之一.本文借鉴国内外语音识别框架,结合藏语言文字特点,提出基于BLSTM-CTC模型的藏语语音识别方法.该方法以识别非特定人藏语连续语音为目标,通过提取语音的MFCC特征参数,建立了以音素为建模单元的藏语语音声学模型.在不同建模单元下LSTM-CTC模型和BLSTM-CTC模型的对比实验表明,该方法能够充分利用上下文信息,具有较强的建模能力和语音识别效果.  相似文献   

11.
一种基于粒子滤波的双模态语音提取方法   总被引:1,自引:0,他引:1  
说话入的唇动信息有助于加强对语音的感知.根据说话人语音的双模态特性,将振动信息引入语音提取问题,提出了一种基于粒子滤波的贝叶斯融合架构的双模态语音提取方法.该方法融合说话人的语音和唇动信息,根据信息论中的最大互信息准则与盲源分离中的高阶统计量准则.将音视频互信息与语音峭度的乘积作为代价函数,利用粒子滤波估计混合矩阵.解决时变瞬时混合情况下的语音提取问题.仿真结果表明.该方法在低信噪比情况下仍然能够实现语音信号的有效提取.  相似文献   

12.
在与文本相关的说话人识别研究中,既要包含说话人身份的识别,又要包含语音文本内容的识别.提出一种基于语音识别的与文本相关的说话人识别方法,从而建立说话人的声纹模型和语音文本模型,与传统的仅建立一种模型的方法相比,该方法能更精确地描述说话人身份信息和语音的文本信息,较好地解决了短时语音样本识别效果不佳的问题.测试实验表明,和传统与文本相关的说话人识别方法(如基于动态时间规整、高斯混合-通用背景模型)相比,由本方法建立的系统虚警概率降低了8.9%,识别性能得到了提高.  相似文献   

13.
语音情感识别是情感计算领域的一个重要分支,研究者们尝试从多种角度对其展开不懈研究。本文从可视化的角度出发,提出了基于信息可视化的情感识别方法,原始语音情感特征经过图表示映射为包含内部数据结构信息的新型情感图特征,在一定程度上促进了语音情感识别系统的性能提高。另外,还将信息可视化技术应用到情感识别结果的表达上,实现情感信息的生动描述和高效表达。在信息可视化技术和语音情感识别研究充分融合的基础上,构建了一个完整的语音情感信息可视化模型,作为系统实现的基础。  相似文献   

14.
针对传统分层聚类方法运算速度较慢的问题,提出一种基于矢量量化的时序说话人聚类方法。首先对各语音段的特征进行矢量量化得到各语音段的码本,然后采用贝叶斯信息判据计算各码本之间的距离,最后按时间先后顺序进行说话人聚类。采用会议和新闻语音数据进行测试,实验结果表明:会议语音的说话人聚类F值为73.47%,新闻语音的说话人聚类F值为80.00%;在处理速度方面,该方法比无矢量量化时序聚类方法提高了3.16倍,比传统分层聚类方法提高了53.31倍。  相似文献   

15.
声音转换是将源说话人的声音转化成具有目标说话人特征信息的声音的方法。该系统选择共振峰频率和带宽及基音周期等声音特征参数,分别使用LPC求根法和自相关法提取这些特征参数。矢量量化的码本映射方法实现声音特征转换,共振峰参数法合成转换语音。实验中对5个国际音标与语音中的元音进行转换,并使用MFCC听觉倒谱法对转换结果进行评估,其中男声到女声的转换后的语音到目标语音的MFCC距离比源语音到目标语音MFCC距离平均减小48.8%。  相似文献   

16.
为提高噪声不平稳或不可估的情况下语音识别的稳健性,提出了利用自回归模型和短时平稳性假设,估计干净与噪声环境的语音数据,建立相应的语音识别模型,以达到抗噪效果的稳健语音信号处理方法。在N o iseX-92的4种噪声环境(w h ite,babb le,vo lvo,destroyer eng ine)从0到20 dB的不同信噪比下的“863”大词汇连续语音标准数据库的平均识别结果表明,该方法能够使得基于段长分布的隐M arkov模型的语音识别系统在25候选时声学层的音节相对错误率下降达到10.85%以下,同时相对正确识别率上升12.13%。  相似文献   

17.
基于压缩感知过程的语音增强   总被引:2,自引:0,他引:2  
压缩感知(compressive sensing,CS)是一种基于信号稀疏性的采样方法,可以有效提取信号中所包含的信息。该文提出了一种基于CS过程的语音增强新算法。算法利用语音在离散余弦变换(discrete cosine transform,DCT)域下的稀疏性,采用Hadamard矩阵对带噪语音进行压缩测量,通过改进的正交匹配跟踪(orthogonal matching pursuit,OMP)算法恢复语音信号,实现语音增强。与经典谱减法和子空间算法进行实验对比分析,结果表明:该算法在降噪性能上优于经典谱减法和子空间算法。  相似文献   

18.
基于浊音语音谐波谱子带加权重建的抗噪声说话人识别   总被引:1,自引:0,他引:1  
提出了一个基于浊音语音谐波谱重建的说话人识别算法.该算法根据浊音语音短时频谱的结构特征和基音信息,对浊音语音谐波结构频谱进行子带加权重建,以补偿由噪声引起的训练与测试条件的失配.算法基于重建浊音频谱提取感知线性预测倒谱系数,与基音相组合作为说话人的语音特征参数矢量,采用高斯混合模型对说话人进行建模.仿真实验的结果表明:所提出的浊音谱重建方法对多种类型含噪语音的噪声补偿均具良好效果,可以明显提高在噪声环境下的与文本无关的说话人识别的识别率,特别是显著提高低信噪比环境下的识别率,而不会明显降低纯净语音和高信噪比环境下的识别率.  相似文献   

19.
基于信息隐藏技术,提出并实现了一种语音保密通信的新方法。首先将保密语音进行混合激励线性预测(MELP)编码,形成隐藏信息。然后依据人耳的掩蔽效应,在公开语音DCT域中频点嵌入隐藏信息。解码器在同样的嵌入点检测隐藏信息,并经MELP解码恢复保密语音。实验结果表明该算法在隐藏信息后,信道中传输的分开语音具有透明性,并且在受到压缩、滤波等攻击时具有较高的鲁棒性。  相似文献   

20.
语音信息的采集过程中难免会有各种噪声的干扰,噪声降低了语音的可懂度及清晰度,甚至严重影响语音处理的准确性和可靠性。谱减法是语音减噪中最常用的方法,该方法基于人的感觉特性,对语音短时幅度谱进行估计,适用于受加性噪声污染的语音。本文通过统计分析谱减法的增益补偿因子和过减因子参数,研究基于谱减法的藏语语音减噪处理,并取得较为理想的实验结果。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号