首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 718 毫秒
1.
对于大规模的语音语料,语音切分方法主要有传统的人工切分和机器自动化切分2种方式.人工切分大规模语音语料的切分质量易控制,但效率低、成本高;机器自动化切分效率高,但后期查找切分错误时任务极其繁重.因而提出一种人机交互语音切分系统,切分人员可选择自动切分算法,设置切分参数,修改有问题的自动切分结果,同时可自动生成用于HTK训练的标注文件.以课题组采集的1 000个普米语语音文件为研究对象,以普米语孤立词为切分基元,机器自动化切分存在难以避免的切分错误,后期检查时工作量巨大;然而使用本文提出的人机交互语言切分系统进行切分,切分人员在无需高认知度的情况下也可做到近100%的切分正确率.  相似文献   

2.
为了能方便、快捷、可靠地对失真语音进行语音清晰度性能评价,提出了一种基于语音分类的加权巴克谱失真语音清晰度客观评价算法SC-WBSD.该算法提出在巴克域中对清音帧、浊音帧及过渡音帧巴克带谱失真进行加权来求失真语音的客观失真测度.通过分析 3类语音的巴克谱失真测度与DRT分的相关程度,提出一组以相关系数的幂次方为权重的有效SC-WBSD权重矢量.实验结果表明,SC-WBSD方法和DRT分的相关度达到了0.924 73,与巴克谱失真测度算法相比提高了4%.  相似文献   

3.
为解决使用语音信号准确识别动物以保护和研究野生动物的问题,提出一种全连接算法与稀疏连接算法相结合的全卷积神经网络(FCNN: Fully Convolutional Neural Network),用于语音的自动识别.利用全连接算法提取更多的组合特征,稀疏连接算法筛选重要特征可加快收敛速度.同时给出了具体的模型结构及算法流程,并进行了动物语音识别实验.实验结果表明,该全卷积神经网络深度学习算法是一种语音自动识别的有效方法,解决了蛙声识别问题,为动物语音识别提供参考.  相似文献   

4.
提出了一种基于SDCN算法的鲁棒性语音命令识别。依赖于信噪比的倒谱正常化(SDCN)算法直接在倒谱域根据输入语音帧的信噪比(SNR)来增加一补偿矢量,从而恢复未受污染的净语音信号,补偿矢量直接从训练环境和测试环境中记录的语音倒谱中逐帧比较得到,该算法对退化的环境具有很强的鲁棒性,实验结果证明,该算法简单,有效。  相似文献   

5.
用于周期分解语音活动检测的基频提取方法研究   总被引:1,自引:0,他引:1  
介绍了基于语音信号周期分解的语音活动检测算法.传统语音活动检测算法在动态低信噪比背景噪声环境下的效果很不理想,这主要是因为传统方法中提取的能量与过零率等检测特征针对的是平稳噪声,对信噪比的变化很敏感.而本文介绍的周期分解语音活动检测方法能较好地解决这个问题,因为语音信号中浊音段的周期性是区别一般噪声信号的重要特征,并且该特征受背景噪声类型和信噪比变化的影响小.在周期分解语音活动检测方法中,基频提取的准确性对最终检测性能有很大影响.针对此情况,提出了自相关、循环均值幅度差分和YIN三种基频提取算法相融合的方法.实验结果表明,在背景噪声为白噪声、汽车噪声、嘈杂人声以及信噪比0dB,5dB,10dB的情况下,该方法相对单一基频提取算法,可以有效提升基频提取与周期分解语音活动检测的准确性.  相似文献   

6.
通过分析基于隐马尔可夫模型(HMM)语音识别的原理,针对模板提取过程中语音信号的基音频率差别增大而出现的语音识别率下降的问题,提出分类识别的方法,通过采用基音周期(Pitch)判决方法,将特征相近的帧合并,并计算基音频率的MEL频率倒谱系数,采用隐马尔可夫模型(HMM)进行语音识别,最终通过仿真实验验证分类识别方法对语音识别率提高的影响,得出此方法的适用环境和范围.  相似文献   

7.
为了使语音认证算法在真实噪声环境下具有更强的鲁棒性,提出一种基于伪谐波模型的强鲁棒语音感知哈希认证算法.该算法首先对待认证语音进行预处理后分帧、加窗;然后通过输入一定的参考频率对每帧信号构造伪谐波模型,使每个频率对应一个单一成分的模型分析信号,并利用模型分析信号的突出幅度信息作为语音信号的感知特征值;最后对感知特征值进行哈希构造,生成二进制感知哈希序列来实现语音认证.实验结果表明:该算法对较强的真实环境噪声和一些常规的内容保持操作具有非常好的鲁棒性,同时区分性和认证效率能够满足语音通信实时性的要求.  相似文献   

8.
提出了一种精确篡改定位的数字语音取证算法.语音信号分帧后,对各帧信号进行置乱.水印由帧号和信号系数自相关生成,并嵌入到置乱后的信号中.实验分析结果表明,本文算法具有较好的不可听性和对恶意攻击进行精确篡改定位的能力,同时,提高了水印系统的安全性.  相似文献   

9.
基于交叉熵顺序统计滤波的语音端点检测算法   总被引:2,自引:0,他引:2  
为提高语音端点检测在强噪声环境下的准确率,提出了一种基于交叉熵顺序统计滤波(OSF)的语音端点检测算法。该算法以子带交叉熵为语音/非语音的区分特征,首先将每帧语音的频谱划分成若干个子带,估计出每个子带能量与背景噪声之间的交叉熵,然后把相继若干帧的子带能量交叉熵经过一组顺序统计滤波器,最后根据各帧交叉熵的值对输入的语音进行分类。实验结果表明:该算法能够有效地区分语音和非语音。特别是在强噪声环境下依然能够保持很高的检测率,具有鲁棒性。通过实验结果比较,该算法在性能上优于最近提出的基于能量顺序统计滤波和单纯交叉熵判别的两种方法。  相似文献   

10.
为提高实时通信中语音端点检测系统的性能,提出了一种基于能量和鉴别信息的端点检测算法。该算法利用帧信号的能量、子带信号的能量等参数,计算该帧信号与噪声帧基于子带能量分布概率的鉴别信息。算法通过利用鉴别信息,能够在包括语音帧在内的所有帧中更新噪声的能量,从而更准确地跟踪噪声能量的变化。实验结果表明:与基于能量的端点检测算法相比,该方法在信噪比变化比较剧烈的情况下仍然能够较准确地进行端点检测,在0~10 dB范围内变化的坦克噪声环境中,准确率比后者提高约24%。  相似文献   

11.
听觉掩蔽门限在说话者识别中的应用   总被引:2,自引:0,他引:2  
语音信息在人的听觉系统中的表示具有一定的冗余性.利用这一特性把丢失数据技术应用于噪声环境下说话者识别系统的性能改进.听觉掩蔽效应这一听觉现象被用来检测语音信号频谱中被噪声严重干扰的“丢失成分”.经过丢失数据补偿技术结合语音增强处理,说话者识别系统在不利环境下的准确率得到了提高.通过对宽带噪声- 白噪声和一种特殊噪声——汽车噪声干扰下语音的说话者辨认实验,发现这种方法优于单独使用语音增强方法.  相似文献   

12.
基于GA/VQ的说话人辨认的研究与实现   总被引:3,自引:0,他引:3  
为了改善在矢量量化说话人识别中,采用模板(码书)表征说话人,模板的质量对识别系统的性能。采用遗传算法改进模板的生成方式,构建了一种GA/VQ说话人辨认系统,给出了一种GA/VQ识别算法,通过遗传操作获得全局优化的说话人模板。实验证明,GA/VQ方法提高了码书的质量,比经典矢量量化识别系统识别率高。  相似文献   

13.
针对说话人识别的噪声鲁棒性问题,在对数谱最小均方差误差估计算法基础上,采用改进的最小值控制递归平均算法对语音帧信噪比进行估计,通过对前一帧的短时功率谱进行2次平滑和前向多帧最小值搜索,结合语音存在概率估计出当前帧的信噪比,并根据信噪比自适应调整增益因子的大小,对噪声进行消除。构建了一种改进的LSA语音增强方法,使用该方法可以使增强后的语音保持较高的自然度。实验结果表明,与MMSE-LSA算法比较,改进的LSA算法具有更好的语音增强效果,在5dB各类噪声环境下,其平均信噪比较MMSE-LSA算法提高1.36dB,主观语音质量评估平均提高8%。将该方法用于说话人识别系统,其检测代价较采用MMSE-LSA算法的系统平均降低3%。  相似文献   

14.
两级决策的开集说话人辨认方法   总被引:10,自引:0,他引:10  
为了减少语音数据量 ,提高处理速度和识别的准确性 ,提出了一种采用公共码本、个人隐 Markov模型 (HMM)和个人拒识阈值进行两级决策来实现开集说话人辨认的新方法。在系统实现时 ,采用了一种改进的语音切分算法来提高输入数据的有效性 ,并将说话人识别和人脸识别融合在一起进行身份验证。实验证明这种融合方法能够有效地降低识别的相等错误率至 1%。  相似文献   

15.
一种基于自适应模糊滤波的语音增强方法   总被引:1,自引:0,他引:1       下载免费PDF全文
在语音识别和语者识别中,通常需要先将输入的语音信号进行去噪处理,这样可使识别的正确率大大提高,通常采用基于LMS算法和RLS算法的自适应线性滤波器来进行去噪。提出了一种基于自适应模糊滤波器的语音增强方法,该模糊滤波器是一种非线性滤波器,它在语音信号的特征域空间采用参数映射的方式来滤除噪声,并能够进行自适应结构调整和参数更新。实验结果表明,采用自适应模糊滤波器来滤除噪声比线性滤波器具有更好的效果。  相似文献   

16.
作为一种人机信息交互技术,语音识别技术得到了广泛的应用.介绍了基于凌阳十六位单片机SPCE061A的语音识别系统.并且采用了以传统的线性预测倒谱系数(LPCC)与分形维教相结合的混合参数作为特征参数的语音识别方法.LPCC方法是体现说话人特定的声道共振特性的线性预测方法,而分形维数则可以定量的描述语音气流中的非线性混沌特征.实验结果表明,基于LPCC与分形维数混合参数的语音识别方法要比单一的LPCC参数语音识别方法识别效果好.  相似文献   

17.
基于浊音语音谐波谱子带加权重建的抗噪声说话人识别   总被引:1,自引:0,他引:1  
提出了一个基于浊音语音谐波谱重建的说话人识别算法.该算法根据浊音语音短时频谱的结构特征和基音信息,对浊音语音谐波结构频谱进行子带加权重建,以补偿由噪声引起的训练与测试条件的失配.算法基于重建浊音频谱提取感知线性预测倒谱系数,与基音相组合作为说话人的语音特征参数矢量,采用高斯混合模型对说话人进行建模.仿真实验的结果表明:所提出的浊音谱重建方法对多种类型含噪语音的噪声补偿均具良好效果,可以明显提高在噪声环境下的与文本无关的说话人识别的识别率,特别是显著提高低信噪比环境下的识别率,而不会明显降低纯净语音和高信噪比环境下的识别率.  相似文献   

18.
作为一种人机信息交互技术,语音识别技术得到了广泛的应用。介绍了基于凌阳十六位单片机SPCE061A的语音识别系统,并且采用了以传统的线性预测倒谱系数(LPCC)与分形维数相结合的混合参数作为特征参数的语音识别方法。LPCC方法是体现说话人特定的声道共振特性的线性预测方法,而分形维数则可以定量的描述语音气流中的非线性混沌特征。实验结果表明,基于LPCC与分形维数混合参数的语音识别方法要比单一的LPCC参数语音识别方法识别效果好。  相似文献   

19.
说话人特征提取是说话人识别系统中的关键环节,优良的特征提取算法既能有效反映说话人的基本特征,又能为识别的有效性提供保证.根据量子势阱理论,论文以透射系数、能量和频率的对应关系为切入点,构造出使频率和势阱一一对应的势阱组.针对语音信号的特点,将一帧语音信号视为一个量子态,利用势阱分离能量的特性,通过势阱组提取出信号的能量谱特征,并以此作为特征参数,探索了一种基于量子势垒组的说话人特征提取方法.仿真结果表明,在相同条件下,该方法可以降低算法的复杂性并能够有效的提取说话人特征,为说话人特征提取提供了新的研究方向.  相似文献   

20.
 由于说话人的语音信号具有时变性、随机性,其特征参数也呈现出高维及相邻帧变化较大等特点。从量子信息处理理论出发,将一帧语音信号视为一个量子态,在传统神经网络的基础上,利用量子逻辑线路构造神经网络,实现说话人语音信号的有效聚类,探索一种基于量子逻辑线路神经网络的说话人识别模型与方法。利用模型固有的大量全局吸引子,可有效降低语音信号处理的时间及复杂度。通过在经典计算机上模拟仿真,并与BP神经网络说话人识别模型进行对比,表明该方法能够加快说话人识别模型的收敛速率,对参数变化具有更好的鲁棒性,且其系统识别率比BP神经网络方法平均提高了3.34%。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号