期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

刘鹏王作英《清华大学学报(自然科学版)》2005,45(7):896-899

在语音信号处理系统中,基于帧能量的语音端点检测(voiceactivitydetection,VAD)往往受到语音段能量不平稳及噪声的影响,为了提高语音端点检测的性能和鲁棒性,引入视觉信息。该文提出采用基于数据驱动的线性变换生成视觉特征,在提出一个基于统计的VAD一般模型的基础上构建两个单模式的VAD系统,通过两步式的融合方法,得到了多模式的VAD系统。实验表明:同时利用音频和视觉信息的多模式VAD比基于帧能量的听觉VAD在帧错误率上有55.0%的相对下降,在断句错误率上有98.5%的相对下降。这一结果说明多模式VAD方法基本可以避免断句错误,也能够显著改善帧检测性能,是一种相当有效的方法。相似文献

2.

基于DNN-LSTM的VAD算法

张雪英牛溥华高帆《清华大学学报(自然科学版)》2018,(5)

基于深度神经网络(deep neural network,DNN)的语音活动性检测(voice activity detection,VAD)忽略了声学特征在时间上的相关性,在带噪环境下性能会明显下降。该文提出了一种基于深度神经网络和长短时记忆单元(long-short term memory,LSTM)的混合网络结构应用于VAD问题。进一步对语音帧的动态信息加以分析利用,同时结合DNN-LSTM结构使用一种基于上下文信息的代价函数用于网络训练。实验语料基于TIDIGITS语音库,使用Noisex-92噪声库加噪。实验结果表明:在不同噪声环境下基于DNN-LSTM的VAD方法比基于DNN的VAD方法性能更好,新的代价函数比传统的代价函数更适用于该文提出的算法。相似文献

3.

基于神经网络的语音识别研究

叶虹《科学技术与工程》2010,10(19)

提出了一种基于双权值神经网络的非特定人连续语音识别的新算法.这种算法可以不经过端点检测和分割,构建连续语音中各不同音节的特征空间覆盖区,可以避免因分割错误而带来的错误识别.通过实验得到了较为满意的识别结果. 相似文献

4.

噪声环境中基于HMM模型的语音信号端点检测方法 总被引：8，自引：1，他引：8

朱杰韦晓东《上海交通大学学报》1998,32(10):14-16

在噪声环境下如何提高语音信号端点检测的准确性是自动语音识别（ＡＳＲ）研究中的一个重要课题．常用的基于短时能量的端点检测方法对于能量较低的音节或在信噪比较低的环境下,检测性能不够理想．讨论了一种基于ＨＭＭ模型的语音信号端点检测方法．先用训练的方法生成背景噪声和废料的模型,再用Ｖｉｔｅｒｂｉ解码算法对待测信号进行处理,并给出了具体的实现方法．实验测试结果表明,基于ＨＭＭ的端点检测方法的检测性能接近于人工检测,方法是有效的．相似文献

5.

基于预处理VAD和自适应KLT的语音增强算法

李宏伟赵晓晖《吉林大学学报(信息科学版)》2003,21(2):117-122

针对加性有色噪声干扰，提出了一种单通道输入基于信号子空间的话音增强算法。算法中使用自适应的方法跟踪KLT(Karhunen—Loeve Transform)阵。运用一种近似模型来表述有色噪声的特性，并基于噪声平稳的假设，通过采用预处理技术的语音活动性检测(VAD：Voice Activity Detection)单元获取噪声样本，用于下一语音帧中噪声特性的估计和增强处理。实验表明，算法对于有色噪声干扰下的语音信号有较好的增强效果，并且性能优于改进减谱法。相似文献

6.

基于能量和鉴别信息的语音端点检测算法

李晔崔慧娟唐昆《清华大学学报(自然科学版)》2006,46(7):1271-1273

为提高实时通信中语音端点检测系统的性能,提出了一种基于能量和鉴别信息的端点检测算法。该算法利用帧信号的能量、子带信号的能量等参数,计算该帧信号与噪声帧基于子带能量分布概率的鉴别信息。算法通过利用鉴别信息,能够在包括语音帧在内的所有帧中更新噪声的能量,从而更准确地跟踪噪声能量的变化。实验结果表明:与基于能量的端点检测算法相比,该方法在信噪比变化比较剧烈的情况下仍然能够较准确地进行端点检测,在0~10 dB范围内变化的坦克噪声环境中,准确率比后者提高约24%。相似文献

7.

汽车噪声中自动语音的识别技术 总被引：6，自引：0，他引：6

韦晓东胡光锐《上海交通大学学报》1998,32(10):10-13

汽车中的话音拨号系统是自动语音识别技术的应用热点．自动语音识别系统是一个基于训练的系统．在汽车噪声中,由于实际应用环境与形成系统参数的训练环境的失配,传统语音识别系统的性能会大幅度地下降,从而无法实用．为了提高语音识别系统在特定环境下的识别率及实用性,首先根据汽车环境中语音的失真模型分析了系统性能下降的原因,然后针对加性汽车噪声与信道失真对系统的影响,讨论了在汽车噪声中改善语音识别系统性能的方法．提出了在识别系统中用基于子带的语音增强算法和倒谱均值相减算法相结合的方法．对大量的多人连续数字串语音的识别实验表明,这一方法大大提高了系统在汽车噪声环境中的识别率,它还可以简便、实时的实现,具有一定的实用性．相似文献

8.

基于交叉熵顺序统计滤波的语音端点检测算法 总被引：2，自引：0，他引：2

钱彦旻刘加《清华大学学报(自然科学版)》2009,(10)

为提高语音端点检测在强噪声环境下的准确率,提出了一种基于交叉熵顺序统计滤波(OSF)的语音端点检测算法。该算法以子带交叉熵为语音/非语音的区分特征,首先将每帧语音的频谱划分成若干个子带,估计出每个子带能量与背景噪声之间的交叉熵,然后把相继若干帧的子带能量交叉熵经过一组顺序统计滤波器,最后根据各帧交叉熵的值对输入的语音进行分类。实验结果表明:该算法能够有效地区分语音和非语音。特别是在强噪声环境下依然能够保持很高的检测率,具有鲁棒性。通过实验结果比较,该算法在性能上优于最近提出的基于能量顺序统计滤波和单纯交叉熵判别的两种方法。相似文献

9.

基于ACO优化小波神经网络的语音识别

赵群《大庆师范学院学报》2014,(6):1-4

蚁群优化(Ant Colony Optimization,ACO)算法是根据解决不同优化问题的多个蚂蚁算法所归纳出的解决复杂的组合优化问题的一个一般框架。本文首先研究ACO算法的原理及其结构框架,在此基础上,引入蚁群优化算法进行小波神经网络的训练,对ACO训练小波神经网络步骤和方法进行了研究。并与BP算法、遗传算法、模拟退火算法进行性能比较,将各种方法训练的小波神经网络用于噪声环境下的语音识别。仿真结果表明,基于ACO算法训练的神经网络在收敛速度上更具有优势,能够获得较小的均方误差值,对于非特定人噪声环境下的语音识别的正确率达到96%,是一种有效的语音识别方法。相似文献

10.

基于支持向量机与多观测复合特征矢量的语音端点检测 总被引：1，自引：0，他引：1

张晓雷吴及吕萍《清华大学学报(自然科学版)》2011,(9):1209-1214

该文提出了一种新的多观测复合特征(MO-CF)用于基于支持向量机(SVM)的语音端点检测(VAD)。该特征是由2个子特征经平衡因子加权构成。特征的优化目标是寻找能使VAD的性能曲线下面积(AUC)最大化的平衡因子,以综合各个子特征的优点。在子特征选择方面,要求各个子特征不仅本身具有较好的性能,而且存在互补性。针对该要求,提出2种组合特征MO-CF1和MO-CF2。由多观测信噪比(MO-SNR)特征与多观测最大概率(MO-MP)特征复合而成的MO-CF2比MO-CF1更稳健。实验结果表明:在多种噪声环境下,相比于已有的9种VAD算法,该算法具有更好的性能和更高的稳健性。相似文献

11.

采用DTW算法和语音增强的嵌入式声纹识别系统

周跃海童峰洪青阳《厦门大学学报(自然科学版)》2012,51(2):174-178

动态时间规整(dynamic time warping,DTW)是一种相对简单成熟的算法,广泛用于语音识别系统中.针对环境噪声对声纹识别系统性能的影响,用信噪比关联谱减及自适应门限端点检测进行抗噪声处理,在此基础上采用DTW算法设计了基于嵌入式ARM9平台的声纹识别实现方案,并给出了带噪环境下的声纹识别实验结果. 相似文献

12.

基于CGRU模型的语音情感识别研究与实现

郑艳陈家楠吴凡付彬《东北大学学报(自然科学版)》2020,41(12):1680-1685

语音情感识别是人机交互、情感计算中重要的研究方向.目前普遍使用深度神经网络用于语音情感特征的提取，但使用哪种神经网络模型、如何缓解模型过拟合问题还需进一步研究.针对这些问题，提出了一种结合一维卷积(CNN)以及门控循环单元(GRU)的CGRU模型，从原始语音信号的MFCC特征中提取语音的低阶以及高阶情感特征，并通过随机森林对其进行特征选择，在三种公用的情感语料库EMODB，SAVEE，RAVDESS上分别取得了79%，69%以及75%的识别精度.通过添加高斯噪声及改变速度等方法来增加样本量实现数据扩充，进一步提高了识别精度.通过在线识别系统验证了模型在实际环境中的可用性. 相似文献

13.

基于BP神经网络的非特定人语音识别算法研究

戚龙赵丹《科学技术与工程》2017,17(31)

当前非定特人语音识别算法大多只适于连续语音,且识别精度和速度均较低。为此,提出一种新的基于BP神经网络的非特定人语音识别算法,介绍了标准BP神经网络,针对其收敛速度慢的弊端,通过变化的自适应学习速率,令网络训练针对各种阶段自行设置学习速率值,利用变学习速率构建对应的改进BP神经网络模型,将改进的BP神经网络模型看作识别非特定语音的识别器,输入待识别语音,令累计预测残差达到最小,实现非特定人语音识别。将改进模型应用于非特定人语音识别中进行验证,结果表明所提算法识别率更高、识别速度更快,不仅适于连续语音的识别,也适于不连续语音的识别。相似文献

14.

一种量子神经网络说话人识别方法 总被引：2，自引：1，他引：1

下载免费PDF全文

王金明王耿郑国宏孙健《解放军理工大学学报(自然科学版)》2012,(3):242-246

针对说话人语音特征空间边界存在模糊性的特点,构建了一种量子神经网络识别分类器,用于说话人识别,以改善存在交叉数据的语音特征参数的分类效果。提出了一种基于人工免疫算法的量子间隔训练方法,以改善传统量子神经网络训练算法的不足。以TIMIT语音库为测试语音,与传统BP网络和基于常规梯度下降量子间隔训练算法的量子神经网络做对比实验。实验证明,算法能有效提高说话人识别系统的识别率,同时与高斯混合模型相比,具有更好的抗噪声性能。相似文献

15.

基于CGRU多输入特征的地空通话自动切分

郭东岳林毅杨波《四川大学学报(自然科学版)》2020,57(5):887-893

自动语音切分是语音识别、声纹识别、语音降噪等语音应用中非常重要的预处理环节,切分算法的优劣直接影响了系统输出结果的精度.在空管地空通话中,传输信道噪声、天气因素以及说话人工作状态均会对语音信号产生影响,进而在一定程度上影响语音切分性能.在分析空管地空通话语音特性基础上,提出了一种基于CGRU网络多输入特征的自动语音切分方法.该方法结合地空通话的特点,采用深度学习的方法进一步提取语音信号的时域和频域非线性特征,将语音信号帧分类为语音帧、结束帧以及其他帧三类.实验对比了多种语音特征作为输入对切分效果的影响,同时验证了GMM、CNN、CLDNN、CGRU等切分算法在真实地空通话测试集上的表现,并提出了一种简单预测结果平滑算法.实验结果表明,文中提出的自动切分方法在地空通话中具有明显优势,分类模型的AUC值达到了0.98. 相似文献

16.

一种基于优化小波神经网络的语音识别

陈立伟宋宪晨章东升杨洪利《应用科技》2008,35(2):17-20

在以往的BP小波神经网络中,最常用的学习算法是BP算法,BP算法实质上就是梯度下降法,是一种局部搜索算法,梯度下降法使得网络极易陷入局部最小值,从而使得网络训练结果不尽人意,搜索成功概率低.取代传统的梯度下降法,利用粒子群算法对小波神经网络中的参数进行优化.然后利用基于粒子群优化(PSO)的小波神经网络进行抗噪声语音识别实验,仿真结果表明,与BP网络相比,PSO算法在迭代次数、函数逼近误差、网络性能方面均优于BP网络,系统的识别率也得到较大的提高. 相似文献

17.

3G系统中复杂背景噪声环境下话音激活检测算法性能分析 总被引：1，自引：1，他引：0

陈东匡镜明《北京理工大学学报》2001,21(2):232-236

以第三代移动通信合作项目组（3GPP）和欧洲电信标准委员会（ETSI）SGM相关标准为依据,分析自适应多速率语音编码器中话音激活检测算法在不同背景噪声和不同输入信噪比下的性能,基于对大量实验室结果的分析,对其在3G系统中应用的鲁棒性加以验证,同时和国际电联电信标准组（ITU－T）建议的G．729算法进行比较,研究表明,该算法在非平衡背景噪声环境下的成于G．729,在保证重构语音足够高可懂度和自然度的前提下,使整个移动通信系统容量增加约30％。相似文献

18.

FCNN深度学习模型及其在动物语音识别中的应用

石鑫鑫鱼昕刘铭《吉林大学学报(信息科学版)》2021,39(1):60-65

为解决使用语音信号准确识别动物以保护和研究野生动物的问题,提出一种全连接算法与稀疏连接算法相结合的全卷积神经网络(FCNN: Fully Convolutional Neural Network),用于语音的自动识别.利用全连接算法提取更多的组合特征,稀疏连接算法筛选重要特征可加快收敛速度.同时给出了具体的模型结构及算... 相似文献

19.

基于深度神经网络的语音情感识别方法

杨明极张家彬《科学技术与工程》2019,19(8)

语音情感识别是人机交互的重要方向,可广泛应用于人机交互和呼叫中心等领域,有很大应用价值。近年来,深度神经网络在识别情感方面取得了巨大成功,但现有方法对高层语音特征提取会丢失大量原始信息并且识别准确率不高,本文提出了一种新的语音情感识别方法,由卷积神经网络从原始信号中提取特征,并在其堆叠一个2层长短时记忆神经网络,最终识别准确率达到91.74%,本文方法显著优于基于EMO-DB数据集等其他方法。相似文献