首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 125 毫秒
1.
根据语音信号的“可视”特点,提出了一种基于简化脉冲耦合神经网络(PCNN)实现孤立词语音识别的方法。将语谱图输入到PCNN中得到相应的时间序列标识,作为语音信号的特征参数,然后通过模板匹配法和概率神经网络(PNN)相结合的方法实现语音分类识别。仿真结果表明,该方法能够达到较高的语音识别率。  相似文献   

2.
基于免疫遗传优化支持向量机的普米语孤立词语谱图分类方法,首先利用短时傅里叶变(STFT)生成普米语孤立词语谱图;其次,提取普米语孤立词语谱图的二值特征;最后,利用免疫遗传优化支持向量机实现语谱图的分类.实验结果表明:普米语孤立词语谱图分类预测准确率为88%~91%.基于免疫遗传优化支持向量机的语谱图分类比基于语音信号分类效果更好.  相似文献   

3.
为获得说话人发音特征,基于仿生思想,提出一种基于语谱图统计的方法,通过对说话人短时语谱图的线性叠加获得可表征说话人稳定发音特征的特征语谱图。为解决资源受限的设备中说话人识别系统网络训练速度慢、识别效率低的问题,基于传统自组织映射(self-organizing feature map,SOM)神经网络提出了一种自适应聚类SOM (adaptive clustering-SOM,ACSOM)算法,随着待识别说话人数的增加,自动调节增加竞争层神经元个数,直至聚类数达到说话人个数。采用该AC-SOM模型对100人的自建特征语谱图样本库进行聚类识别,最大训练时间只需304 s,最大单张识别时间小于28 ms;在识别人数相同时,相对于所对比的其他识别方法,该方法大大提升了网络训练速度和识别速度,满足了边缘智能(edge intelligence)系统中对数据处理与执行的实时性的要求。  相似文献   

4.
针对佤语语谱图的识别无需考虑清、浊音的影响这一特征.利用傅里叶变换将佤语转换为对应的语谱图信息,将深度卷积神经网络的AlexNet模型用于佤语语谱图识别.实验表明,语谱图识别可以有效解决语音识别过程中清、浊音对实验识别结果的干扰,实验准确率达到96%.  相似文献   

5.
随着人们对于场景音频研究的逐渐深入,现有的分析方式由于存在不能完整反映音频的声学特性等弊端,已经无法满足人们的需求。基于时频域特征的分析方式可以很好地解决这一问题,即通过提取场景音频的语谱图,使待分析信号中包含的声学事件得到完整保留,使其表现得更加直观。语谱图中包含着丰富的纹理信息,选取不同窗长,可分别得到场景音频的宽带语谱图和窄带语谱图。对比实验表明,窄带语谱图可以更好的反映出待分析信号中所包含声学事件的趋势、连续性及分布特征。因此对场景音频进行时频域特征分析更适合使用窄带语谱图。  相似文献   

6.
【目的】针对传统声学特征所含情感信息不足的问题,提出一种基于多任务学习的深度特征提取模型优化声学特征,所提声学深度特征既能更好表征自身又拥有更多情感信息。【方法】基于声学特征与语谱图特征之间的互补性,首先通过卷积神经网络提取语谱图特征,然后使用多核主成分分析方法对这两个特征进行特征融合降维,所得融合特征可有效提升系统识别性能。【结果】在EMODB语音库与CASIA语音库上进行实验验证,当采用DNN分类器时,声学深度特征与语谱图特征的多核融合特征取得最高识别率为92.71%、88.25%,相比直接拼接特征,识别率分别提升2.43%、2.83%.  相似文献   

7.
基于共振峰谐波能量的语音端点检测   总被引:3,自引:0,他引:3  
共振峰和谐波成分是语音的一个典型特征.由于语音和环境的多交性,采用普通的方法提取这些特征存在很多困难.该文提出了一种在窄带语谱图上通过图像增强的方法,通过sobel算子计算窄带语谱图的方向场,通过Gabor滤波增强谐波区域,通过门限方法得到二值化圈,去除方向大于45°和依赖度低的点.得到连续的水平方向的带状分布,即谐波分布区域,求取谐波分布区域内的能量,以此作为门限判决的特征.实验结果表明,在不同信噪比、多种非平稳噪声环境下都能够达到较好的语音检出效果;同时这个特征不但能抑制高能量突发噪声,而且在非平稳噪声背景下的语音检测也表现出了优秀性能.其优点为,不需要噪声的先验知识,充分利用了语音在频率域和时间域的相关性,适应于各种非平稳复杂噪声.  相似文献   

8.
针对采用梅尔频率倒谱系数(mel-frequency cepstrum coefficient,MFCC)作为身份认证向量(identity vector,i-vector)进行说话人识别存在语音信息不全的问题,提出一种基于语谱特征的身份认证向量识别说话人的方法。语音信号经过预加重、分帧加窗预处理之后,通过短时傅立叶变换转换成语谱图,语谱图被提交到高斯通用背景模型,在高维均值超向量空间中选择合适的低维线性子空间流型结构以构造符合正态分布的向量作为身份认证向量。这些获取的身份认证向量经过线性判别性分析实现降维并存储。最后采用对数似然比(log-likelihood ratio,LLR)方法对训练和测试阶段的i-vector进行评分,完成说话人识别。以TIMIT数据库为标准的数值实验结果表明,相比采用MFCC作为特征的识别方法,研究的等错误率(equal error rate,EER)更低。  相似文献   

9.
为了准确区分各种肺音信号,获得更理想的肺音识别效果,提出了一种基于语谱图的改进型LBP肺音识别方法.首先通过短时傅里叶变换将肺音信号转化为灰度语谱图;其次利用改进后LBP算法计算语谱图的局部纹理关系,将局部二值模式特征进行级联构成特征向量;最后利用支持向量机对正常肺音和三类异常肺音信号进行识别分类.结果表明,该方法对不同肺音信号的识别率可达92.59%,为肺部疾病的医疗诊断提供了新的思路.  相似文献   

10.
口吃作为一种常见的言语流畅性障碍,在儿童成长阶段言语障碍会对其身心健康造成不可逆的伤害.由于国内对口吃类型识别是基于专家的主观评价,缺乏智能医疗工具的辅助,本文基于构建的儿童口吃语料库和LibriStutter语料库来探究儿童口吃的智能识别,使用卷积神经网络ResNet模型对口吃语谱图进行识别.实验结果表明,该模型可有...  相似文献   

11.
主要讨论了一种使用语音频谱动态特性的倒谱距离测量对通信系统或通信设备进行客观音质评价方法,它是在使用LPC倒谱距离评价普通话语音质量的基础上发展起来的,语音频谱动态特性是利用倒谱对时间的回归分析来表示的,这种度量方法中,使用倒谱系数,倒谱回归系数和能量回归系数3个参数的距离测量,在使用了谱包络信息的基础上,考虑了谱包络随时间的变化量及信号能量随时间的变化,比较了4种距离估算方法和主观音质评价(MO  相似文献   

12.
管制指令特征参数提取研究   总被引:2,自引:1,他引:1  
在管制指令语音识别系统的研究中,语音的特征参数提取方法是影响系统识别率的关键因素之一。在Matlab平台上基于MATLAB GUI技术,设计完成HMM语音训练识别模型的用户操作界面,实现特征参数提取方法的选择、语音信号的训练、识别操作及结果输出和波形显示。通过实例对比分析,特定人和非特定人情况下,LPCC和MFCC两种特征参数提取方法在训练、识别时间和识别率上的差异。结果表明,特定人时LPCC参数的识别优势明显;非特定人时,MFCC参数的识别效果和效率更好。  相似文献   

13.
采用传统的高斯混合模型(Gaussian mixture model,GMM)进行语音带宽扩展时,会出现所估计的特征参数过平滑的问题,其主要原因是协方差估计不准确而导致扩展的高频特征细节信息的丢失,因此本文提出了码本映射(codebook mapping,CM)与高斯混合模型相结合的语音带宽扩展算法.提取高、低频特征参数,并训练高斯混合模型,基于高斯混合模型参数训练偏移矢量的码本;在扩展阶段,利用偏移矢量的码本将低频偏移矢量映射为高频偏移矢量,再将高频偏移矢量与高斯混合模型估计部分相加作为估计的高频特征参数.对利用该方法进行带宽扩展后的语音质量进行主观/客观评测.实验结果表明,相比传统的GMM语音带宽方法,CM-GMM合成的高频语音更接近原始高频语音,明显消除了高频过平滑现象.   相似文献   

14.
从基于言语知觉特性的声母区别特征出发,观察MFCC和美尔能量取值在区别特征有无上的表现差异,修正了声母区别特征的客观参数特性,与修正前的结果相比更合理。定义含有区别特征参数特性的语音帧为有效帧,在自然音节中通过能量确定出声母初判范围位置的基础上,利用该范围内有效帧的含量Para作为检测探针,实现自然音节状态下声母区别特征检测。正检率在80%左右。  相似文献   

15.
提出一种基于特征融合矩阵的语音音色的厚薄度客观评价方法.提取最符合人耳听觉特性的梅尔频率倒谱系数(MFCC)和线性预测系数(LPC)作为语音特征参数,同时提取了3种非语音参数特征,包括共鸣因子指数、身高质量指数和肺活量体重指数,将这些特征进行融合即可形成特征融合矩阵,采用softmax分类器对语音音色中的厚薄度进行分级.实验结果表明,该方法可以获得较高的分级准确率.   相似文献   

16.
基于多维参数的语音身份认证系统研究   总被引:1,自引:0,他引:1  
本文研究了与文本相关说话人语音通过多维参数的语音身份认证系统进行身份认证的过程。重点研究了小波降噪、语音增强、辅助加权MFCC语音特征提取,混合HMM语音辨识的算法及实现问题。试验表明该技术在认证效率、准确度、自适应性方面有较好表现。  相似文献   

17.
为了提高跨模态人脸表示与合成的性能,针对语音与人脸图像2种模态数据,提出一种基于人脸参数化表示与稠密深度网络相结合的面部生成方法。针对输入语音模态,通过对信号进行频谱变换,将一维时域信号转换到二维频率域,可提取频域上稳健的特征描述;针对输出图像模态,利用主动外观模型对不同面部区域独立建模以降低区域间的相关性,并提取紧凑的人脸参数化特征;为了获得有效的跨模态学习性能,提出采用稠密连接的深度卷积神经网络学习语音、图像2种模态的回归预测,并通过预测的人脸参数进行面部重构,所采用的深度网络模型可以加强特征传播与特征复用,有利于增强面部细节的合成。在2组音视频数据集上验证了提出方法的有效性。  相似文献   

18.
王彪 《科学技术与工程》2012,12(10):2462-2464
为了提高语音信号的识别率,提出了一种基于经验模态分解(EMD)法的语音信号特征参数提取方法。该方法先对语音信号进行EMD分解,获得其内模函数;再进行FFT和DCT变换,得到特征分量,以此构成语音信号新特征参数。最后采用高斯混合模型(GMM)进行说话人语音识别,实验表明新特征参数取得了较好的识别率。  相似文献   

19.
提出了一种通过张量分解提取语音信号特征的方法. 该方法对语音信号进行预处理,然后对每帧语音信号进行小波分解得到不同尺度上的信息,对这些信息提取传统特征参数,构建一个帧结构×分解尺度×特征参数的三阶张量,并经过张量分解得到各阶投影矩阵,从而建立语音信号在高阶空间上的特征体系,以便充分表征语音信号的特征. 实验结果表明,本文提出的方法与传统特征参数体系比较,有利于语音识别系统性能的提高,并且对于带噪语音的识别具有一定的鲁棒性.   相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号