共查询到20条相似文献,搜索用时 156 毫秒
1.
根据实际应用的需求,设计了一种在浴室噪声环境中的小词汇量的语音识别系统.针对特定的浴室噪声进行分析,引入一种语音增强算法来降低噪声对识别的影响.使用基于人耳听力模型的mel频率倒谱特征参数作为语音特征参数,并结合其一阶差分参数描述语音信号特征的动态特性.针对小词汇量的实际应用需求,选用基于动态时间规整的模板匹配方法来识别.该方法可以用于其他相似的噪声环境中,通过实验验证了该方法的可行性. 相似文献
2.
3.
主要讨论了一种使用语音频谱动态特性的倒谱距离测量对通信系统或通信设备进行客观音质评价方法,它是在使用LPC倒谱距离评价普通话语音质量的基础上发展起来的,语音频谱动态特性是利用倒谱对时间的回归分析来表示的,这种度量方法中,使用倒谱系数,倒谱回归系数和能量回归系数3个参数的距离测量,在使用了谱包络信息的基础上,考虑了谱包络随时间的变化量及信号能量随时间的变化,比较了4种距离估算方法和主观音质评价(MO 相似文献
4.
针对短时语音时长过短以及训练语音和测试语音时长不等,导致语种识别性能大幅度下降的问题,提出了一种可变时长的短时广播语音多语种识别模型(Variable Duration-Language Identification, VD-LID).首先,对不同时长的语音进行时长规整;然后,对规整后的短时语音进行特征提取,提取其对数功率谱包络图作为语种特征;最后,将语种特征输入到残差神经网络中进行分类.实验结果表明,相比于传统特征输入,对数功率谱包络图特征将短时语音的语种识别准确率提高到了82.4%;相比于没有引入时长规整层的语种识别模型,VD-LID在测试语音时长为5 s和10 s的实验中,语种识别准确率分别提升了27.9%和37.7%. 相似文献
5.
语音信号时间动态规正新方法 总被引:5,自引:0,他引:5
利用函数逼近原理,提出了一种语音信号时间动态规正的新方法,并由此导出了可用于神经网络语音识别的新特征。重点讨论了时间动态规正的原理、新特征的提取方法和性质。实验及理论分析表明,新特征对于神经网络语音识别及语音压缩具有很好的效果。 相似文献
6.
对于英语等"重音节拍语言",词重音是一个非常重要的韵律学特征、提出巴克谱子带能量(BSSE),巴克谱子带倒谱(BSSC)和巴克倒谱(BSCC)等三种使用子带方法,模拟人类听觉系统进行英语词重音检测的新特征.首先研究了在英语词重音检测中不同频带的贡献度,然后测试了在连续语音条件下使用这些特征的系统性能.试验结果表明,高频带对重音识别的贡献度比其它频带大,新特征的识别效果也比传统特征好. 相似文献
7.
通过数据挖掘技术实现对语音来源的识别,从而完成对说话人身份的认证以及操作权限的分配,具有非常重要的理论和实际意义。主要针对相同和不同语音内容两个类别的说话人语音识别进行了研究。通过在说话人识别领域广泛应用的梅尔频率倒谱系数进行语音的特征提取,并结合动态时间规整算法进行模式匹配分类。特别地,在不同的语音内容识别探究中,在采用动态时间规整算法前,结合了K-means++算法以及主成分分析算法来对梅尔频率倒谱系数矩阵进行降维和聚类,以保证待匹配模板的维度相近或相同。结果表明,在相同语音内容的识别过程中,选择合适的阈值可以获得较好的识别效果。 相似文献
8.
卢丽萌 《辽宁大学学报(自然科学版)》2023,(1):38-44
由于噪声信号的干扰,导致机器人难以实现对微弱信号的远距离语音识别,影响最终的识别效果.为此,本文提出基于微信号增强的机器人远距离语音识别仿真研究.首先采用谱减法对微信号进行增强处理,由于语音信号中噪声功率谱具有一定的稳态属性,可估算出噪声的功率谱,再利用谱减计算求出纯净语音的功率谱,对傅里叶变换后的各个相位信号进行差异化赋权后,再对去噪功率谱进行拟合,完成对信号相位的恢复.在语音识别阶段,将增强后的原始语音信号分解为若干个独立的语音帧,在梅尔三角滤波器组中提取语音信号的Mel频谱参数,将其与语音频率之间的关系作为识别特征参数,最后利用梯度下降算法,在损失函数的约束下匹配与识别特征拟合度最高的内容,实现语音识别.仿真测试结果表明,本文提出的设计方法在噪声、不同信噪比、不同测试距离下对语音的识别率均达到了95.00%以上,与对照组相比具有更好的识别效果. 相似文献
9.
用于语音识别的减谱结合RASTA的抗噪声方法 总被引:1,自引:0,他引:1
主要论述加性和卷积性噪声条件下语音识别的抗噪方法.在特征提取阶段,用功率谱短时均值相减的谱减方法补偿加性噪声的影响,用在Mel频标倒谱域RASTA(relative specllral)滤波补偿卷积性噪声对语音识别系统的影响.在汉语非特定人孤立数字识别实验中,使用该方法的误识率比未使用该方法要低,并且需要很小的噪声先验知识和假设,运算简单.实验证明,提出的减谱结合RASTA的方法是一种比较有效地削减噪声的方法。 相似文献
10.
基于语音识别的说话人身份辨识系统 总被引:2,自引:0,他引:2
提出一种在小字库孤立语音条件下,集成语音识别与说话人的识别技术,并进行说话人身份代码(密码)识别、认证.利用语音信号的短时分析技术进行孤立词的单元分割,采用临界带特征矢量作为语音信号特征,分析了经典语音识别算法——动态时间规整算法,提出了对语音模板各帧加权的改进方法.为提高识别响应速度,研究了多门限多轮次的判决方法,在增加多套模板、提高识别率的情况下,降低了系统的响应时间. 相似文献
11.
从在中、低档微机上实现孤立词识别的角度,讨论了识别系统的设计和改善性能的问题。提出了综合利用语间的瞬态特性和动态特性进行两次匹配的新方案,加上其它改善性能的措施,缩短识别时间,增加识别准确率。样机巳在AppleⅡ微机上实时实现,用于汉语识别时,获得成功。 相似文献
12.
在混合激励线性预测 (mixed excitation linear prediction, MELP) 模型的基础上,以超帧为单位,采用多帧联合编码技术,分模式对子帧的语音特征参数进行联合量化,实现了一种码率为600 bit/s的声码器。为了进一步减小量化误差,设计出了一种基于高斯混合模型的预测分类分裂矢量量化器(predictive switched split vector quantization based on Gauss mixture model, GMM-PSSVQ),该量化器对超帧中某些子帧的线谱频率进行量化,并利用帧间预测和线性插值等方法提高编码效率。采用谱失真对设计的矢量量化器进行性能评估,并分别与多级矢量量化和预测分裂矢量量化算法进行性能比较;通过客观感知语音质量评估和主观判断韵字测试对实现的声码器进行性能测试。测试结果表明,设计的矢量量化器平均谱失真最低,实现的声码器合成语音具有较高的清晰度和可懂度。 相似文献
13.
SFCM模糊聚类在语音矢量量化中的应用 总被引:1,自引:1,他引:0
提出了一种模糊聚类分析算法SFCM,并将其用于语音特征的矢量量化,最终形成码本尺寸为256的码本。用SFCM算法得到的码本分布合理,没有空类,采用此码本的语音识别实验表明了这种量化方法对语音识别的有效性。 相似文献
14.
介绍了用有限态文法引导的基于连续密度隐马尔可夫模型(HMM)的连续汉语语音识别系统.分析了系统的组成,词语的HMM的训练方法和对识别系统的测试结果。实验表明,用有限态文法辅助进行连续语音识别是一种有效的策略;连续密度HMM与基于矢量量化的HMM/VQ相比需要较大的计算量,但可明显提高识别准确率。 相似文献
15.
本文评述了矢量量化法用于语音识别研究的现状,并提出一种新的识别方案——将考虑能量信息的多段码书矢量量化技术应用于汉语孤立词语音识别。实验证明该法确实可在保证较高识别精度的前提下,大大加快识别速度。 相似文献
16.
17.
利用语音短时谱变化相对较慢、其邻近LSP(LineSpectrumPair)失量存在充分相关这一特性,提出了一种新的谱编码方法,即LSP编码的一步插值预测矢量量化。本文设计了一个18bit/frame分裂矢量量化方案用于量化预测残差,当帧变化周期为30ms时,平均谱失真仅为1.178dB。 相似文献
18.
提出了一种LPC参数的M-L树形搜索多级矢量量化方案,其谱失真小于或接近1 dB,计算复杂度低,存储量小.计算机模拟表明,采用该方案对线谱对(LSPs)参数进行矢量量化,可提供透明质量的合成语音. 相似文献
19.
带有帧间级间预测的线谱频率参数多级矢量量化 总被引:2,自引:1,他引:1
为在极低速率下实现高质量的语音编码,提出一种高效的带有帧间及级间预测的线谱频率参数多级码本矢量量化(IFP-MSVQ-ISP)算法。算法利用多级矢量量化中上一级码本的选定码矢对残差矢量进行预测,对去除预测分量的残差矢量再进行下一级矢量量化。测试结果表明,这种带有多级码本级间预测的算法与无级间预测的算法相比,能够有效降低线谱频率参数的量化误差,使谱失真降低0.1 dB以上,合成语音客观MOS提高0.02以上。该算法的实现对极低速率下语音压缩编码算法的研究具有重要的参考价值。 相似文献
20.
本文提出了一种基于模糊矢量量化(FVQ)和隐马尔柯夫模型(HMM)模糊训练的语音识别新方法.利用模糊矢量量化替代了传统方法中的矢量量化,语音特征参数序列经过模糊矢量量化后得到模糊观察符号序列.在此基础上提取出一个反映训练样本总体随机变化特性的模糊观察符号序列,然后用它对该音节的HMM进行一次性全局训练,训练算法经传统的Baum-Welch算法改进得到.经十个汉语数字的对比实验表明,该训练算法大大提高了系统的训练速度,模糊矢量量化与传统的矢量量化相比,不仅提高了隐马尔柯夫模型的鲁棒性,进而提高了系统的识别率,而且在语音训练数据不充足的情况下,也能得到很好的识别性能. 相似文献