首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
随着深度学习理论的兴起,BLSTM-CTC模型成为目前主流的语音识别声学模型之一.本文借鉴国内外语音识别框架,结合藏语言文字特点,提出基于BLSTM-CTC模型的藏语语音识别方法.该方法以识别非特定人藏语连续语音为目标,通过提取语音的MFCC特征参数,建立了以音素为建模单元的藏语语音声学模型.在不同建模单元下LSTM-CTC模型和BLSTM-CTC模型的对比实验表明,该方法能够充分利用上下文信息,具有较强的建模能力和语音识别效果.  相似文献   

2.
光学字符识别(optical character recognition,OCR)技术在图书数字化、文献管理等诸多领域得到了广泛应用,而相比于已十分成熟的中文、英文印刷体识别系统,小文种(维吾尔文)印刷体识别还有研究空间和实际应用需求.针对传统识别方法特征表示不足等问题,结合日益兴起的深度学习技术,采用Python语言...  相似文献   

3.
随着人工智能行业的不断发展,智能语音问答技术逐步得到国内外学者的广泛关注和研究,但是语音识别方面仍然存在两个技术瓶颈,第一是语音识别系统,第二是根据识别的语音进行问题的回答。基于此,开展了基于深度学习的智能语音问答系统研究。首先介绍了基于隐马尔科夫模型的语音识别系统,然后研究了基于梅尔频率的语音信号特征提取技术,并建立了声学和语言模型,最后研究了基于GRU算法的问答匹配模型,并基于以上模型开发了智能语音问答系统。经实际实验验证分析,文章所提出的算法在语音识别和问答的准确度方面都相比传统算法具有很高的精确度,本算法具有较大的实用价值。  相似文献   

4.
说话人识别中改进的MFCC参数提取方法   总被引:1,自引:0,他引:1  
何朝霞 《科学技术与工程》2011,18(18):4215-4218,4227
在说话人识别技术中,特征参数的提取对语音训练和识别有着非常重要的作用。而Mel频标倒谱系数MFCC是一种常用的特征,它能对语音信号进行分析处理,去除对语音识别无关紧要的冗余信息,获得影响语音识别的重要信息。同时由于语音信号具有时变和混沌特性,以非线性随机共振理论和人类对听觉的理解为基础,提出了一种基于随机共振的MFCC特征参数提取方法。通过实验比较两种方法的结果,论证了改进方法的可行性以及优越性,为说话人识别技术中特征参数提取提供了一条新的研究方向。  相似文献   

5.
采用对系统的基底坐标变换后,可以使一个非线性系统在输入输出特性上与线性系统等价。文中给出了这种等价变换的条件、计算方法和步骤。等价的线性系统采用可控标准型,并引入可任意配置的系数。这样,就可以利用线性系统的理论对系统进行极点配置得到所期望的特性,为非线性控制系统的设计提供了一种新的方法。作者最后对某种非线性控制系统,用上述方法进行设计,并用仿真结果验证了这种方法的可行性。  相似文献   

6.
以模糊集理论为基础,提出了一种汉语指令识别的模糊语音描述和模糊匹配算法,在语音信号的时间规整中,使用一种改进的非线性帧数规整算法,在40条指令的识别实验中,正确率达93%以上。  相似文献   

7.
根据语音发声过程中的混沌特性,应用非线性动力学模型分析情感语音信号,提取了该模型下情感语音信号的非线性特征以及常用的声学特征(韵律特征和MFCC).设计情感语音识别对比实验,将非线性特征与不同声学特征融合并验证了该组合下的情感识别性能,研究了语音信号混沌特性对情感语音识别性能的影响.实验选用德国柏林语音库4种情感(高兴、愤怒、悲伤和中性)作为语料来源,支持向量机网络用于情感识别.结果表明,非线性特征有效表征了情感语音信号的混沌特性,与传统声学特征结合后,情感语音识别性能得到了显著提高.  相似文献   

8.
随着大数据及设备超强运算能力的出现,语音识别系统的性能得到了大幅提升.但在低资源语音识别研究中,由于缺乏足够的训练数据,模型很容易出现过拟合、识别精度低等问题.为此,提出了采用元度量学习方法来解决低资源环境下的语音难识别问题,该方法是先将大量类似且不相交的任务用于模型训练,让模型从中学会如何比较样本相似性;最后再在新任务中通过计算样本的相似度来识别未知样本.实验表明:元度量学习方法能够有效避免模型过拟合、提升模型泛化能力,实验在低资源语言(佤语和普米语)孤立词语音识别中均取得了显著的识别效果.  相似文献   

9.
在源数据不充分或不平衡的情况下,深度学习方法在小样本集上难以取得令人满意的语音情感识别效果。因此,本研究构造了一种三层随机森林情感识别网络,在每一层都单独剥离易于区分的情感类别,并通过重要性评分方法,为每一层网络都构造一个识别特定类别的特征集,该特征集的每一个特征都依据贡献度大小得到赋权,以确保对分类贡献越多的特征因子对结果影响越大。本研究构建的多级情感识别网络,在小样本集语音情感识别的整体识别率上,较单层随机森林网络和支持向量机分别提高了5%和7%,较流行的深度学习方法卷积神经网络提高了12%。实验结果和理论分析表明:基于重要性评分的多级随机森林网络相较于其他方法,在源数据样本量较少和部分不平衡的情况下,有更高的识别准确率,具有语音情感识别方向的实际应用意义。  相似文献   

10.
高扬  王晨  李昭健 《科学技术与工程》2021,21(24):10401-10406
车道线检测是实现当前汽车辅助驾驶和未来无人驾驶汽车的关键,深度学习技术在近年来迅猛发展,在图像识别、图像分割、语音识别及数据预测等方面都取得了出色成绩。结合深度学习技术对无人驾驶汽车环境感知中的车道线检测进行了相应的研究,提出一种基于深度学习的车道线识别算法。对比研究已有算法,针对其中的信息融合问题,提出了一种新的特征图上下文信息融合方法,将该方法与VGG(Visual Geometry Group)网络相结合提出融合上下文信息的车道线识别网络VGG-FF,进一步加入空洞卷积提出融合空洞卷积及上下文信息的车道线识别网络VGG-FFD。将该网络模型在公开数据集以及自制数据集上进行了性能测试,实验结果表明该模型具有良好的识别效果。  相似文献   

11.
语音关键词识别技术作为语音识别的重要分支在20世纪90年代逐渐被重视起来,时至今日,语音关键词识别技术已经被应用到车内语音命令识别、机器人交互及特殊语音筛选等众多领域。本文给出了语音关键词识别技术的整体模型及性能评价指标,综述了语音关键词识别系统声学模型构建技术的现状,详细总结了语音关键词识别系统声学模型构建技术,并重点总结了深度学习在声学模型构建上的应用。最后对语音关键词识别技术的发展前景进行了讨论,认为深度学习隐马尔科夫混合模型作为连续语音识别中最成熟的模型构建技术将在关键词识别中有更多应用,循环神经网络有可能凭借其序列训练能力成为更有效的模型构建技术,而大计算量、云平台及便携可穿戴将会成为语音关键词识别技术发展的主流方向。  相似文献   

12.
大数据时代为深度学习在语音识别中的应用提供了良好的平台.本文介绍了用于语音识别的深度学习模型及用于语音识别的深度学习的学习过程.语音识别技术中特征提取、模式匹配和模型训练都离不开大量训练数据的积累和匹配,而数据的可靠和有效依赖于算法的可行性.在大数据基础上,深度学习用于语音识别大大提高了识别率.  相似文献   

13.
针对基于深度学习的人脸识别这一生物特征识别领域的研究热点进行了综述.阐释了人脸识别及深度学习模型的基本结构;总结了该技术在国内外的研究现状及其应用,如基于卷积神经网络(CNN)的人脸识别方法、深度非线性人脸形状提取方法、基于深度学习的人脸姿态鲁棒性建模、有约束环境中的全自动人脸识别、基于深度学习的视频监控下的人脸识别、基于深度学习的低分辨率人脸识别以及其他基于深度学习的人脸信息的识别等;分析了当前人脸识别技术在深度学习应用中存在的问题及发展趋势.  相似文献   

14.
作为一种人机信息交互技术,语音识别技术得到了广泛的应用。介绍了基于凌阳十六位单片机SPCE061A的语音识别系统,并且采用了以传统的线性预测倒谱系数(LPCC)与分形维数相结合的混合参数作为特征参数的语音识别方法。LPCC方法是体现说话人特定的声道共振特性的线性预测方法,而分形维数则可以定量的描述语音气流中的非线性混沌特征。实验结果表明,基于LPCC与分形维数混合参数的语音识别方法要比单一的LPCC参数语音识别方法识别效果好。  相似文献   

15.
作为一种人机信息交互技术,语音识别技术得到了广泛的应用.介绍了基于凌阳十六位单片机SPCE061A的语音识别系统.并且采用了以传统的线性预测倒谱系数(LPCC)与分形维教相结合的混合参数作为特征参数的语音识别方法.LPCC方法是体现说话人特定的声道共振特性的线性预测方法,而分形维数则可以定量的描述语音气流中的非线性混沌特征.实验结果表明,基于LPCC与分形维数混合参数的语音识别方法要比单一的LPCC参数语音识别方法识别效果好.  相似文献   

16.
语音信号非线性特征的研究   总被引:4,自引:0,他引:4       下载免费PDF全文
随着研究的深入,语音信号的非线性特征逐渐被人们发现,传统的基于分段线性的语音信号处理方法存在局限性,因此用非线性方法对语音信号进行处理对于提高处理质量相当重要。文章介绍了非线性理论在语音信号处理中的一些应用,首先采用延时相图法重构语音的混沌吸引子,然后用分形维数、Lyapunov指数等非线性动力学参数反映语音信号的非线性特征,设计计盒维数算法并行运用于语音分割,最后根据语音信号时域波形分形结构设计  相似文献   

17.
为进一步改善输油管道泄漏的检测方法, 概述了目前一些常用的输油管道泄漏检测方法, 如直接检测 法、 负压波检测法和基于神经网络的检测方法等。 分析了这些检测方法在应用时的优缺点。 然而, 随着对输油 管道泄漏检测要求的提高, 这些检测方法不能满足人们的要求, 仍需要进一步改善。 同时, 将深度学习引入了 输油管道的泄漏检测中。 深度学习是在神经网络基础上的进一步发展, 它在许多方面上的应用弥补了该应用 基于神经网络方法存在的不足。 其中, 深度学习已经在图像和语音识别应用中取得了成功。 这些情况为以后 将深度学习应用于输油管道的泄漏检测提供了部分理论支持。  相似文献   

18.
裂纹识别一直是机器视觉领域的重要研究内容,尤其是与之相关的自动检测算法在近年来备受关注。深度学习作为机器学习的一个分支,其在裂纹识别方面已显现出强大的功能和灵活性。本文对基于机器学习的裂纹识别技术的发展情况、研究现状以及典型方法进行详细介绍:首先介绍了多种机器学习方法在裂纹识别领域的应用,并从特征提取算法和应用对象等方面介绍了支持向量机(Support Vector Machine, SVM)、K最近邻(K-Nearest Neighbor, KNN)、神经网络、决策树和随机森林等常用的分类器;其次,从网络模型、数据集和应用对象等方面介绍了深度学习方法在裂纹识别领域的应用。同时,本文还对近20年(2000-2020年)的81篇相关文献进行对比分析,认为未来金属裂纹的识别依旧是热门研究,多种算法的混合会逐渐替代单一算法成为今后的发展方向。  相似文献   

19.
阐述了Mel谱失真测度的概念,指出用Mel频率尺度可较充分地反映人耳对频率及幅度的非线性感知特性。在此基础上,针对孤立词语音识别,对常规LP倒谱特征提取方法进行改进,即将LP倒谱按符合人耳听觉特性的Mel尺度进行非线性变化,得到LP Mel倒谱系数(LPM-CC)作为特征参数。识别网络使用RBF神经网络,进行了孤立词语音识别。实验结果表明此种方法抗噪性能好,识别效率高。  相似文献   

20.
根据听觉语音学的知识,提出使用稀疏自动编码器在MFCC特征基础上进行深度学习,提取了深度特征模仿听觉神经的稀疏触动信号,有利于HMM模型语音识别精度的提高.实验结果显示,学习到的深度特征较MFCC特征在藏语语音识别正确率方面有明显提高.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号