首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
针对Attention过于灵活的对齐方式在复杂环境中适应性差、简单端到端模型对语言特征利用不充分的问题,研究了基于多任务损失附加语言模型的语音识别方法.通过分析语音信号特征,训练中选用包含更多信息的特征.以基于Attention的Conformer端到端模型为基础,采用CTC损失辅助纯Conformer (Attention)的多任务损失训练模型,得到Conformer-CTC语音识别模型.在Conformer-CTC模型基础上,通过分析对比部分语言模型的特点与效果,将Transformer语言模型通过重打分机制附加至上述模型的训练中,最终得到Conformer-CTC-Transformer语音识别模型.在AISHELL-1数据集上对上述模型进行了试验.结果表明:Conformer-CTC模型相对于纯Conformer (Attention)模型在测试集上的字错率(character error rate,CER)降低了0.49%,而Conformer-CTC-Transformer模型相对于Conformer-CTC模型在测试集上的CER又降低了0.79%.CTC损失可以改善Att...  相似文献   

2.
为了更好地对道地药材产地进行识别,文中提出一种激光诱导击穿光谱(Laser-induced breakdown spectroscopy, LIBS)技术与卷积神经网络(Convolutional neural networks, CNN)相结合,并在网络结构中加入卷积块注意力模块(Convolutional block attention module, CBAM)的药材产地识别混合模型(CNN-CBAM).该模型采用端到端的网络结构,利用CNN挖掘数据中的深层特征,通过加入注意力机制来提升网络的特征提取能力.实验采集5个不同产地黄芪的LIBS光谱数据,通过构建的混合模型对测试集的识别精度进行评估,发现相较于未改进的CNN模型以及传统机器学习中的支持向量机和随机森林算法模型,改进后的CNN在测试集上的准确率可达到100%.研究结果证明了LIBS技术结合CNN-CBAM网络模型对中药材产地进行准确识别的有效性.  相似文献   

3.
近年来随着网络和语音处理技术的快速发展,分布式语音识别(DSR)成为语音处理的一个研究方向,与传统集中式语音识别不同的是:它基于Client/Server模型,在Client端进行参数的提取,然后通过信道传送到Server端进行识别,把结果送回到Client端。文中介绍基于LAN所设计的DSR系统。  相似文献   

4.
提出一种基于注意力叠加与时序特征融合的目标检测方法.在端到端目标检测(DETR)网络的基础上,依据注意力机制特性,使用注意力权重叠加的方式提取目标物像素级标识,用于实例轨迹的划分.为使目标检测与轨迹跟踪协同作用,通过时序特征融合的方式融合之前轨迹跟踪信息,调整当前帧目标检测效果,从而充分利用视频载体提供的时间维度信息.在公开数据集上,对文中方法进行验证,结果表明:文中方法能有效识别被遮挡的目标物,具有较强鲁棒性.  相似文献   

5.
针对现有的深度学习模型在语音频带扩展领域数据特征利用不充分、训练周期长以及生成语音质量不高等问题,提出了一种新型的端到端神经网络模型,该模型通过融合不同数据维度特征促使网络模型利用更少的数据特征量,获取更多的低高频映射关系解,从而减少模型的整体训练周期.为了提高长时序数据中关键特征的权重占比,设计了一种残差多头自注意力机制,从而达到数据特征利用率的最大化.此外,提出了一种基于时频域和Mel频谱的混合损失函数对模型进行优化.实验结果表明:该方法重构的宽带语音在主客观的评价中均优于传统方法和近年来的一些基于神经网络的语音频带扩展方法.  相似文献   

6.
图像压缩是图像处理领域重要的基础支撑技术之一。近年来,深度学习被用于解决图像压缩任务。潜在表示特征的冗余和概率估计的不准确往往会限制压缩性能的进一步提高。为了改善这类问题,提出一种基于注意力机制和离散高斯混合模型的端到端图像压缩方法。将全局上下文注意力模块嵌入到编码器,旨在构造紧凑的潜在表示特征。同时,将潜在表示特征建模为参数化的离散高斯混合模型,用于提高码率估计的准确度。实验结果表明,提出的算法无论在峰值信噪比(peak signal noise rate,PSNR)还是多尺度结构相似度(multi-scale structural similarity,MS-SSIM)指标上都高于传统方法。在视觉感知上,提出的图像压缩算法能产生更令人满意的压缩图像。  相似文献   

7.
随着深度学习技术的发展,文字识别与自然语言处理近年来受到广泛关注.结合文字识别与自然语言处理技术解决传统方法无法处理的问题,成为企业提高自身竞争力的重要利器.自然场景文字识别分为文字的检测和识别,两者缺一不可.本研究针对传统算法存在准确率低、识别速度慢及模型不轻量化等问题,提出一种基于DBNet的检测算法,结合CRNN的识别算法,辅以CTC loss来实现端到端的企业实体识别.此外,增加命名实体识别模块,提升了识别的准确度.在实验阶段,选择准确率(Precision, P)和识别速率(False Alarm, FA)作为评价指标,实验结果表明,本算法在数据集上,有较高的准确率和较快的识别速率,验证了所提出的改进方法并具有较好的效果.  相似文献   

8.
针对连接时序分类模型需具有输出独立性的假设,对语言模型的依赖性强且训练周期长的问题,提出一种基于连接时序分类模型的语音识别方法.首先,基于传统声学模型的框架,利用先验知识训练基于注意力机制的语谱图特征提取网络,有效提高了语音特征的区分性和鲁棒性;其次,将语谱图特征提取网络拼接在连接时序分类模型的前端,并减少模型中循环神经网络层数进行重新训练.测试分析结果表明,该改进模型缩短了训练时间,有效提升了语音识别准确率.  相似文献   

9.
语音情感识别是实现自然人机交互的重要组成部分,传统语音情感识别系统主要集中于特征提取和模型构建。本文提出一种将深度神经网络直接应用于原始信号的语音情感识别方法。原始语音数据携带了语音信号的情感信息、二维空间信息和时序上下文信息。建立的模型以端到端的方式进行训练,网络自动学习原始语音信号的特征表示,无需手工特征提取步骤。该网络模型同时兼顾了CNN和BLSTM 2种神经网络的优点。利用CNN从原始语音数据中学习空间特征,其后添加一个BLSTM学习上下文特征。为了评估该模型的有效性,在IEMOCAP数据库上进行识别测试,获得的WA和UA分别为71.39%、61.06%。此外,与基线模型进行对比,验证了提出方法的有效性。  相似文献   

10.
针对传统滚动轴承故障诊断中复杂的特征提取问题,利用深层残差网络能够增强诊断模型非线性表征能力的特点,通过引入通道注意力与空间注意力机制,提出一种基于多注意力机制端到端的滚动轴承智能故障诊断方法。首先,通过原始振动加速度信号经过积分运算得到速度和位移;然后,将3者组合成具有特征增强的图像,输入至结合了多注意力机制的深层残差网络实现特征提取;最后,利用多分类函数完成滚动轴承故障分类。在本地实验室轴承数据集上进行了验证,结果表明,所提方法的诊断准确率达到了97.50%。验证了基于多注意力机制端到端的滚动轴承智能故障诊断方法的可行性和有效性,可为滚动轴承的精确故障诊断提供支持。  相似文献   

11.
作为一种人机信息交互技术,语音识别技术得到了广泛的应用.介绍了基于凌阳十六位单片机SPCE061A的语音识别系统.并且采用了以传统的线性预测倒谱系数(LPCC)与分形维教相结合的混合参数作为特征参数的语音识别方法.LPCC方法是体现说话人特定的声道共振特性的线性预测方法,而分形维数则可以定量的描述语音气流中的非线性混沌特征.实验结果表明,基于LPCC与分形维数混合参数的语音识别方法要比单一的LPCC参数语音识别方法识别效果好.  相似文献   

12.
吴兰  杨攀  李斌全  王涵 《广西科学》2023,30(1):52-60
视听语音识别(Audio-Visual Speech Recognition,AVSR)技术利用唇读和语音识别(Audio-Visual Speech Recognition,AVSR)的关联性和互补性可有效提高字符识别准确率。针对唇读的识别率远低于语音识别、语音信号易受噪声破坏、现有的视听语音识别方法在大词汇量环境噪声中的识别率大幅降低等问题,本文提出一种多模态视听语音识别(Multi-modality Audio-Visual Speech Recognition,MAVSR)方法。该方法基于自注意力机制构建双流前端编码模型,引入模态控制器解决环境噪声下音频模态占据主导地位而导致的各模态识别性能不均衡问题,提高识别稳定性与鲁棒性,构建基于一维卷积的多模态特征融合网络,解决音视频数据异构问题,提升音视频模态间的关联性与互补性。与现有主流方法对比,在仅音频、仅视频、音视频融合3种任务下,该方法的识别准确率提升7.58%以上。  相似文献   

13.
针对藏文图像文本识别在Android系统上的应用问题,提出了一种基于混合注意力机制神经网络模型(CBAM-LeNet-5)的藏文图像文本识别方法,并采用Android平台研发了APP,实现印刷体藏文文本图像预处理、字丁分割以及识别等功能.经实验,改进后的网络模型比传统的LeNet-5模型识别率提高了2.36个百分点,表...  相似文献   

14.
随着科学技术的迅速发展,基于深度学习生成的合成语音给语音认证系统和网络空间安全带来了新的挑战。针对现有检测模型准确率较低和语音特征挖掘不够充分的问题,提出了一种基于Involution算子和交叉注意力机制改进的合成语音检测方法。前端将语音数据提取线性频率倒谱系数(LFCC)特征和恒定Q变换(CQT)谱图特征,两个特征分别输入到后端的双分支网络中。后端网络使用ResNet18作为主干网络先进行浅层的特征学习,并将Involution算子嵌入主干网络,扩大特征图像学习区域,增强在空间范围内学习到的频谱图像特征信息。同时在训练分支之后引入cross-attention交叉注意力机制,使LFCC特征和CQT谱图特征构建交互的全局信息,强化模型对特征的深层挖掘。所提模型在ASVspoof 2019 LA测试集上取得了0.84%的等错误率和0.026的最小归一化串联检测代价函数的实验结果,展现了优于主流的检测模型。结果表明,改进的模型能够有效融合不同的频谱特征,提高模型的特征学习能力,从而强化模型的检测能力。  相似文献   

15.
营运驾驶员长时间疲劳驾驶是导致事故发生的重要原因,为此,企业在营运车辆上安装相机采集驾驶员面部视频,基于模型和算法自动识别驾驶员的疲劳状态,通过语音提醒甚至启用远程护航进行疲劳干预,以此提高驾驶安全。现有的疲劳检测研究大多数都是基于面部关键点检测的算法,该类算法对面部视频的质量要求严格。在真实的营运行车环境中,夜晚光线过差,相机位置安装不理想,驾驶员面部遮挡等均会造成关键点检测失效,从而影响模型的准确性。基于卷积神经网络(CNN)和长短时记忆神经网络(LSTM)设计了一种端到端营运驾驶员疲劳检测模型,该模型以相机采集的驾驶员面部视频作为输入,使用CNN网络提取视频单帧特征,在此基础上将时序单帧特征作为LSTM网络的输入来最终识别驾驶员的疲劳状态,实验表明,模型的接收者操作特征曲线下面积(AUC)为0.9,远优于现有的面部关键点模型。此外,为了提高该模型在实际行车环境中的鲁棒性,基于光线变化及相机变化的模拟操作在训练数据上进行了数据增强,通过模型重训练进一步提高了模型的精度及鲁棒性。实验结果表明,改进前,营运车辆行车环境下模型的AUC相比实验室模型下降37.3%,而改进后AUC仅下降9....  相似文献   

16.
针对现代化工过程中数据非线性、高维度以及动态时序等特点,传统的故障诊断模型对化工过程的故障诊断精度较低.基于此,设计了一种基于改进的长短时记忆神经网络(LSTM)故障诊断方法.首先,将采集的故障数据输入卷积神经网络(CNN),对数据进行特征提取和降维;其次,将处理过的数据输入改进的LSTM网络,进行深层特征提取;最后,把提取的深层特征信息输入到注意力机制进行特征“聚焦”,实现特征融合后输入softmax分类器实现故障分类.由田纳西-伊斯曼(TE)过程诊断实验结果表明,基于改进的LSTM网络的故障诊断方法在故障分类精度、训练速度方面都更优于递归神经网络(RNN)、门控循环神经网络(GRU)、卷积神经网络(CNN)和深度自编码网络(DAEN),在实际化工过程的应用有一定的优势.  相似文献   

17.
低资源条件下的语音关键词检测是一个具有挑战性的问题,因为传统的基于大词汇量连续语音识别(LVCSR)的语音关键词检测方法不再适用.针对此问题提出了一种基于深度神经网络(DNN)输出层后验概率特征和改进的动态时间规整(DTW)算法的语音关键词检测方法.采用无监督高斯混合模型(GMM)和中、英文DNN音素模型得出的输入特征构建互补的子系统,并在SWS2013多语种数据集上进行实验.结果表明:相对于基线系统,分数层面的多语种、多系统融合能够有效地提升语音关键词检测系统的性能.  相似文献   

18.
研究一种基于神经网络的端到端中文语音识别算法.算法将语音信息处理为频谱图,基于频谱图,设计和实现一种基于卷积神经网络和循环神经网络的深度学习模型结构用于中文语音识别.模型以汉字作为标签样本,运用训练算法和序列损失函数进行模型迭代训练最终模型;采用开源数据集,通过实验验证网络结构对识别效果的影响,同时对比传统的语音识别算...  相似文献   

19.
光学乐谱识别是音乐信息检索中一项重要技术,音符识别是乐谱识别及其关键的部分.针对目前乐谱图像音符识别精度低、步骤冗杂等问题,设计了基于深度学习的端到端音符识别模型.该模型利用深度卷积神经网络,以整张乐谱图像为输入,直接输出音符的时值和音高.在数据预处理上,通过解析Music XML文件获得模型训练所需的乐谱图像和对应的标签数据,标签数据是由音符音高、音符时值和音符坐标组成的向量,因此模型通过训练来学习标签向量将音符识别任务转化为检测、分类任务.之后添加噪声、随机裁剪等数据增强方法来增加数据的多样性,使得训练出的模型更加鲁棒;在模型设计上,基于darknet53基础网络和特征融合技术,设计端到端的目标检测模型来识别音符.用深度神经网络darknet53提取乐谱图像特征图,让该特征图上的音符有足够大的感受野,之后将神经网络上层特征图和该特征图进行拼接,完成特征融合使得音符有更明显的特征纹理,从而让模型能够检测到音符这类小物体.该模型采用多任务学习,同时学习音高、时值的分类任务和音符坐标的回归任务,提高了模型的泛化能力.最后在Muse Score生成的测试集上对该模型进行测试,音符识别精度高,可以达到0.96的时值准确率和0.98的音高准确率.  相似文献   

20.
知识抽取任务是从非结构化的文本数据抽取三元组关系(头实体-关系-尾实体)。现有知识抽取方法分为流水式方法和联合抽取方法。流水式方法将命名实体识别和实体知识抽取分别用各自的模块抽取,这种方式虽然有较好的灵活性,但训练速度较慢。联合抽取的学习模型是一种通过神经网络实现的端到端的模型,同时实现实体识别和知识抽取,能够很好地保留实体和关系之间的关联,将实体和关系的联合抽取转化为一个序列标注问题。基于此,本文提出了一种基于字词混合和门控制单元(Gated Recurrent Unit, GRU)的科技文本知识抽取(MBGAB)方法,结合注意力机制提取中文科技资源文本的关系;采用字词混合的向量映射方式,既在最大程度上避免边界切分出错,又有效融入语义信息;采用端到端的联合抽取模型,利用双向GRU网络,结合自注意力机制来有效捕获句子中的长距离语义信息,并且通过引入偏置权重来提高模型抽取效果。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号