首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 156 毫秒
1.
音视频信息融合可以提升机器人在噪声环境下的语音识别性能。然而受说话者的头部旋转、唇部尺寸不一、距摄像头距离不固定以及光照等因素影响,唇部信息不能得到有效的全面表征。该文提出融合机器人与Kinect的多模态系统。该系统采用Kinect获取3-D数据和视觉信息,并使用3-D数据重构侧唇来补充音视频信息。一系列基于特征融合和决策融合方法的结果表明:该文提出的多模态系统优于基于音视频单流和双流的语音识别系统,能够辅助机器人在自身噪声环境下的语音识别。  相似文献   

2.
钟维幸  王海荣  王栋  车淼 《广西科学》2022,29(4):681-690
针对现有多模态命名实体识别(Multimodal Named Entity Recognition,MNER)研究中存在的噪声影响和图文语义融合不足问题,本文提出一个多模态语义协同交互的图文联合命名实体识别(Image-Text Joint Named Entity Recognition,ITJNER)模型。ITJNER模型加入图像描述作为额外特征丰富了多模态特征表示,图像描述可以帮助过滤掉从图像特征中引入的噪声并以文本形式总结图像语义信息;还构建了多模态协同交互的多模态语义融合模型,可以加强多模态信息融合,并减少图像信息的语义偏差。在Twitter-2015和Twitter-2017数据集上进行方法实验,分析实验结果并与AdaCAN、UMT、UMGF、Object-AGBAN等方法进行对比。相较于对比方法中的最优方法UMGF,本方法在Twitter-2017数据集上的准确率、召回率、F1值分别提高了0.67%、2.26%、0.93%;在Twitter-2015数据集上,召回率提高了0.19%。实验结果验证了本方法的有效性。  相似文献   

3.
现有的语音-人脸跨模态关联学习方法在语义关联和监督信息方面仍然面临挑战,尚未充分考虑语音与人脸之间的语义信息交互。为解决这些问题,提出一种基于多模态共享网络的自监督关联学习方法。首先,将语音和人脸模态的特征映射到单位球面,构建一个公共的特征空间;接着,通过多模态共享网络的残差块来挖掘复杂的非线性数据关系,并利用其中权重共享的全连接层来增强语音与人脸特征向量之间的关联性;最后,使用K均值聚类算法生成的伪标签作为监督信号来指导度量学习,从而完成4种跨模态关联学习任务。实验结果表明,本文提出的方法在语音-人脸跨模态验证、匹配和检索任务上均取得了良好的效果,多项评价指标相较于现有基线方法提升1%~4%的准确率。  相似文献   

4.
为了通过设置辅助任务学习到更具有情感倾向性的视频和语音表示, 进而提升模态融合的效果, 提出一种基于多任务学习的多模态情感识别模型, 使用多模态共享层来学习视觉和语音模型的情感信息。在MOSI数据集和MOSEI数据集上的实验表明, 添加两个辅助的单模态情感识别任务后, 模型可以学习到更有效的单模态情感表示, 并且在两个数据集上的情感识别准确率比目前性能最佳的单任务模型分别提升0.8%和2.5%。  相似文献   

5.
为了解决多模态数据中数据样本不平衡的问题,利用资源丰富的文本模态知识对资源贫乏的声学模态建模,构建一种利用辅助模态间相似度监督训练的情绪识别神经网络。首先,使用以双向门控单元为核心的神经网络结构,分别学习文本与音频模态的初始特征向量;其次,使用SoftMax函数进行情绪识别预测,同时使用一个全连接层生成2个模态对应的目标特征向量;最后,利用该目标特征向量计算彼此之间的相似度辅助监督训练,提升情绪识别的性能。结果表明,该神经网络可以在IEMOCAP数据集上进行情绪4分类,实现了82.6%的加权准确率和81.3%的不加权准确率。研究结果为人工智能多模态领域的情绪识别以及辅助建模提供了参考依据。  相似文献   

6.
暴力事件检测是视频内容智能分析的一个常见任务,在互联网视频内容审查、影视作品分析、安防视频监控等领域有重要应用.面向视频中暴力检测任务,提出了一个包含关系网络和注意力机制的方法来融合视频中的多模态特征,该方法首先使用深度学习提取视频中多个模态特征,如音频特征、光流特征、视频帧特征,接着组合不同的模态特征,利用关系网络来建模多模态之间的关系;然后基于深度神经网络设计了多头注意力模块,学习多个不同的注意力权重来聚焦视频的不同方面,以生成区分力强的视频特征.该方法可以融合视频中多个模态,提高了暴力检测准确率.在公开数据集上训练和验证的实验结果表明,提出的多模态特征融合方法,与仅使用单模态数据的方法和现有多模态融合的方法相比,具有明显的优势,检测准确率分别提升了4.89%和1.66%.  相似文献   

7.
基于语音信号与心电信号的多模态情感识别   总被引:1,自引:0,他引:1  
通过采集与分析语音信号和心电信号,研究了相应的情感特征与融合算法.首先,通过噪声刺激和观看影视片段的方式分别诱发烦躁情感和喜悦情感,并采集了相应情感状态下的语音信号和心电信号.然后,提取韵律、音质特征和心率变异性特征分别作为语音信号和心电信号的情感特征.最后,利用加权融合和特征空间变换的方法分别对判决层和特征层进行融合,并比较了这2种融合算法在语音信号与心电信号融合情感识别中的性能.实验结果表明:在相同测试条件下,基于心电信号和基于语音信号的单模态情感分类器获得的平均识别率分别为71%和80%;通过特征层融合,多模态分类器的识别率则达到90%以上;特征层融合算法的平均识别率高于判决层融合算法.因此,依据语音信号、心电信号等不同来源的情感特征可以构建出可靠的情感识别系统.  相似文献   

8.
针对单模态生物特征识别容易受自身条件和环境变化的影响,鉴于人脸识别和指纹识别已经在生物识别系统中得到了广泛应用,提出了二者特征信息融合的多模态生物特征识别方法。该方法首先对人脸、指纹图像进行预处理,并对这两种模态均提取LBP和Gabor特征,然后将广义典型相关分析方法分别引入到人脸多特征融合和指纹多特征融合中,应用分块对角矩阵组合上述融合的人脸特征和指纹特征,最后用鲁棒概率协同表示分类器进行分类。在两个多模态数据库上的实验结果表明:与人脸或指纹单模态生物特征识别相比,基于人脸指纹的多模态生物特征识别具有更高的识别率和更好的稳定性;所提出的基于广义典型相关分析的特征融合方法优于传统的融合方法。  相似文献   

9.
智慧园区的建设推动着企业与城市的发展,传统的园区管理方式已不再适用于产业融合创新的智慧园区。以曹家滩园区为例,设计智慧园区平台总体框架,针对园区中身份识别存在识别环境差、效率低、准确率低等问题,提出一种基于多模态多核学习的身份识别算法。所提算法将视频数据中的数据分为图像、音频,并采集个人信息的文本,并将三种模态的信息输入同一样本空间中,通过引入间隔约束的多核学习算法,保留不同模态的差异性和相似性,并进行特征融合与决策融合,最终采用分类器与评分机制输出身份识别结果。通过公开的视频数据集与曹家滩园区数据集进行实验,实验结果表明本文所提算法最高准确率达到97.2%,与传统算法相比有较大优势。  相似文献   

10.
自适应权重的双模态情感识别   总被引:1,自引:0,他引:1  
情感识别是人机交互领域的重要问题之一.语音和脸部肌肉动作信息是用于情感识别的2个最重要的模态.该文认为,在双模态情感识别中,给不同的特征赋予不同的权值有利于充分利用双模态信息,提出了一种基于Boosting算法的双模态信息融合方法,它能够自适应地调整语音和人脸动作特征参数的权重,从而达到更好的识别效果.实验表明,该方法能够更好地区分易混淆的情感状态,情感识别率达84%以上.  相似文献   

11.
根据语音的发声特点,基于分析语音信号中的基音频率和语音之间的关系,提出一种在强噪声环境下实现提高语音识别率的方法,并对基于基音频能值的端点检测算法和传统语音端点检测算法进行比较.实验结果表明该方法不仅能够有效提高语音段的检测率,同时还具有计算量小、实时性高、不受噪声影响即鲁棒性好等特点.  相似文献   

12.
Automatic speech recognition under conditions of a noisy environment remains a challenging problem. Traditionally, methods focused on noise structure, such as spectral subtraction, have been employed to address this problem, and thus the performance of such methods depends on the accuracy in noise estimation. In this paper, an alternative method, using a harmonic-based spectral reconstruction algorithm, is proposed for the enhancement of robust automatic speech recognition. Neither noise estimation nor noise-model training are required in the proposed approach. A spectral subtraction integrated autocorrelation function is proposed to determine the pitch for the harmonic model. Recognition results show that the harmonic-based spectral reconstruction approach outperforms spectral subtraction in the middle- and lowsignal noise ratio (SNR) ranges. The advantage of the proposed method is more manifest for non-stationary noise, as the algorithm does not require an assumption of stationary noise.  相似文献   

13.
在实际应用中,噪声干扰导致语音识别性能急剧下降。针对该问题,本文分析传统方法并提出相应的系统解决方案:采用小波变换对语音信号进行前端处理,以MFCC声道特征结合基频(F0)韵律特征来提高识别系统的鲁棒性。实验结果表明:小波变换能有效地消除噪声影响,经小波降噪处理后,使得F0-MFCC联合模型能更好的识别语音。可以看出在噪声环境下系统的综合性能得到很大改善。  相似文献   

14.
语音增强用于抗噪声语音识别   总被引:12,自引:1,他引:11  
语音识别系统通常是将在安静的环境下训练得到的参数应用于实际环境中。如果实际环境也是安静的 ,则语音识别系统可以令人满意地工作。然而 ,当实际环境中有噪声存在时 ,语音识别系统性能急剧下降。为了让语音识别系统在安静的环境和有噪声的环境中都获得令人满意的工作性能 ,研究了一个将语音增强器和语音识别器级连起来的系统。该系统中 ,语音增强作为前端处理用于提高识别器输入端信号的信噪比。通过 3种不同的增强算法用于纯净语音和3种类型带噪语音的实验结果分析比较表明 ,这一方法对纯净语音的识别精度几乎没有任何改变而大大提高了系统的抗噪声性能  相似文献   

15.
针对归一化方法在连续语音特征曲线调整时存在的问题, 提出一种优化解决方案, 解决了噪声的不稳定性及不可预测性对语音特征的影响. 结果表明, 基于该优化方法建立的鲁棒性连续语音识别模型可实现在实验室干净环境和现实噪音环境下同时得到较好的识别结果.  相似文献   

16.
今天的语音识别正处于由实验室技术走向实用化,产品化的关键时期,然而,现有的绝大我数语音识别系统在噪声环境中的性能都不可避免地急上降,环境噪声已经成为语音识 技术商品化的一个主要障碍,因此在语音识 技术逐渐走向实用化的过程中,噪声语音识别日益成为一个重要的研究领域,遗憾的是,由于噪声语音识 问题本身的复杂性,至今还没有一种方法可以圆满地解决这一问题,拟从模型补偿方面,对噪声环境下的孤立词语音识别进行一些探索,重点研究一个在噪声环境下的语音识别算法--并行模型组合方法(PMC),详细论述了其原理以及在噪声环境下的语音识别中的应用。实验中,我们使用汉语的数字语音,分别在3种不同噪声不同信噪比条件下对这一方法进行了识别率测试,结果显示,该方法有着令人振奋的识别效果。  相似文献   

17.
语音情感识别是人机交互的重要方向,可广泛应用于人机交互和呼叫中心等领域,有很大应用价值。近年来,深度神经网络在识别情感方面取得了巨大成功,但现有方法对高层语音特征提取会丢失大量原始信息并且识别准确率不高,本文提出了一种新的语音情感识别方法,由卷积神经网络从原始信号中提取特征,并在其堆叠一个2层长短时记忆神经网络,最终识别准确率达到91.74%,本文方法显著优于基于EMO-DB数据集等其他方法。  相似文献   

18.
自适应高斯混合模型语音增强方法   总被引:1,自引:0,他引:1  
陈立伟  王文姝   《应用科技》2009,36(7):11-15
语音增强是解决噪声污染的有效方法,它的首要目标是在接收端尽可能从带噪语音中恢复纯净的语音信号.针对噪声环境下的语音增强问题,提出了一种语音增强新方法.该方法利用小波子带的方向性特点以及小波系数尺度内的相关性,将小波系数的概率分布建模为一种自适应高斯混合模型,在贝叶斯框架中采用这种概率模型可以得到一种具有空间自适应性的贝叶斯萎缩函数.利用这种萎缩函数可以实现对小波系数的修正.仿真实验表明,该算法对于噪声有较好的抑制作用,该算法在主观和客观测试中都具有良好的语音增强效果,可以在语音识别、语音编码中获得应用.  相似文献   

19.
语音情感识别是人机交互、情感计算中重要的研究方向.目前普遍使用深度神经网络用于语音情感特征的提取,但使用哪种神经网络模型、如何缓解模型过拟合问题还需进一步研究.针对这些问题,提出了一种结合一维卷积(CNN)以及门控循环单元(GRU)的CGRU模型,从原始语音信号的MFCC特征中提取语音的低阶以及高阶情感特征,并通过随机森林对其进行特征选择,在三种公用的情感语料库EMODB,SAVEE,RAVDESS上分别取得了79%,69%以及75%的识别精度.通过添加高斯噪声及改变速度等方法来增加样本量实现数据扩充,进一步提高了识别精度.通过在线识别系统验证了模型在实际环境中的可用性.  相似文献   

20.
目前,高准确率的语音识别需要在大规模语料库上进行学习才能获得,然而大规模语料库的构建成本较高,某些语言很难采集到充足的语料,因此,基于小规模语料库的语音识别已成为目前挑战性的研究问题.元学习是模仿人类利用已有经验快速学习新知识的机器学习方法,在机器视觉单样本学习任务中表现出明显的优势,已成为新的机器学习研究热点.将元学习应用于单样本语音识别是解决基于小规模语料库语音识别这一挑战性问题的有效途径,在TIMIT和佤语数据库上,开展了基于Reptile元学习算法的单样本孤立词语音识别研究.实验结果表明,该算法能有效地提升模型收敛速度与泛化精度,从而提升了模型的学习能力,说明元学习方法有助于解决小规模语料语音识别这一挑战性问题.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号