首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 406 毫秒
1.
为解决传统音乐情感分类特征单一,导致训练效果差的问题,提出了一种多模态注意力融合网络模型,首先将执行情感分类使用的歌词和音频分离,将上下文特征提取方法与分类器相结合,从而提高特征提取效率;其次通过注意机制融合多模态特征,从而加快模型训练效率及情感分类准确率;接着提出了一种自适应孤立森林噪声方法增强模型对不均衡样本的适应性,并在一定程度上缓解模型过拟合问题.最后,将模型与LSTM、GRU、BI-LSTM、BI-GRU等模型进行仿真比较,结果表明所提模型性能最优,情绪分类准确率可达96.46%.  相似文献   

2.
尽管深度神经网络算法在标签自动标注领域已取得一定的成果,但对于包含大量噪声标签的真实音乐数据集仍存在自动标注效果差的问题.为此,文中通过对音乐标签进行表示学习,挖掘音乐标签与音频特征之间的潜在关系,提出了基于标签深度分析的音乐自动标注算法.该算法先通过多层级卷积网络提取音频特征,再通过音乐标签向量的表示学习来降低噪声数据对音乐自动标注网络的不良影响.在真实音乐标注数据集上的实验结果表明,该算法能取得更高的平均受试者特征曲线下面积,标注效果优于其他自动标注算法.  相似文献   

3.
针对现有音乐推荐系统中音乐情感分析方法很难满足用户情感需求的问题,提出音乐内涵空间方法分析音乐情感。该方法选取音乐力度、速度、音强等表现要素,基于两极尺度的语义,构建音乐内涵空间。通过音乐内涵空间表示音乐情感,减少了音频特征客观水平与主观情感范围之间的差距,解决了情感标签标注音乐中由于用户情感经历不同造成的对音乐情感标注的主观差异性问题。在10 672条音乐评价数据集上,采用Kendall’s tau距离进行有效性验证,与基于情感标签推荐相比,实验结果表明,基于音乐内涵空间推荐音乐能较好地满足用户的情感需求。  相似文献   

4.
本文设计并建立了一个包含发音运动学、声学、声门和面部微表情的多模态情感语音汉语普通话数据库,分别从语料设计、被试选择、录制细节和数据处理等环节进行了详细的描述,其中信号被标记为离散情感标签(中性、愉悦、高兴、冷漠、愤怒、忧伤、悲痛)和维度情感标签(愉悦度、激活度、优势度)。本文对维度标注的数据进行统计学分析,验证标注的有效性,同时验证标注者的SCL-90量表数据并与PAD标注数据结合后进行分析,探究标注中存在的离群现象与标注者心理状况之间的内在联系。为验证该数据库的语音质量和情感区分度,本文使用SVM、CNN、DNN3种基础模型计算了7种情感的识别率。结果显示,单独使用声学数据时7种情感的平均识别率达到了82.56%;单独使用声门数据时平均识别率达到了72.51%;单独使用运动学数据时平均识别率也达到了55.67%。因此,该数据库具有较高的质量,能够作为语音分析研究的重要来源,尤其是多模态情感语音分析的任务。  相似文献   

5.
为了标注室内场景中可见物体,提出一种基于RGB-D数据由粗至精的室内场景语义分割方法.首先,利用分层显著度导引的简单线性迭代聚类过分割和鲁棒多模态区域特征,构建面向语义类别的超像素区域池,基于随机决策森林分类器判决各个超像素区域的语义类别,实现粗粒度区域级语义标签推断.然后,为了改善粗粒度级的语义标签,利用几何深度导引和内部反馈机制改进像素级稠密全连接条件随机场模型,以求精细粒度像素级语义标注.最后,在粗、细粒度语义标注之间引入全局递归式反馈,渐进式迭代更新室内场景的语义类别标签.2个公开的RGBD室内场景数据集上的实验结果表明,与其他方法相比,所提出的语义分割方法无论在主观还是客观评估上,均具有较好的效果.  相似文献   

6.
为了通过设置辅助任务学习到更具有情感倾向性的视频和语音表示,进而提升模态融合的效果,提出一种基于多任务学习的多模态情感识别模型,使用多模态共享层来学习视觉和语音模型的情感信息.在MOSI数据集和MOSEI数据集上的实验表明,添加两个辅助的单模态情感识别任务后,模型可以学习到更有效的单模态情感表示,并且在两个数据集上的情...  相似文献   

7.
中国非物质文化遗产水书文化面临失传威胁,近年大量深度学习的方法用于手写古籍文字的识别.但水书古籍文字识别面临数据集建立和标注困难、样本不平衡等问题,研究进展不大,且鲜少进行水书古籍页面级的文字检测与识别.首先建立了一个较大规模的水书手写文字数据集,通过几种数据扩增方式,获得包含80个文字类别,共110610个带标签的字...  相似文献   

8.
为了提高众包的质量并获取高质量的标注数据,已有许多基于真值推理的众包标注方法被提出.传统真值推理利用多噪声标签作为输入,通过聚合策略推断出真实标签,该过程只考虑了实例的标签而忽略了实例的特征,且忽略了不同工人对不同实例的标注质量.该文引入实例的特征以最大程度地挖掘实例中蕴含的有用信息.通过计算众包实例属于每一个类别的概...  相似文献   

9.
不同于纯文本的情绪分析, 本文面向多模态数据(文本和语音)进行情绪识别研究。为了同时考虑多模态数据特征, 提出一种新颖的联合学习框架, 将多模态情绪分类作为主任务, 多模态情感分类作为辅助任务, 通过情感信息来辅助提升情绪识别任务的性能。首先, 通过私有网络层对主任务中的文本和语音模态信息分别进行编码, 以学习单个模态内部的情绪独立特征表示。接着, 通过辅助任务中的共享网络层来获取主任务的辅助情绪表示以及辅助任务的单模态完整情感表示。在得到主任务的文本和语音辅助情绪表示之后, 分别与主任务中的单模态独立特征表示相结合, 得到主任务中单模态情绪信息的完整表示。最后, 通过自注意力机制捕捉每个任务上的多模态交互特征, 得到最终的多模态情绪表示和情感表示。实验结果表明, 本文方法在多模态情感分析数据集上可以通过情感辅助信息大幅度地提升情绪分类任务的性能, 同时情感分类任务的性能也得到一定程度的提升。  相似文献   

10.
在双模态维度情感识别中,存在由于信息不全面而导致预测性能不高的缺陷,且使用决策级融合方法进行融合大多依赖支持向量回归算法,但该算法无法有效处理大样本情况.为了解决以上问题,在语音和文本模态的基础上增加动作捕捉(motion capture,Mocap)数据,并针对该多模态数据提出一种基于随机梯度下降(stochasti...  相似文献   

11.
音频分类使机器具有识别音频样本类别的功能,而与传统音频分类模型不同,零样本学习模型可以识别训练期间未出现的音频类别样本。但是,当前的零样本音频分类方法在做类间信息迁移时大多依靠类别标签文本语义信息的先验知识,而语义的先验知识包含大量与音频非相关的冗余信息,所导致的知识转移性能的局限性大大限制了零样本学习模型识别能力。基于此,文中提出将与音频信息高度相关的人工听觉描述子作为类间迁移信息,同时使用合成分类器,构建了零样本音频分类模型。在ESC-50数据集的实验中,与先前的工作相比较,基于人工听觉描述子的零样本音频分类具有更好的分类性能。  相似文献   

12.
多模态情绪识别展现了智能时代信息技术与讯问方法融合的趋势,其在讯问过程中非接触式采集讯问对象的表情、声强等生理和行为数据,通过多模态数据拟合,实时判断讯问对象的情绪变化。为检验当前多模态情绪识别技术的准确性,本次实验采用情绪诱导范式,通过自我报告、观察者报告、多道心理生理测试仪记录、多模态情绪识别4种不同的方式记录92名实验对象的情绪变化。实验结果表明,当多模态情绪识别指标包括皮肤电等接触式生理数据时,其准确性可达80.9%;当识别指标仅以微表情、心率等非接触式生理数据为主时,其准确性因受情绪分类维度和细致程度、识别对象的特异性、算法模型等因素的影响而明显降低,但仍优于普通人的肉眼观察。该技术在审讯实战中的试用已初步展现出对讯问对象身体限制小、数据采集效率高等优势,后续仍需提升情绪识别技术的准确性,加强情绪识别与讯问策略方法之间的关联度和可操作性。  相似文献   

13.
本文针对多模态复杂过程的多变量、多工序、变量时变性以及模态转换时间不确定等多种特性,提出基于高斯混合模型的多模态过程监测算法;针对离线数据没有模态标签的问题,提出离线数据分类算法;针对在线数据无法对应模态类型的问题,提出在线数据模态识别算法.并在以上方法的基础上建立多模态过程监测模型,以连续退火机组为背景,利用实际生产...  相似文献   

14.
多模态生物识别可以弥补单模态生物识别存在的缺陷,已成为目前生物识别研究的主流趋势.现有的多模态生物识别大都使用传统的机器学习方法,而以深度学习为代表的新一代人工智能方法在该领域的应用研究相对较少.因此,提出了一种端到端、可训练的卷积神经网络(Convolutional Neural Network,CNN)模型用于多模态生物特征识别,并从单模态和多模态两方面研究模型结构和融合方式对识别性能的影响.在单模态识别中,研究不同网络层数和卷积核对识别性能的影响,并利用单模态识别的结果确定多模态识别的网络结构;在多模态识别中,为研究不同阶段特征融合对识别性能的影响,设计了两种不同的CNN结构;基于3种不同的融合方法,探索单层特征融合和双层特征融合机制对识别性能的影响,并通过组合优化给出一种最优的深度模型结构.为了评估本文方法的性能,分别在AR、Yale、Extended YaleB、LFW、PolyU和CASIA V1.0等6个标准数据库上进行验证.试验结果表明,基于CNN的单模态识别方法优于传统机器学习方法,本文提出的方法能够胜任单模态或多模态生物识别任务.  相似文献   

15.
由于基于生物特征识别的方式不但简单快速,而且安全可靠,近年来,作为生物特征识别的典型技术,人脸识别与指纹识别被广泛应用.然而,使用单一特征的生物特征识别系统,其正确率和稳定性还有待提高,且容易被作弊手段攻破.因此,侧重于回顾联合人脸与指纹的多模态生物特征识别方法.首先分别回顾了人脸、指纹识别的研究现状;然后对单模态生物特征识别面临的挑战进行了总结;在此基础上,为了解决单模态生物特征识别存在的正确率不够高和稳定性不够强等问题,重点讨论了联合人脸与指纹进行多模态生物特征识别的方法和未来的发展方向.  相似文献   

16.
吴兰  杨攀  李斌全  王涵 《广西科学》2023,30(1):52-60
视听语音识别(Audio-Visual Speech Recognition,AVSR)技术利用唇读和语音识别(Audio-Visual Speech Recognition,AVSR)的关联性和互补性可有效提高字符识别准确率。针对唇读的识别率远低于语音识别、语音信号易受噪声破坏、现有的视听语音识别方法在大词汇量环境噪声中的识别率大幅降低等问题,本文提出一种多模态视听语音识别(Multi-modality Audio-Visual Speech Recognition,MAVSR)方法。该方法基于自注意力机制构建双流前端编码模型,引入模态控制器解决环境噪声下音频模态占据主导地位而导致的各模态识别性能不均衡问题,提高识别稳定性与鲁棒性,构建基于一维卷积的多模态特征融合网络,解决音视频数据异构问题,提升音视频模态间的关联性与互补性。与现有主流方法对比,在仅音频、仅视频、音视频融合3种任务下,该方法的识别准确率提升7.58%以上。  相似文献   

17.
目的构造音乐情感分类器,为计算机理解情感提供途径。方法首先分析现有音乐情感模型,然后提取音乐情感特征并采用神经网络构造音乐情感分类器,最后采用相关反馈对分类结果进行标注并进一步训练分类器,直至训练样本的错误分类率在一定误差范围内。结果对测试样本进行情感分类,达到了最高89%的分类准确率,实现了音乐情感分类器的构建和音乐片断的情感标注。结论研究成果是音乐情感检索的基础工作,也可用于其他音频的情感识别和分类。  相似文献   

18.
为了解决多模态数据中数据样本不平衡的问题,利用资源丰富的文本模态知识对资源贫乏的声学模态建模,构建一种利用辅助模态间相似度监督训练的情绪识别神经网络。首先,使用以双向门控单元为核心的神经网络结构,分别学习文本与音频模态的初始特征向量;其次,使用SoftMax函数进行情绪识别预测,同时使用一个全连接层生成2个模态对应的目标特征向量;最后,利用该目标特征向量计算彼此之间的相似度辅助监督训练,提升情绪识别的性能。结果表明,该神经网络可以在IEMOCAP数据集上进行情绪4分类,实现了82.6%的加权准确率和81.3%的不加权准确率。研究结果为人工智能多模态领域的情绪识别以及辅助建模提供了参考依据。  相似文献   

19.
针对现有多模态情感分析模型对模态交互问题的忽视导致其性能受限的问题,提出一种基于模态时序列耦合与交互式多头注意力的多模态情感分析模型(MC-CA)。利用仿射变换耦合模态的情感信息和时序信息,使用交互式多头注意力机制获取模态间的交互信息,利用多通道情感预测方法综合全局与局部信息实现多模态协同训练。在多个公开数据集上的实验结果表明,该模型能够建立多模态数据之间的交互,在多模态情感分析任务中取得优异的性能。  相似文献   

20.
本文针对多模态复杂过程的多变量、多工序、变量时变性以及模态转换时间不确定等多种特性,提出基于高斯混合模型的多模态过程监测算法;针对离线数据没有模态标签的问题,提出离线数据分类算法;针对在线数据无法对应模态类型的问题,提出在线数据模态识别算法。并在以上方法的基础上建立多模态过程监测模型,以连续退火机组为背景,利用实际生产过程数据验证了算法的有效性。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号