首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 171 毫秒
1.
不同于纯文本的情绪分析, 本文面向多模态数据(文本和语音)进行情绪识别研究。为了同时考虑多模态数据特征, 提出一种新颖的联合学习框架, 将多模态情绪分类作为主任务, 多模态情感分类作为辅助任务, 通过情感信息来辅助提升情绪识别任务的性能。首先, 通过私有网络层对主任务中的文本和语音模态信息分别进行编码, 以学习单个模态内部的情绪独立特征表示。接着, 通过辅助任务中的共享网络层来获取主任务的辅助情绪表示以及辅助任务的单模态完整情感表示。在得到主任务的文本和语音辅助情绪表示之后, 分别与主任务中的单模态独立特征表示相结合, 得到主任务中单模态情绪信息的完整表示。最后, 通过自注意力机制捕捉每个任务上的多模态交互特征, 得到最终的多模态情绪表示和情感表示。实验结果表明, 本文方法在多模态情感分析数据集上可以通过情感辅助信息大幅度地提升情绪分类任务的性能, 同时情感分类任务的性能也得到一定程度的提升。  相似文献   

2.
在多模态医学图像背景下,针对单模态图像识别存在目标模糊、边界不清等问题,提出一种基于随机化特征融合的卷积神经网络(Convolutional Neural Network,CNN)目标识别方法.首先使用参数迁移法构造卷积神经网络模型,利用自建的多模态医学图像数据库对CNN模型进行微调;然后,分别用CT(Computed Tomography),PET(Positron Emission Computed Tomography)和PET/CT三个模态的数据并行地训练网络,并提取全连接层的特征向量;其次,构造随机函数,将三个模态的全连接层数据进行随机化融合;最后,通过另一个全连接层和分类器对融合后的特征进行分类识别.通过批次大小、迭代次数和网络层数三个角度验证该方法的有效性,实验结果表明,随机化融合效果优于单模态CNN,且特异性和灵敏度也较高,因此该方法对临床肺部肿瘤识别具有良好的适应性.  相似文献   

3.
暴力事件检测是视频内容智能分析的一个常见任务,在互联网视频内容审查、影视作品分析、安防视频监控等领域有重要应用.面向视频中暴力检测任务,提出了一个包含关系网络和注意力机制的方法来融合视频中的多模态特征,该方法首先使用深度学习提取视频中多个模态特征,如音频特征、光流特征、视频帧特征,接着组合不同的模态特征,利用关系网络来建模多模态之间的关系;然后基于深度神经网络设计了多头注意力模块,学习多个不同的注意力权重来聚焦视频的不同方面,以生成区分力强的视频特征.该方法可以融合视频中多个模态,提高了暴力检测准确率.在公开数据集上训练和验证的实验结果表明,提出的多模态特征融合方法,与仅使用单模态数据的方法和现有多模态融合的方法相比,具有明显的优势,检测准确率分别提升了4.89%和1.66%.  相似文献   

4.
为了通过设置辅助任务学习到更具有情感倾向性的视频和语音表示, 进而提升模态融合的效果, 提出一种基于多任务学习的多模态情感识别模型, 使用多模态共享层来学习视觉和语音模型的情感信息。在MOSI数据集和MOSEI数据集上的实验表明, 添加两个辅助的单模态情感识别任务后, 模型可以学习到更有效的单模态情感表示, 并且在两个数据集上的情感识别准确率比目前性能最佳的单任务模型分别提升0.8%和2.5%。  相似文献   

5.
在实际生产过程中,过程数据的多模态特性会对数据建模产生一定的影响,进行模态划分有利于获取精确的模型。目前常用的模态划分方法,如k-means、c-means等聚类方法,在有过渡过程的模态划分应用中,有时不能得到理想的结果。本文提出了一种通用的模态划分方法,以谱聚类算法中相似矩阵的特征向量分析为基础,基于相似矩阵的特征向量与其所包含的聚类信息的关系,使用高斯曼哈顿距离构造模态标签,并用小窗口思想实现动态多模态过程的模态划分。通过对稳态与带过渡过程的多模态数据的实验验证了该算法的有效性。  相似文献   

6.
多模态情感分析是自然语言处理领域的重要任务,模态融合是其核心问题。以往的研究没有区分各个模态在情感分析中的主次地位,没有考虑到不同模态之间的质量和性能差距,平等地对待各个模态。现有研究表明文本模态往往在情感分析中占据主导地位,但非文本模态包含识别正确情感必不可少的关键特征信息。因此,本文提出一种以文本模态为中心的模态融合策略,通过带有注意力机制的编解码器网络区分不同模态之间的共有语义和私有语义,利用非文本模态相对于文本模态的2种语义增强补充文本特征,实现多模态的联合鲁棒表示,并最终实现情感预测。在CMU-MOSI和CMU-MOSEI视频情感分析数据集上的实验显示,本方法的准确率分别达到87.3%和86.2%,优于许多现有的先进方法。  相似文献   

7.
吴兰  杨攀  李斌全  王涵 《广西科学》2023,30(1):52-60
视听语音识别(Audio-Visual Speech Recognition,AVSR)技术利用唇读和语音识别(Audio-Visual Speech Recognition,AVSR)的关联性和互补性可有效提高字符识别准确率。针对唇读的识别率远低于语音识别、语音信号易受噪声破坏、现有的视听语音识别方法在大词汇量环境噪声中的识别率大幅降低等问题,本文提出一种多模态视听语音识别(Multi-modality Audio-Visual Speech Recognition,MAVSR)方法。该方法基于自注意力机制构建双流前端编码模型,引入模态控制器解决环境噪声下音频模态占据主导地位而导致的各模态识别性能不均衡问题,提高识别稳定性与鲁棒性,构建基于一维卷积的多模态特征融合网络,解决音视频数据异构问题,提升音视频模态间的关联性与互补性。与现有主流方法对比,在仅音频、仅视频、音视频融合3种任务下,该方法的识别准确率提升7.58%以上。  相似文献   

8.
属性词提取和情感极性分类是细粒度情感分析的重要研究内容。为了提高属性词提取和情感极性分类的准确率,本文提出了一种改进的ReBERT模型。该模型基于深度学习的属性级情感分析,引入图像模态进行交互学习,选择了关系提取辅助的融合手段,在文本与图像双模态经BERT,ResNet预训练模型提取的特征向量基础上实现了属性词提取、情感极性分类两个基本任务。该模型在标记后的Twitter15/17数据集上表现良好,属性词预测F1值分别为81.9%与90.8%,属性级情感识别的精确率为76.5%与72.3%。本研究将该模型与同数据集下其他先进的基线方法进行了对比实验,与文本模态的消融实验相辅,证明了该模型在属性级情感分析任务上的优越表现。  相似文献   

9.
使用多模态数据建模可以有效地克服单一模态信息量不足的问题,大大提高模型的性能.但在量化神经网络模型置信度,尤其是对于多模态融合模型方面并没有很多进展.基于此,提出一种基于嵌入的方法,在嵌入空间中通过计算样本间的距离进行局部密度估计,进而计算模型的置信度分数.该方法具备可扩展性,不仅可以用于单一模态模型,还可以用于多模态...  相似文献   

10.
基于余弦定理和K-means的植物叶片识别方法   总被引:2,自引:0,他引:2  
为了提高植物叶片识别准确率,提出一种基于余弦定理和K-means的识别方法.该方法首先通过提取叶片的Hu不变矩和形状特征得到叶片的综合特征向量,然后使用K均值聚类(Kmeans)对各类叶片训练样本的特征向量集合进行聚类以获得聚类中心特征向量,紧接着使用余弦定理计算目标叶片和训练样本的相似度并排序.仿真实验表明:在Flavia植物叶片数据库中进行测试,该文方法以96.03%的概率在前5位发现目标,优于KNN、BP神经网络方法,因此,该方法具有一定的实用价值.  相似文献   

11.
针对目前情感识别模型中存在的识别精度低、速度慢等问题,设计一种基于核相关分析算法的情感识别模型.首先对目前情感识别的研究现状进行分析,找出导致识别精度低的原因;然后提取情感识别的特征,并通过核相关分析算法选择最优情感识别的特征子集,减少情感识别的特征向量数;最后选择高斯混合模型对情感识别的训练集进行建模,并通过具体情感数据集进行仿真实验.实验结果表明,核相关分析算法可有效去除情感识别的不利特征,加快了情感识别速度,提高了情感识别的正确率.  相似文献   

12.
针对大数据量音频的高速处理,提出一种快速的声学特征超向量生成方法,有效提高音频识别系统的识别速度和精度.所提方法首先将多个连续音频帧的常用声学特征构成声学特征图,进而使用低复杂度的运算方法在其中快速提取维数达数十万的Haar-like声学特征;然后使用AdaBoost.MH算法,筛选出具有较高代表性的Haar-like声学特征模式组合,用以构成声学特征超向量;进而提出Random AdaBoost特征筛选方法,进一步提高特征筛选速度.实验结果表明,在音频事件识别、说话人识别、说话人性别识别3种场合下,使用Haar-like声学特征可以使SVM、C5.0、AdaBoost等识别算法获得比MFCC、PLP、LPCC等常用声学特征更高的识别准确率,同时可以获得7~20倍的训练速度提升和5~10倍的识别速度提升.   相似文献   

13.
智慧园区的建设推动着企业与城市的发展,传统的园区管理方式已不再适用于产业融合创新的智慧园区。以曹家滩园区为例,设计智慧园区平台总体框架,针对园区中身份识别存在识别环境差、效率低、准确率低等问题,提出一种基于多模态多核学习的身份识别算法。所提算法将视频数据中的数据分为图像、音频,并采集个人信息的文本,并将三种模态的信息输入同一样本空间中,通过引入间隔约束的多核学习算法,保留不同模态的差异性和相似性,并进行特征融合与决策融合,最终采用分类器与评分机制输出身份识别结果。通过公开的视频数据集与曹家滩园区数据集进行实验,实验结果表明本文所提算法最高准确率达到97.2%,与传统算法相比有较大优势。  相似文献   

14.
针对机床刀具磨损数据稀少与刀具磨损状态识别精度低的问题,提出了一种基于样本扩充与改进领域对抗网络(sample expansion and improved domain adversarial training of neural networks, SE-IDANN)的刀具状态识别方法。首先对机床刀具数据进行两次特征提取,并通过Smote算法进行样本扩充,解决机床刀具磨损数据量稀少的问题;其次在领域对抗网络(domain adversarial training of neural networks, DANN)模型特征提取器中加入残差块,进一步提取有效特征信息,解决刀具磨损特征微弱的难题;最后将Wasserstein距离作为目标域与源域的数据分布相似度标准引入DANN模型,实现对刀具磨损量的精确识别。通过对机床刀具数据的分析与仿真试验验证,证明该方法能够有效地识别刀具磨损量。  相似文献   

15.
采用朴素Bayes算法建立中文文本自动分类器, 并研究相关参数的选择问题, 以实现中文文本的高效分类. 首先在模型训练阶段, 采用N-gram模型处理训练数据集提取特征向量; 然后使用朴素Bayes算法建立文本分类器; 最后在模型测试阶段, 为提高分类准确率, 使用词频反文档频率算法对测试样本进行特征向量提取. 实例分析结果表明, 在提取训练集特征向量时, 2-gram模型和4-gram模型的特征提取效果最佳; 在选取特征向量长度时, 长度为25 000的特征向量可使分类准确率出现最大增幅并保证较高准确率; 在确定特征项词性方面, 同时选取动词和名词可使分类器准确率达到最高, 仅选取动词时准确率最低.  相似文献   

16.
采用朴素Bayes算法建立中文文本自动分类器, 并研究相关参数的选择问题, 以实现中文文本的高效分类. 首先在模型训练阶段, 采用N-gram模型处理训练数据集提取特征向量; 然后使用朴素Bayes算法建立文本分类器; 最后在模型测试阶段, 为提高分类准确率, 使用词频反文档频率算法对测试样本进行特征向量提取. 实例分析结果表明, 在提取训练集特征向量时, 2-gram模型和4-gram模型的特征提取效果最佳; 在选取特征向量长度时, 长度为25 000的特征向量可使分类准确率出现最大增幅并保证较高准确率; 在确定特征项词性方面, 同时选取动词和名词可使分类器准确率达到最高, 仅选取动词时准确率最低.  相似文献   

17.
通过小波包分析提取战场声信号不同频带上的能量作为特征向量,设计了遗传神经网络作为战场声目标识别的分类器,克服了传统BP神经网络容易陷入局部最小点的缺陷,通过Matlab仿真对比实验结果,证明遗传神经网络能够提高战场声目标的识别率。  相似文献   

18.
当前,情感识别已经成为情感计算中一个重要研究问题。传统的情感识别方法有人工神经网络(ANN)的 情感识别、模糊集的情感识别、支持向量机的情感识别和隐马尔可夫模型(HMM)的情感识别等。将选择性集成的 方法应用到情感识别中,该方法通过训练数据集的随机数抽取、训练,得到一批候选分类器,并通过差异性计算,挑选出大于平均差异性水平的分类器用来做最终情感识别。实验表明,该方法比传统的识别方法以及bagging集成 方法的效果都好,能有效地提高情感识别的精度。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号