首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 156 毫秒
1.
选取三种典型的情感状态,通过对在不同情感状态下大量取样的语音样本的基频、能量、时长及相关韵律特征参数作统计分析,基于统计结果使用PCA方法进行情感状态识别实验,识别准确率达91.67%.结合情感识别结果,使用DTW算法通过模式匹配进行小词汇表的语音识别,提高语音识别正确率;给出输出语音韵律特征参数的调整方法,使人机语音交互得到更加人性化的改进.  相似文献   

2.
近年来随着国内人工智能技术的发展,对机器狗的研究日趋深入.情感在人类的感知、决策等过程扮演着重要角色,语音作为人类和机器狗重要的交流媒介,携带着丰富的情感信息.如何使机器狗从语音中自动识别的主人情感状态受到人工智能领域研究者的关注.本文从语音情感识别所涉及的情感语音数据库、语音中的情感特征和语音情感识别算法几个重要问题出发,研究了情感语音机器狗的实现方法.  相似文献   

3.
基于MFCC的语音情感识别   总被引:4,自引:0,他引:4  
情感语音中携带着丰富的信息,在人机交互领域有着广阔的应用.Mel频率是基于人耳听觉特性提出来的.它与Hz频率成非线性对应关系.Mel频率倒谱系数(MFCC)则是利用它们之间的这种关系,计算得到的Hz频谱特征,MFCC已经广泛地应用在语音识别领域.由于Mel频率与Hz频率之间非线性的对应关系,使得MFCC随着频率的提高,其计算精度随之下降.因此,在应用中常常只使用低频MFCC,而丢弃中高频MFCC.针对该问题进行了研究,修正了Hz-Mel非线性对应关系,提升了中高频系数的计算精度,并将其作为低频MFCC的补充,应用到语音情感识别中.实验证明,改进之后的算法与经典算法比较,在不同的特征组合上识别率都有不同程度的提高,从而证明了Mid MFCC特征计算方法的有效性.  相似文献   

4.
张成  石磊  赵慧然 《科技资讯》2023,(10):253-256
维度语音情感识别是语音识别技术的重要研究方向,提取最能表达语音情感的特征码并构建具有模型泛化性和鲁棒性的声学模型是语音情感识别的重要研究内容。同时,其触及领域具备较强的多样性,心理学、模式识别以及认知科学等均属于其研究范围,而这些模块是其研究的重点,开展研究的目的主要是为了让机器具备人类情感,促使人机交互更加自然灵活。基于此,该文阐述了在情感心理学的研究基础上,分析情感语音数据库与数据标注,并对情感分类与回归加以探索,希望可以为维度语音情感识别提供新的思路。  相似文献   

5.
面向情感变化检测的汉语情感语音数据库   总被引:3,自引:0,他引:3  
该文介绍了面向普通话情感变化检测的情感语音数据库CESD。该数据库的语音以对话形式录制,包括男女声情感对话语音1 200段。以生气、着急、中性、愉悦、高兴为基本情感,共包含20种情感变化模式。除语音文件外,还包含带有静音段/有效语音段、情感类别、情感变化段、情感质量等内容的标注文件。为了使更多的研究人员可以使用该数据库,利用P raat工具提取出67维常用声学特征,作为特征文件一同存储在该数据库中。对该数据库进行主观评价和情感变化检测的结果表明:语音情感状态自然、情感变化真实,能够满足语音情感识别和语音情感变化检测研究的双重需求。  相似文献   

6.
针对语音情感线性参数在刻画不同情感类型特征上的不足,将多重分形理论引人语音情感识别中.通过分析不同语音情感状态下的多重分形特征,提取多重分形谱参数和广义hurst指数作为新的语音情感特征参数,并结合传统语音声学特征,采用支持向量机SVM对其进行语音情感识别.试验结果表明,该方法可使系统的准确率和稳定性得到有效提高.非线...  相似文献   

7.
语音情感特征提取和识别的研究与实现   总被引:9,自引:0,他引:9  
针对语音情感识别的实时性与可用性问题,提出了利用汉明窗提取语音信号中情感特征的方法,从说话者中采集带有快乐、愤怒、惊奇、悲伤情感的语句,并从语句中提取8个情感特征参数.同时提出采用贡献分析法确定情感特征参数的权值,利用加权欧氏距离模板匹配识别语音情感.实验表明该方法识别率有提高,更适合实时识别的应用。  相似文献   

8.
基于粗神经网络的语音情感识别   总被引:1,自引:1,他引:0  
语音情感识别是从语音信号中提取一些有效的声学特征,然后利用智能计算或者识别的方法对话者的情感状态进行识别。介绍了国内外在该领域中关于语音情感数据库、特征提取、识别方法的研究现状。基于对该领域现状的了解,发现特征提取对识别率有着非常大的影响。录制了1050句语音,每句语音提取了30个特征,从而形成了一个1050×30的数据库。提出了用粗糙集理论中的信息一致性对数据库中的30个特征进行化简,最后得到了12个特征。用神经网络中的BP网络对话者的情感状态进行识别,最高识别率达到了84%。从实验结果发现不同的情感用不同的方法识别结果更好。  相似文献   

9.
基于长短时特征融合的语音情感识别方法   总被引:1,自引:0,他引:1  
情感识别领域中广泛使用的情感特征有基于语句的全局统计特征和基于语音帧的时序特征.针对这2类基于不同时长的情感特征均不能够最有效地表达情感信息的问题,该文提出使用"语段特征"用于识别,并给出了各类情感状态对应的"最佳识别段长".为进一步提高系统识别性能,该文还构建了全局控制Elman神经网络用于将全局统计特征与基于语段的时序特征相融合.实验表明;融合长短时特征后的平均系统识别率可达66.0%,与单独使用各类特征或语段特征相比分别提高了5.9%和1.7%,同时有效降低了各情感之间的混淆度.  相似文献   

10.
介绍了径向基函数神经网络的原理、训练算法,并建立了RBF神经网络的语音情感识别的模型。在实验中比较了BP神经网络与RBF神经网络分别用于语音情感识别识别率,RBF神经网络的平均识别率高于BP神经网络3%。结果表明,基于RBF神经网络的语音情感识别方法的有效性。  相似文献   

11.
语音情感识别是人机交互的重要方向,可广泛应用于人机交互和呼叫中心等领域,有很大应用价值。近年来,深度神经网络在识别情感方面取得了巨大成功,但现有方法对高层语音特征提取会丢失大量原始信息并且识别准确率不高,本文提出了一种新的语音情感识别方法,由卷积神经网络从原始信号中提取特征,并在其堆叠一个2层长短时记忆神经网络,最终识别准确率达到91.74%,本文方法显著优于基于EMO-DB数据集等其他方法。  相似文献   

12.
提出了一种新颖的语音情感识别结构,从声音文件中提取梅尔频率倒谱系数(Melscale frequency cepstral coefficients,MFCCs)、线性预测倒谱系数(linear predictive cepstral coefficients,LPCCs)、色度图、梅尔尺度频谱图、Tonnetz表示和频谱对比度特征,并将其作为一维卷积神经网络(convolutional neural network,CNN)的输入.构建由一维卷积层、Dropout层、批标准化层、权重池化层、全连接层和激活层组成的网络,并使用Ryerson情感说话/歌唱视听(Ryerson audio-visual database of emotional speech and song,RAVDESS)数据集、柏林语音数据集(Berlin emotional database,EMO-DB)、交互式情绪二元运动捕捉(interactive emotional dyadic motion capture,IEMOCAP)数据集这3个数据集的样本来识别情感.为提高分类精度,利用增量方法修改初始模型.为...  相似文献   

13.
基于语音声学特征的情感信息识别   总被引:10,自引:0,他引:10  
为提高情感语音识别的正确率,研究了声学参数的统计特征和时序特征在区分情感中的作用,并提出了一种将两者相融合的情感识别方法。在提取出基本的韵律参数和频谱参数后,首先利用PNN(probab ilistic neura l netw ork)和HMM(h idden m arkov m ode l)分别对声学参数的统计特征和时序特征进行处理。计算它们各自属于每类情感的概率,获得采用加法规则和乘法规则融合统计特征和时序特征的识别结果。实验结果表明:各组特征在区分情感方面的侧重不尽相同,通过特征融合,平均识别正确率相较单独采用统计特征或时序特征均有提高,在最好情况下达到了92.9%。这说明了该方法的有效性。  相似文献   

14.
为了对音视频内容进行更加有效地分析,将信息可视化方法引入数字媒体信息处理领域。设计并实现了集多媒体信号采集、大词表连续语音识别、文本检索和音频检索为一身的多媒体内容可视化分析平台,取得了较理想的效果,充实了信息可视化理论并对其具体应用进行了有益尝试。  相似文献   

15.
基于本体论的信息可视化研究   总被引:1,自引:0,他引:1       下载免费PDF全文
介绍了本体论的概念,指出将哲学概念——本体论应用于信息科学领域,可以使信息可视化更加明确化,最后以1个实例进行说明,即对销售商的所有型号手机进行分类,并通过图片链接形式供消费者进行直观搜索、查询。  相似文献   

16.
信息可视化研究综述   总被引:4,自引:0,他引:4       下载免费PDF全文
信息可视化是可视化技术在非空间数据领域的应用,可以增强数据呈现效果,让用户以直观交互的方式实现对数据的观察和浏览,从而发现数据中隐藏的特征、关系和模式。可视化应用非常广泛,主要涉及领域:数据挖掘可视化、网络数据可视化、社交可视化、交通可视化、文本可视化、生物医药可视化等等。根据CARD可视化模型可以将信息可视化的过程分为以下几个阶段:数据预处理;绘制;显示和交互。根据SHNEIDERMAN的分类,信息可视化的数据分为以下几类:一维数据、二维数据、三维数据、多维数据、时态数据、层次数据和网络数据。其中针对后4种数据的可视化是当前研究的热点。多维数据可视化方法主要包括基于几何的方法、图标方法和动画方法等。基于几何的可视化方式中最经典的就是"平行坐标系"方法。平行坐标系(parallel coordinates)使用平行的竖直轴线来代表维度,通过在轴上刻划多维数据的数值并用折线相连某一数据项在所有轴上的坐标点展示多维数据。平行坐标系方法能够简洁、快速地展示多维数据,发展出很多改进技术。但是当数据集的规模变得非常大时,密集的折线会引起"视觉混淆"(visual clutter),处理方法包括维度重排、交互方法、聚类、过滤、动画等。其他基于几何的方法包括Radviz方法使用圆形坐标系展示可视化结果;散点图矩阵(scatter plot matrix)将多维数据中的各个维度两两组合绘制成一系列的按规律排列的散点图。基于图标的可视化方法用具备可视特征的几何形状如大小、长度、形状、颜色等刻划数据,代表性的方法包括星绘法和Chernoff面法等。动画方法用于可视化中可被用来提高交互性和理解程度,其缺点包括可能分散注意力、引起用户的误解、产生"图表垃圾"等。时间序列数据是指具有时间属性的数据集,针对时间序列数据的可视化方法如下:线形图、堆积图、动画、地平线图、时间线。层次数据具有等级或层级关系。层次数据的可视化方法主要包括节点链接图和树图2种方式。其中树图(treemap)由一系列的嵌套环、块来展示层次数据。为了能展示更多的节点内容,一些基于"焦点+上下文"技术的交互方法被开发出来。包括"鱼眼"技术、几何变形、语义缩放、远离焦点的节点聚类技术等。网络数据具有网状结构。自动布局算法是网络数据可视化的核心,目前主要有以下3类:一是力导向布局(force-directed layout);二是分层布局(hierarchical layout);三是网格布局(grid layout)。当数据节点的连接很多时,容易产生边交叉现象,导致视觉混淆。解决边交叉现象的集束边(edge bundle)技术可以分为以下几类:力导向的集束边技术、层次集束边技术、基于几何的边聚类技术、多层凝聚集束边技术和基于网格的方法等。其他研究热点包括图形的视觉因素研究、自适应可视化研究、可视化效果的评估等。视觉因素对于可视化效果的影响,如位置、长度、面积、形状、色彩等影响已经引起很多研究者的注意。色彩是视觉因素的重要组成部分,研究主要集中在颜色选择的原则和交互系统中。这些原则基于数据类型、类的数量、认知约束等。自适应可视化可以提高信息可视化的适应性。研究成果分为以下几类:自适应可视化展示、自适应资源模型、自适应用户模型。自适应可视化展示是指根据用户的特征自动为用户提供多种展示类型,自动选择可视化内容及布局的形式,自动调整可视化的元素等。自适应资源模型反映了对硬件和软件的利用以提高可视化性能。自适应用户模型通过显示用户模型的内容并让用户能够编辑,从而让用户能够控制模型的内容。当前关于信息可视化评价的研究较少,少量研究也没有提出直接和通用的可视化的评估方式,需要对信息可视化评价的理论基础、方法和应用做深入的研究。可视化技术与应用还应该继续向以下4个方面努力:直观化、关联化、艺术化、交互化。信息可视化技术的发展方向是协同(collaboration)、分析过程(analytics)、计算(computational)和意会(sense-making)。未来研究方向可以包括以下几个内容。信息可视化和数据挖掘的紧密结合。为提高处理海量数据时的速度和效率和解决视觉混淆现象;必须运用数据挖掘的公式和算法,对数据分析的过程及结果进行可视化展现。协同可视化。协同可视化领域的研究方向可以包括可视化接口设计、基于Web的可视化协同平台开发、协同可视化工作的视图设计、协同可视化中的工作流管理及协同可视化技术的应用等。更多领域的应用技术开发。包括统计可视化:需要研究使用几何、动画、图像等工具对数据统计的过程和结果进行加工和处理的技术;新闻可视化:对新闻内容进行抓取、清洗和提取和可视化展示;社交网络可视化:可视化方式显示社交网络的数据,对社交网络中节点、关系及时空数据的集成展示。搜索日志可视化:针对在使用搜索引擎时产生的海量搜索日志,可视化的展现用户的搜索行为、关系和模式等。  相似文献   

17.
基于韵律语段的语音情感识别方法研究   总被引:2,自引:0,他引:2  
语音情感识别领域提取情感特征时,普遍采用"不同情感类别,相同时长基准"的做法,忽略了人耳敏感的韵律段长会依情感不同而有所差异的现象。本文首先通过情感识别实验确定各类情感的最佳识别段长,作为人耳敏感韵律段长。并构造了基于韵律段特征的多重Elman网络模型,以期对不同情感基于特定敏感韵律段长进行识别和对多分类器识别结果进行有效融合,实现了对人耳情感辨识规律的模拟。结果表明,使用敏感韵律段特征的系统识别率达到67.9%,与使用定长语段特征相比有了很大的提高。  相似文献   

18.
张涛  高海波  李昕  洪文学 《燕山大学学报》2010,34(2):149-151,156
针对日益复杂的通信网络,设计了一种对网络中关联信息进行可视化的方法。该方法以可视化分析学为依据,利用人类对于视觉信息理解与分析能力强的优势,通过对数据进行分析,完成对通信对象关联与属性分析的可视化表示,放大人类对数据的感知与认识。通过该方法,可以在不损失信息原有内容的同时,对大规模数据进行形象的、易接受的可视化表示,便于在短时间内发现感兴趣信息。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号