首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 78 毫秒
1.
语音情感识别是人机交互的重要方向,可广泛应用于人机交互和呼叫中心等领域,有很大应用价值。近年来,深度神经网络在识别情感方面取得了巨大成功,但现有方法对高层语音特征提取会丢失大量原始信息并且识别准确率不高,本文提出了一种新的语音情感识别方法,由卷积神经网络从原始信号中提取特征,并在其堆叠一个2层长短时记忆神经网络,最终识别准确率达到91.74%,本文方法显著优于基于EMO-DB数据集等其他方法。  相似文献   

2.
3.
网络图像资源增长迅速,如何实现快速有效的大规模图像检索,成为当前研究的热点之一。深度神经网络对图片特征有很强的表达能力,利用典型深度卷积神经网络VGG16在预训练完成的模型上使用网络全连接层的输出提取待检索图像数据集的特征以建立索引,并采用局部敏感哈希算法提升检索速度,以端到端的形式,完成基于内容的图片检索任务。这种图像检索模型提供了一种在计算资源有限情况下实现大规模图像检索的有效方法。  相似文献   

4.
已有的深度监督哈希方法不能有效地利用提取到的卷积特征,同时,也忽视了数据对之间相似性信息分布对于哈希网络的作用,最终导致学到的哈希编码之间的区分性不足.为了解决该问题,提出了一种新颖的深度监督哈希方法,称之为深度优先局部聚合哈希(Deep Priority Local Aggregated Hashing,DPLAH).DPLAH将局部聚合描述子向量嵌入到哈希网络中,提高网络对同类数据的表达能力,并且通过在数据对之间施加不同权重,从而减少相似性信息分布倾斜对哈希网络的影响.利用Pytorch深度框架进行DPLAH实验,使用NetVLAD层对Resnet18网络模型输出的卷积特征进行聚合,将聚合得到的特征进行哈希编码学习.在CI-FAR-10和NUS-WIDE数据集上的图像检索实验表明,与使用手工特征和卷积神经网络特征的非深度哈希学习算法的最好结果相比,DPLAH的平均准确率均值要高出11%,同时,DPLAH的平均准确率均值比非对称深度监督哈希方法高出2%.  相似文献   

5.
利用递归神经网络(RNN)的内部记忆特性,改善了非线性预测过程中对语音长时相关性的预测能力。实验表明:本文提出的基于RNN非线性预测的ADPCM语音编码算法,其恢复的语音质量优于ITU G.721建议的ADPCM算法。  相似文献   

6.
以赤足足迹压力图像为研究对象,采集了40人的5 230幅赤足足迹压力图像,在具有较低存储消耗的哈希算法基础上,结合深度学习方法设计了一种深度中心匹配哈希(DCMH)网络实现足迹的检索.该网络首先根据足迹压力图像的特点构建深度特征融合模块,提取反映足迹形态结构的全局特征和压力分布的局部特征,并将两种特征进行融合;然后在哈希编码模块通过全连接层将融合后的特征映射为1 024维特征向量,并通过哈希层生成哈希码;在网络优化过程中通过构建深度中心匹配损失函数从而减小哈希码与对应哈希中心之间的距离.深度中心匹配损失函数通过伯努利分布生成哈希中心,设计对数中心损失函数减小同类足迹压力图像数据哈希码与哈希中心的距离,并设计相似性损失函数作为正则化项约束每个批次数据间的相似性关系.通过在40人的赤足足迹压力图像数据上进行图像检索实验,本文算法检索结果的mAP可以达到0.99,优于传统的哈希算法及常用的深度哈希算法,为足迹的进一步的现场应用提供技术支撑.  相似文献   

7.
脑机接口(Brain Computer Interface,BCI)作为一种新型的信息沟通与控制手段,是一个涉及神经科学、信号处理以及模式识别等多个学科的交叉研究课题.基于运动想象的BCI系统被认为是最具发展前景的一种脑机接口系统.针对基于机器学习方法构建脑电特征与运动想象之间的映射关系进行分类时,现有方法仍存在无法兼...  相似文献   

8.
现有的深度哈希算法首先利用连续松弛策略学习连续的近似码,然后通过量化运算将其转化为离散哈希码,导致哈希码出现次优问题.为了解决上述问题,提出了一种基于抗几何变换的离散深度哈希算法,利用抗几何变换和语义监督信息直接指导离散哈希码的学习.首先,本文将离散哈希码学习和深度特征学习集成在一个统一的网络框架中,利用语义监督来指导...  相似文献   

9.
[目的]针对基于深度神经网络频谱估计的麦克风阵列算法存在数据依赖的问题,提出了一种基于深度学习的混响感知麦克风阵列语音增强算法.[方法]首先利用麦克风阵列波束形成输出与原始信号做互相关,以近似房间冲激响应的形式获取当前环境的混响特性作为LSTM网络的输入,网络模型以干净语音为目标进行训练从而输出房间冲激响应泛化向量,最后通过组合近似房间冲激响应与房间冲激响应泛化向量获得后置抗混响滤波器系数,实现语音增强.[结果]仿真和实验结果中,与波束形成、加权预测误差算法和传统深度学习去混响算法相比,所提出的方法在不同混响场景下具有更好的表现.[结论]本文方法在不同混响场景下都具有相对稳定的抗混响能力,具有较好的泛化性能.  相似文献   

10.
针对低资源环境下由于标注训练数据不足、造成语音识别系统识别率急剧下降的问题,提出一种采用长短时记忆网络的低资源语音识别(LSTM-LRASR)方法。该方法采用长短时记忆网络构建声学模型,从特征提取、数据扩展及模型优化3个方面提高低资源语音识别性能。在特征提取方面,提取语言无关的高层稳健特征参数,降低声学模型对训练数据的依赖;在数据扩展方面,对已有标注数据进行语速扰动,对无标注数据进行自动识别,从而自动获取更多标注数据;在模型优化方面,通过序贯区分性训练技术提高模型对易混淆音素的区分能力,利用最小风险贝叶斯解码对多个系统进行融合,进一步提高识别性能。对OpenKWS16评测数据的实验结果表明,采用LSTMLRASR方法搭建的低资源语音识别系统的词错率相对基线系统下降了29.9%,所有查询词的查询项权重代价提升了60.3%。  相似文献   

11.
为了满足移动语音通信中对语音内容保持操作的鲁棒性和区分性,并实现高效认证等要求,提出一种基于线性预测最小均方差(LP-MMSE)的高效语音感知哈希认证算法.该算法首先对待认证语音进行预处理、分帧和加窗后的语音信号进行线性预测分析(LPC)得到其最小均方差(MMSE)系数矩阵;然后对分帧后的语音利用谱熵法计算得到每帧的谱熵值参数矩阵;最后结合上述两个矩阵,生成最终的二进制感知哈希序列.仿真结果表明,该算法的感知哈希摘要性优于现有的其它方法并对内容保持操作具有较好的鲁棒性和区分性,认证效率高,能够满足语音通信实时认证的要求.  相似文献   

12.
随着互联网的迅速发展,产生了大量的近重复视频。文章提出了一种改进的哈希算法提高近重复视频的检索准确性,根据语义哈希对图像检索的原理,对算法中的邻接矩阵进行改进。邻接矩阵表示KNN图中样本间的邻接关系,文中不再使用0和1两个值表示样本间的邻接关系,而是引入高斯核函数来表示,提高了模型的检索精度。实验结果表明所提出的方法具有更高的检索精度。  相似文献   

13.
提出了实现全文检索系统的具体方案,介绍了相关技术并详细描述了系统实现过程,给出了部分关键代码,设计并实现了基于ASP.NET及索引服务的Web站点全文检索系统.该系统的建立及运行,提高了用户站内检索效率及查全率,使站内信息资源得以充分利用.  相似文献   

14.
基于MMSE的声码器解码算法   总被引:2,自引:1,他引:1  
为满足在高误码率的窄带信道上进行语音通信的需求 ,研究了一种适用于甚低速率语音通信的抗误码参数估值算法。基于一定的解码状态 ,声码器通过最小均方误差(MMSE)估计的方法估计最优参数 ,充分降低信道误码对重建语音质量的影响。对于解码状态参数 ,通过计算最大后验转移概率的方法作最佳估计 ,并给出了一种简化的估计方法。这种抗误码算法计算量小 ,算法复杂度低。仿真结果表明 ,在不同误码率下用该算法恢复出的重建语音 ,不论客观评价或是主观评价 ,其质量都要优于传统的帧删除掩盖方法  相似文献   

15.
为了解决浅层特征不能有效刻画说话人特征,导致说话人检索率不高的问题,提出了一种基于深层说话人矢量的说话人检索方法.使用受限波尔兹曼机逐层构建一个多层的深层特征提取器用以提取说话人深层特征.为说话人构建基于深层特征的深层说话人矢量.通过计算要检索的说话人的深层说话人矢量和检索库中的说话人深层特征之间的最小距离,对目标说话人进行检索.实验结果表明:在深层特征下,使用深层说话人矢量可以检索到绝大部分的目标说话人;随着深度层数的增加,检索率先增后减,检索率最高对应的深度层数是7;随着深度层数的增加,检索时间非线性增加.  相似文献   

16.
针对现有的音频认证算法音频格式单一、算法不通用、认证效率低的问题,提出一种基于能零比的多格式音频感知哈希认证算法.该算法首先对待认证音频进行预处理、分帧和加窗,并计算每帧信号的短时能量和短时过零率,获得每帧信号的短时能量和短时过零率的比值;然后将获得的短时能量和短时过零率的比值作为音频信号的感知特征值;最后对感知特征值进行哈希构造,生成感知哈希序列.为提高算法的安全性,算法采用与哈希序列等长的密钥对哈希序列进行置乱.仿真结果表明:该算法对原始域和压缩域五种不同格式的音频内容都具有较好的鲁棒性和区分性,认证效率高.  相似文献   

17.
Arnold变换是数字图像置乱中常用的一种方法。但是,Arnold置乱具有周期性,并且其周期有一定的规律。因此可以采用穷举法计算出置乱时使用的加密密钥,轻而易举的还原出水印信息,安全性不高。为此,本文应用一种改进的水印预处理技术,将混沌序列和图像置乱技术结合起来对灰度水印图像进行加密。实验结果证明了算法的可行性。  相似文献   

18.
基于投影法的图像检索   总被引:3,自引:0,他引:3  
全局颜色直方图无法体现图像颜色的空间分布情况,为了克服这一缺陷,提出了利用投影法进行图像检索的算法.利用HSI颜色模型,把图像的色调、饱和度和亮度分量分别在水平和垂直两个方向上投影,得到6个投影直方图.色调和饱和度的投影直方图反映了颜色的空间分布,而亮度的投影直方图则体现了图像的形状.然后,使用这6个投影直方图的前三阶中心矩作为特征,计算图像间的距离.实验结果表明,该算法检索速度快,具有较高的查全率和查准率.  相似文献   

19.
以一种加密算法和多级小波变换,奇异值分解为基础,提出一种数字水印算法.将原始图像进行多级小波分解,然后对低频部分进行奇异值变换,将加密的水印信息嵌入其中.实验结果表明:该算法不仅具有较好的不可感性,而且对几何变换,如旋转、剪切、镜像,叠加噪声如椒盐、高斯噪声及高斯滤波等均具有很好的鲁棒性.  相似文献   

20.
针对近讲场景,提出一种双麦克近讲语音增强算法。该算法基于耳间延时差(ITD)、耳间强度差(IID)特征来区分目标语音,利用声学掩蔽效应,实现目标语音对背景噪声的分离降噪。与传统的单麦克增强方法相比,该算法可消除多种类型噪声且对语音造成的损伤较小。实验表明:该算法能将8~33dB的白噪声、音乐噪声、广播噪声3种噪声类型的带噪语音的信噪比提高到36dB以上,同时保持较高的目标语音可懂度。对于冲击噪声的带噪语音也具有较好的降噪效果。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号