首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 109 毫秒
1.
针对特定音频事件识别中持续时间特别短的音频事件漏检概率高、识别速度较慢的问题,提出一种融合高斯混合模型(GMM)及支持向量机(SVM)的特定音频事件识别算法. 该方法利用GMM的统计分布描述能力和SVM的推广泛化能力,将GMM和SVM分别识别的结果进行融合处理,以手枪、步枪、机关枪等10类以上枪声为实验数据,无需针对每种枪声生成相应的识别模板,仅需训练生成2个识别模板. 实验结果表明,识别准确率达到92.71%. 该方法模板数量少,不需要多次训练,算法复杂度较低,不仅便于应用而且可大幅提升识别效率.   相似文献   

2.
音频分类使机器具有识别音频样本类别的功能,而与传统音频分类模型不同,零样本学习模型可以识别训练期间未出现的音频类别样本。但是,当前的零样本音频分类方法在做类间信息迁移时大多依靠类别标签文本语义信息的先验知识,而语义的先验知识包含大量与音频非相关的冗余信息,所导致的知识转移性能的局限性大大限制了零样本学习模型识别能力。基于此,文中提出将与音频信息高度相关的人工听觉描述子作为类间迁移信息,同时使用合成分类器,构建了零样本音频分类模型。在ESC-50数据集的实验中,与先前的工作相比较,基于人工听觉描述子的零样本音频分类具有更好的分类性能。  相似文献   

3.
在音频相关的系统中,迫切需要利用语音识别技术对音频流自动识别和分割,以及针对不同的应用需求, 利用消息-动作自动机进行各种复杂控制.为此,介绍了一种新的具有实时性的音频流分割系统的设计思路及其 程序实现.  相似文献   

4.
如何有效地对海量数据尤其是诸如音频之类的多媒体数据进行分析、存储和检索是一个有待解决的问题.由于原始音频数据的非结构化特性,音频检索受到极大的限制.相对于日益成熟的图像与视频检索,音频检索相对滞后.基于内容的音频检索己成为多媒体检索技术的研究热点.本文对基于内容的音频检索的音频分层分割算法展开分析,提出一种基于压缩域特征音频分割域识别算法.经试验结果显示,此算法由于不依赖于具体的应用阈值,使此算法准确率有较大提高.  相似文献   

5.
压缩格式已经成为了音频信号存储和传输的主要形式,面向压缩域音频文件的识别方案就显得更具有实际意义。提出了一种基于音频指纹的压缩域音频识别算法,该算法可用于压缩域音频和非压缩域音频在同一个指纹数据库中进行有效检索和识别。选择最典型的音频压缩格式——MP3音频来测试算法的性能,实验结果表明该算法的指纹尺寸小,具有较好的指纹区分性和较高的正确识别率,对各种常见的时频域失真均具有较强的鲁棒性。  相似文献   

6.
介绍了无人值守变电站主设备音频在线监测系统的原理与结构,然后重点介绍音频数据的监测与识别过程.首先系统利用传感器采集变电站设备的音频信号,数据采集器把多路音频数据传至监控主机,音频数据经频谱分析和处理后提取到MFCC特征参数作为信号特征,再把特征参数输入正弦基神经网络进行识别,实现高效、准确地判断电气设备运行状态或故障类型.该方法从根本上改进了以往人工监听电气设备判断故障的方法,提高了设备故障检测效率,为及时发现和处理设备故障提供了帮助.  相似文献   

7.
提出了一种基于谐波-瞬时-残差感知子空间分解模型的音频特征提取方法.首先,根据心理声学的研究成果,提出了基于感知的谐波分子、瞬时原子和残差分布字典,可分别用于提取音频中的长时谐波成分、瞬时频率成分和残差谱分布特性;随后,利用该字典和匹配追踪算法,将音频信号分解到谐波子空间、瞬时子空间和残差子空间这三个感知子空间;最后,通过融合各子空间的特征参数生成音频特征.实验表明:在15类音效分类任务中,所提出的特征比传统梅尔频率倒谱特征准确性提升9.1%,比基于传统匹配追踪的特征提升8.3%.  相似文献   

8.
提出一种基于向量空间模型(VSM)的音频分类算法.特征提取中,针对目前采用的参数主要为静态特征,提出了基于信息论的动态特征计算方法,并根据其物理意义设置关键帧提取中的初始值,解决聚类局部极值问题.通过引入音频聚类的类内标准差,对传统VSM未处理特征项间相关信息的缺点进行改进,提出新的相似性度量方法,并以此方法对不同类别的音频构造分类器.实验结果证明,此方法提高了分类精度,准确度可达85%以上.  相似文献   

9.
根据MPEG-1/2码流的特点,实现视音频同步编辑算法.通过对MPEG-1/2视音频码流的分析,利用两者的PTS值实现了基于MPEG-1/2码流PES层的非线性视音频同步编辑,并详述了剪辑算法.该算法无音频编解码操作,实时性好,不存在音频质量损失问题;对于少数次的剪辑同步效果很好.该算法实用性强,现已将该算法模块应用于非线性编辑系统中.  相似文献   

10.
动作识别是近年来时序数据挖掘领域的研究热点,具有广泛的应用前景。但是现阶段基于深度学习的动作识别算法需要大量的标记训练数据集,存在泛化性差、实时性差、场景受限的问题。为解决这些问题,本研究设计一种基于轻量化二维人体姿态估计的小样本动作识别算法。该算法基于YOLOv5算法构建轻量化的人体检测器HYOLOv5。基于轻量化二维姿态估计模型Lite-HRNet设计人体姿态特征描述算子,有效地去除背景对人体动作特征的干扰。为有效度量时序人体姿态特征描述算子间的相似度,本研究提出基于动态时间规整的人体姿态特征距离度量,并在此基础上设计基于类别中心选择的动作模板匹配算法。该算法通过少量的动作视频构建动作特征模板库,利用动作模板匹配算法可实现多类动作视频的精准识别。为验证算法,本研究在COCO 2017的Humans数据集上对HYOLOv5进行测试,人体检测识别精度mAP@0.5:0.95可达50.7%。基于10种动作视频数据进行测试,结果表明,本研究所提算法可有效地识别视频序列中的姿态,在每个动作仅包含4个训练数据的情况下,动作识别准确率均可达到91.8%。  相似文献   

11.
音频数据检索技术的研究   总被引:1,自引:0,他引:1  
分析并提出基于音频流的多媒体数据检索方法和关键技术,在此基础上提出软件实现的框架:自动从Web中引出各种包含音频流的多媒体数据并为其中的音频流建立索引;通过音频流索引,在Web中实现基于例子和关键词缩放搜索能力的多媒体数据的检索。  相似文献   

12.
音频分割是提取音频结构和内容语义的重要手段,是基于内容的音频分析、检索的基础.提出分层熵检测音频分割算法,采用定长分析窗分层结构遍历音频流,窗内根据熵变化趋势检测跳变点.实验结果表明,该算法避免了ΔBIC分割算法中的硬门限判决和数据累积问题,是一种更加有效的音频分割方法.  相似文献   

13.
针对网络视频的监管需求,提出了一种基于音频词袋的暴力视频分类方法.采用提取视频中音频流的多媒体内容描述接口(MPEG 7)音频特征(包括音频频谱质心,音频频谱带宽等低层音频特征.)及MPEG 7高层特征——音频签名,来构造每段视频特有的音频词汇,采用该音频词汇出现的频率形成音频词袋特征.采用支持向量机对暴力和非暴力视频进行分类.把词袋模型应用到暴力音频特征分类中,对于不同音频词汇量采用了独特的词汇权重分配机制,同时借助特有的针对暴力视频的分类策略,以提高分类效果.通过3组实验,对不同的音频特征的准确率、不同词汇的分类效果、以及对视觉特征粗分类的精确分类进行了研究.实验结果表明,该方法有较好的查全率.  相似文献   

14.
本文是基于Symbian系统,采用MVC加Engine的模式及PCM和AMR两种格式,在智能手机上开发音频流录音机,音频数据以文件的格式存储于手机中。  相似文献   

15.
基于内容的音频自动分类方法   总被引:1,自引:1,他引:1  
为了解决基于内容的音频检索、语音文档检索等很多领域中提取音频结构和内容语义的问题时,介绍几种比较典型的音频分类算法包括最小距离方法、支持向量机、神经网络、决策树方法等,指出在基于内容的音频检索技术方面的难点以及发展方向.  相似文献   

16.
提出一种基于隐马尔可夫模型和支持向量机混合模型的音频分类方法,用于语音、音乐、语音+音乐、静音4类音频分类。首先利用4个HMM分类器对音频进行初步分类,确定最可能的两种音频分类结果,再用相应的SVM分类器做最终判决。实验结果表明,隐马尔可夫模型和支持向量机的两级分类器分类性能较好。  相似文献   

17.
作者在文中主要介绍目前Internet中多媒体音频技术的音频编码格式以及数字音频流技术的最新发展状况。  相似文献   

18.
在信息化和网络化时代, 音频已成为网络信息传输的主要媒体之一.如何从大量的音频信息流中进行快速高效的内容检索以获得所需要的内容已经成为现代社会急需解决的问题,并已发展成为学术界的一个重要研究方向.该文就音频信息检索研究现状及发展趋势对音频检索的概念和方法进行了阐述,并重点对基于内容的音频信息检索的关键技术和方法进行了讨论.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号