首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 140 毫秒
1.
基于内容的音频自动分类方法   总被引:1,自引:1,他引:1  
为了解决基于内容的音频检索、语音文档检索等很多领域中提取音频结构和内容语义的问题时,介绍几种比较典型的音频分类算法包括最小距离方法、支持向量机、神经网络、决策树方法等,指出在基于内容的音频检索技术方面的难点以及发展方向.  相似文献   

2.
在信息化和网络化时代, 音频已成为网络信息传输的主要媒体之一.如何从大量的音频信息流中进行快速高效的内容检索以获得所需要的内容已经成为现代社会急需解决的问题,并已发展成为学术界的一个重要研究方向.该文就音频信息检索研究现状及发展趋势对音频检索的概念和方法进行了阐述,并重点对基于内容的音频信息检索的关键技术和方法进行了讨论.  相似文献   

3.
视频分割是视频结构化组织的基础,提出一种结合音频和视觉信息的视频分割新方法,即先对视频作基于边变化率的初步分割,然后提取音频的MFCC及其差分系数特征,利用广义似然比(GLR)距离对音频信息进行相似性比较,并检测相应的音频变化点,在此基础上,应用间频分割点对初步的分割进行验证,获得具有一定语义内容的视频段,实验结果表明,方法简单有效,与单一的基于视觉信息的分割方法相比,获得的视频片段语义信息更为完整,同时也避免了分割的过度细碎。  相似文献   

4.
介绍了音频信号的主要特征和处理技术,给出音频检索系统的处理框架和主流产品,并列出典型检索引擎及应用行业;详细阐述了音频识别和检索的主要方法、基于旋律和内容的音频片段检索的原理和特点;最后结合实验和测试中的实际问题对音频检索进行展望.  相似文献   

5.
适用于广播信道的时频调制音频隐藏算法   总被引:1,自引:0,他引:1  
广播信道中包含大量音频信息,给音频信息隐藏应用提供了广阔空间,但在广播信道上缺乏行之有效的音频隐藏算法.针对上述问题提出了一种时频调制音频信息隐藏算法,时频调制技术具有较强的抗信道干扰特性,在广播信道上具有很强的适用性.该算法在音频载体中嵌入一定幅度的时频调制信息序列,用时频调制信息序列在不同时隙和频点的排列组合来表示秘密信息,通过控制时频调制信息序列的幅度将秘密信息隐藏到载体音频中,不被人耳所察觉.实验结果表明,该算法可应用在不同的调频FM广播信道上,并可保持96%以上的信息恢复率.  相似文献   

6.
为了更好地解决音频与视频同步问题,提出了一种嵌入式音视频混合信号同步压缩编码算法。在发送端将音频信号作为隐藏信息,嵌入视频图像的DCT(Discrete Cosine Transform)系数中,然后对嵌入了音频信号的视频信号进行压缩编码,在接收端从视频信号中提取出音频信息,再对音频和视频信号进行重构,得到恢复后的音频与视频。该方法在不增加音频和视频压缩数据量,同时保证音频和视频主观质量没有明显降低的情况下,实现了音视频信号同步压缩。  相似文献   

7.
介绍了运用哼唱进行检索的点歌系统.该系统从用户那里得到哼唱信息,把音频信息做特征提取、分割与分类,采用音变节奏算法查找出和输入内容相同或相似的乐曲.最后提出了有待继续研究的问题.  相似文献   

8.
如何有效地对海量数据尤其是诸如音频之类的多媒体数据进行分析、存储和检索是一个有待解决的问题.由于原始音频数据的非结构化特性,音频检索受到极大的限制.相对于日益成熟的图像与视频检索,音频检索相对滞后.基于内容的音频检索己成为多媒体检索技术的研究热点.本文对基于内容的音频检索的音频分层分割算法展开分析,提出一种基于压缩域特征音频分割域识别算法.经试验结果显示,此算法由于不依赖于具体的应用阈值,使此算法准确率有较大提高.  相似文献   

9.
介绍了网络音频技术的主要特点,包括网络音频传输协议和控制技术,以及几种以太网传输协议.并以广州大学城中心区体育场馆为实例,说明基于其建筑型态和建声方面的需求,如何对其中的网络音频器件进行搭建、布置和使用,从而具体阐述了网络音频技术在现代体育场馆的应用.  相似文献   

10.
在音频检索中为了利用音频水印进行信息标注,以及有效地权衡音频水印的嵌入容量、透明性和鲁棒性之间的关系,提出了一种基于双树复小波变换(DT-CWT)和奇异值分解(SVD)的鲁棒音频水印算法.首先提取原始语音的音频指纹作为音频水印;然后通过基于能量的嵌入位置选择来确定水印嵌入帧,进行4级DT-CWT后选取高频分量分段进行SVD;最后通过量化的方法在奇异值矩阵的奇异值中嵌入水印信息.实验结果表明:该算法具有较强的鲁棒性和透明性,并具有较高的嵌入容量,可以很好地满足信息标注的需要.  相似文献   

11.
为了对音视频内容进行更加有效地分析,将信息可视化方法引入数字媒体信息处理领域。设计并实现了集多媒体信号采集、大词表连续语音识别、文本检索和音频检索为一身的多媒体内容可视化分析平台,取得了较理想的效果,充实了信息可视化理论并对其具体应用进行了有益尝试。  相似文献   

12.
按照MEPG-7的音频特征规范,设计了帧层次和段层次上的音频特征提取算法.在深入分析足球比赛中各类音频信息的不同特点的基础上,通过有针对性地选取特征,构造特征向量,设计并实现了一种基于决策树的层次化分类算法.该算法可以自动将足球比赛中的音频信息分为噪音、解说员语音、哨音、欢呼声和带背景音的解说员语音等5个类别.实验表明:该算法提取的特征有效,分类效果良好.  相似文献   

13.
通过对同一首歌曲音频信号的特征分析,提出了一种基于音频片段平均短时能量和过0率标准偏差的融合判决方法.该方法解决了纯音乐与语音-音乐混合片段识别易混度高的问题,可以准确地识别同一首歌曲中纯音乐片段和语音-音乐混合片段,为去除音频中不需要的部分提供一种有效的预处理方法,并且可以更好地提高数据处理的效率和性能.实验结果表明,通过对不同风格、不同歌手以及不同语言的歌曲处理,纯音乐的平均正确率为92.30%,语音-音乐混合的平均正确率为96.36%.  相似文献   

14.
特定类型音频流泛化识别方法   总被引:2,自引:2,他引:0  
提出一种基于Mel频率倒谱系数(MFCC)和AdaBoost算法的特定类型音频流泛化识别方法,通过分析特定类型音频流的子类别间的共性和差异性,利用共性特征进行泛化识别,能够准确地检测并定位音频流中特定类型的音频.文中将枪声作为特定类型音频进行研究,通过提取各种枪声子类别的共性,弱化子类间的差异得到一个泛化的枪声模板,利用一个模板就可以支持多子类的准确识别.实验结果表明,算法的识别准确率为87.6%,查全率达到91.8%.  相似文献   

15.
在发生火灾或地震的建筑物内,由于烟雾或墙体倒塌等原因,救援机器人往往无法通过视觉、超声和红外等传感器直接发现建筑物内不可见区域或者其他房间中呼救的目标.利用声音信号波长较长可以衍射绕过障碍物传播的特性,结合现有的语音识别技术,开发出基于听觉的救援机器人导航系统.该系统使机器人可以在全局运动控制中跟踪幸存者的呼救声并向幸存者移动.通过相关实验验证了基于听觉的救援机器人导航方法的可行性.  相似文献   

16.
主要对文本无关的说话人识别技术进行一些探讨。与语音识别不同,说话人识别技术必须提取说话人依赖特点,而语音特征量的选取是利用说话人声音的频谱通过分离傅立叶变换(DCT)获得的。在训练阶段,每一个说话者通过矢量量化产生一个码书(语音数据库)。在认识阶段期间,通过对欧几里德距离代表VQ的计算来减少失真。在一定范围的说话人的语音库中,测试结果表明有很高的识别率,可以达到96%。  相似文献   

17.
根据语音的发声特点,基于分析语音信号中的基音频率和语音之间的关系,提出一种在强噪声环境下实现提高语音识别率的方法,并对基于基音频能值的端点检测算法和传统语音端点检测算法进行比较.实验结果表明该方法不仅能够有效提高语音段的检测率,同时还具有计算量小、实时性高、不受噪声影响即鲁棒性好等特点.  相似文献   

18.
介绍一种嵌入式语音识别系统的设计与实现,整个系统以TI公司的双核(ARM DSP)处理器芯片OMAP5912为控制核心,采用SENSORY公司的RSC364语音芯片来实现语音的识别与合成,并进行语音信号的采集和播放,整个系统结构简单,集成度高.驾驶员利用该系统可通过语音命令控制车上设备及获得语音反馈信息,系统也可以作为一嵌入式语音设备使用,具有较大的市场应用前景.  相似文献   

19.
光纤语音传输是以光波为信息载体,以光纤为传输媒介的一种新型通信方式。提出了一种基于光通信语音传输系统的设计方案,该设计以光纤通信技术为核心,进行语音传输系统中音频信号产生、话路滤波、音频放大、数据采集单元的电路设计。提供了系统各个组成单元的优化选择以及最终的设计方法。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号