首页 | 本学科首页   官方微博 | 高级检索  
     

多模式语音端点检测
引用本文:刘鹏,王作英. 多模式语音端点检测[J]. 清华大学学报(自然科学版), 2005, 45(7): 896-899
作者姓名:刘鹏  王作英
作者单位:清华大学电子工程系,北京,100084;清华大学电子工程系,北京,100084
基金项目:国家“八六三”高技术项目(2001AA114071)
摘    要:在语音信号处理系统中,基于帧能量的语音端点检测(voiceactivitydetection,VAD)往往受到语音段能量不平稳及噪声的影响,为了提高语音端点检测的性能和鲁棒性,引入视觉信息。该文提出采用基于数据驱动的线性变换生成视觉特征,在提出一个基于统计的VAD一般模型的基础上构建两个单模式的VAD系统,通过两步式的融合方法,得到了多模式的VAD系统。实验表明:同时利用音频和视觉信息的多模式VAD比基于帧能量的听觉VAD在帧错误率上有55.0%的相对下降,在断句错误率上有98.5%的相对下降。这一结果说明多模式VAD方法基本可以避免断句错误,也能够显著改善帧检测性能,是一种相当有效的方法。

关 键 词:语音识别  语音端点检测  多模式
文章编号:1000-0054(2005)07-0896-04
修稿时间:2004-05-26

Multimodal voice activity detection
LIU Peng,WANG Zuoying. Multimodal voice activity detection[J]. Journal of Tsinghua University(Science and Technology), 2005, 45(7): 896-899
Authors:LIU Peng  WANG Zuoying
Abstract:In speech recognition systems, the frame energy-based voice activity detection (VAD) method may be affected by interferance from background noise and non-stationary characteristics of the frame energy in the voice segment. This paper presents a model to improve the performance and robustness of VAD by introducing visual information. Data driven linear transformations are used for visual feature extraction with a general statistical VAD model and a two-stage fusion strategy in a multimodal VAD system. Experiments show a 55.0% reduction in the frame error rate and a 98.5% reduction in sentence breaking error rate with the multimodal VAD as compared to the frame energy-based audio VAD. The results show that multimodal method eliminates most sentence breaking errors, and improves frame detection performance.
Keywords:speech recognition  voice activity detection  multimodal
本文献已被 CNKI 万方数据 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号