首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 534 毫秒
1.
针对传统端点检测算法因忽视语言特点导致的检测精度不足问题,结合元音中心论、响度说、合张运动说等俄语音节理论,提出一种面向俄语语音的音节端点检测算法.算法利用共振峰能量检测元音,并根据元音动态调整门限,基于短时过零率和能熵比提取和切分音节.算法在元音检测中查准率为84.9%,查全率为87%,音节切分的正确率为78.6%,端点检测精度为91.6%,较传统算法剔除了音节间的无话帧,提高了端点检测的精度.  相似文献   

2.
榕江位于贵州省黔东南州的东南部,按现代汉语方言划分的区域,榕江方言属于北方方言的西南方言。但由于受当地方音上语的影响,与普通话相比较,差别很大。其差别主要表现在声母、韵母两个方面。一、声母榕江方言声母与普通话声母之间存在着较大差异。其主要是几组声母相混的问题。因而榕江人要学好普通话,必须把握好两者之间的对应规律,并寻求有效方法加以辨证。(一)声母的对应特点1、检江方言一般没有以山、oh、山为声母的音节,普通话里以出、Ch、北为声母的音节,格江方言对应归并到以z、c、s为声母的音节去了。2格江方言h一般不…  相似文献   

3.
在语音信号处理系统中,基于帧能量的语音端点检测(voiceactivitydetection,VAD)往往受到语音段能量不平稳及噪声的影响,为了提高语音端点检测的性能和鲁棒性,引入视觉信息。该文提出采用基于数据驱动的线性变换生成视觉特征,在提出一个基于统计的VAD一般模型的基础上构建两个单模式的VAD系统,通过两步式的融合方法,得到了多模式的VAD系统。实验表明:同时利用音频和视觉信息的多模式VAD比基于帧能量的听觉VAD在帧错误率上有55.0%的相对下降,在断句错误率上有98.5%的相对下降。这一结果说明多模式VAD方法基本可以避免断句错误,也能够显著改善帧检测性能,是一种相当有效的方法。  相似文献   

4.
针对视频目标检测领域中使用图像检测算法存在的速度与精度相互制约的问题,为充分利用目标在帧之间的运动信息,提出一种结合关联特征和卷积神经网络的视频检测方法.首先,当前视频帧使用图像检测算法提取特征,其次,利用两帧的关联特征预测当前帧的特征图,最后,使用关联特征中的运动信息来修正最终结果.本文的方法最终在ImageNet数据集上进行了实验,结果比当前方法获得了较好的精度提升,同时保持了较快的速度.  相似文献   

5.
苗慧 《长春大学学报》2011,(9):41-42,72
从声母、韵母和声调三个方面讨论了铁岭方言与普通话语音的一些不同之处,如平翘舌不分;舌面塞擦音[t][t‘]和擦音[],送气和不送气音相互混淆;零声母音节前增加声母[n];声母[■]一般由[l]或者[i]所代替;用[iau]代替[ye];省略介音[u];圆唇元音[o]读成[γ]等。声调的区别则体现在调值和变调上。  相似文献   

6.
汉语是由单音节字组成的,而每个音节字又是由声母和调母组成的,分段就是从语言流背景噪声中检取出各音节字并分割出各音节字中声母和调母的范围。本文根据汉语时域参数的统计分布,设置若干阈值,用自动分段程序得出寂静、声母和调母的范围;以语言信号流波形的人工分段结果为标准,得出两句汉语(一句为女声,16个音节字;另一句为男声,9个音节字)的自动分段结果,其准确率达97%以上。  相似文献   

7.
准确地发音,是学好语音、说好普通话的基本功之一.学习汉语音节的声、韵、调,声母是最难理解、最难掌握的一部分.这是因为:第一,声母部分术语多、分类多,语音理论抽象、深奥;第二,学生普遍反映,他们在小学学过的声母的呼读音就是声母的本音,这种发音定势自然就为声母教学造成了一定障碍.对此,在教学实践中,我们相应采取了一些具体措施,并且取得了可喜的成绩.在此将点滴粗浅的体会整理出来,与各位同仁共勉.一、熟悉发音器官的构造与功能,是发准声母语音的  相似文献   

8.
针对监控视频帧复制篡改,提出一种基于时空域特征的篡改检测算法.受空域局部二值模式(LBP)算子设计的启发,设计一种时域TCS-LBP算子,反映当前视频帧与其前后若干帧在同一空间位置像素之间的关系;然后在当前图像上逐点计算TCS-LBP特征值,构造能同时反映当前视频帧时域和空域特征的特征图像;利用特征图像,逐帧检测是否存在帧复制;对于初步检测到的篡改区域,再进行虚警和漏检的修正以及篡改边界的精确定位.实验结果表明,文中算法具有良好的性能,与现有的2种同类算法相比,性能明显提升.  相似文献   

9.
探讨解决壮族群众说普通话时,常将卷舌音声母读成平舌音,将部分音节中的 h声母和x声母丢掉,将hu读成fu等三个问题的途径。  相似文献   

10.
针对三帧差分法在车辆检测任务中出现的前景点误检和漏检问题,提出了一种融合K-means聚类的改进三帧差分车辆检测算法。首先,综合当前图像分别与改进算法所选两帧的差分结果,初步判定像素点类别并定义待分类点;其次,结合待分类点在三帧内的灰度特征对其进行K-means聚类,并依据点的坐标信息修正聚类结果,得到待分类点类别;最后,设计车辆形状修正方法,填补空洞并修正目标边界,完成检测。实验结果显示,改进算法在2种不同场景视频上的检测效果达到了81.72%的平均精确率、93.85%的平均召回率以及87.34的平均F1值,各指标值相比于原三帧差分法平均有11.86%提升,较好解决了检测中前景点误检和漏检的问题。  相似文献   

11.
送气辅音与非送气辅音是普通话辅音中的一对区别特征,在实际应用中需要寻找与之对应的特征参数。传统的M EL能量参数无法对这对特征进行有效的区别,该文在时频域使用W igner分布,提取基于W igner分布的特征参数作为送气辅音和非送气辅音的区别特征参数。经过一个较大语料库的测试,结果显示新的参数能够有效区别这2类不同的辅音,并且有较好的区分效果。  相似文献   

12.
纳西语语音合成的初步研究   总被引:1,自引:0,他引:1  
本文初步建立了一个纳西语按规则语音合成系统,该系统采用共振峰语音合成技术,以350个左右的无调单音节和4种声调模式为合成基元,该系统不仅适用于纳西语文-语转换系统,而且也是一个研究纳西语语音的有力工具。  相似文献   

13.
一种新型语音识别系统   总被引:1,自引:0,他引:1  
提出一种新型语音识别系统,采用帧能量与帧过零率的乘积作为指标量进行语音端点检测,以MFCC作为语音信号特征矢量,基于HMM语音识别模型进行语音识别.同时,提出了一种新的抗噪语音识别方法,通过改进型重复Wiener滤波结合PUM模型进行抗噪语音识别,较好地抑制了噪声干扰,提高了语音识别率.  相似文献   

14.
《清华大学学报》2012,(2):218-224
In continuous speech,the pitch contour of the same syllable may vary much due to its contextual information.The Parallel Encoding and Target Approximation (PENTA) model is applied here to Mandarin speech synthesis with a method to predict pitch contours for Chinese syllables with different contexts by combining the Classification And Regression Tree (CART) with the PENTA model to improve its prediction accuracy.CART was first used to cluster the syllables’ normalized pitch contours according to the syllables contextual information and the distances between pitch contours.The average pitch contour was used to train the PENTA model with the average contour for each cluster.The initial pitch is required with the PENTA model to predict a continuous pitch contour.A Pitch Discontinuity Model (PDM) was used to predict the initial pitches at positions with voiceless consonants and prosodic boundaries.Initial tests on a Chinese four-syllable word corpus containing 2048 words were extended to tests with a continuous speech corpus containing 5445 sentences.The results are satisfactory in terms of the Root Mean Square Error (RMSE) comparing the predicted pitch contour with the original contour.This method can model pitch contours for Mandarin sentences with any text for speech synthesis.  相似文献   

15.
藏语孤立词语音识别系统研究   总被引:3,自引:0,他引:3  
藏语语音研究相当滞后,文章结合语音识别知识和藏语特点,尝试性地研究了藏语孤立词语音识别研究.首先提取MFCC参数作为语音特征参数,形成语音模板库,采用DTW模型实现了语音识别系统,并且针对藏语孤立词多音节的特点,改进了传统的基于短时能量和短时过零率双门限检测法,即加入了音节间静音段时长门限,提高了孤立词语音信号检测的准确性和识别率.  相似文献   

16.
作为一种人机信息交互技术,语音识别技术得到了广泛的应用.介绍了基于凌阳十六位单片机SPCE061A的语音识别系统.并且采用了以传统的线性预测倒谱系数(LPCC)与分形维教相结合的混合参数作为特征参数的语音识别方法.LPCC方法是体现说话人特定的声道共振特性的线性预测方法,而分形维数则可以定量的描述语音气流中的非线性混沌特征.实验结果表明,基于LPCC与分形维数混合参数的语音识别方法要比单一的LPCC参数语音识别方法识别效果好.  相似文献   

17.
说话人识别中改进的MFCC参数提取方法   总被引:1,自引:0,他引:1  
何朝霞 《科学技术与工程》2011,18(18):4215-4218,4227
在说话人识别技术中,特征参数的提取对语音训练和识别有着非常重要的作用。而Mel频标倒谱系数MFCC是一种常用的特征,它能对语音信号进行分析处理,去除对语音识别无关紧要的冗余信息,获得影响语音识别的重要信息。同时由于语音信号具有时变和混沌特性,以非线性随机共振理论和人类对听觉的理解为基础,提出了一种基于随机共振的MFCC特征参数提取方法。通过实验比较两种方法的结果,论证了改进方法的可行性以及优越性,为说话人识别技术中特征参数提取提供了一条新的研究方向。  相似文献   

18.
高性能汉语数码语音识别算法   总被引:13,自引:0,他引:13  
提出了一个高性能的汉语数码语音识别 (MDSR)系统。 MDSR系统使用 Mel频标倒谱系数 (MFCC)作为主要的语音特征参数 ,同时提取共振峰轨迹和鼻音特征以区分一些易混语音对 ,并提出一个基于语音特征的实时端点检测算法 ,以减少系统资源需求 ,提高抗干扰能力。采用了两级识别框架来提高语音的区分能力 ,其中第一级识别用于确定识别候选结果 ,第二级识别用于区分易混语音对。由于采用了以上改进 ,MDSR系统识别率达到了 98.8% .  相似文献   

19.
作为一种人机信息交互技术,语音识别技术得到了广泛的应用。介绍了基于凌阳十六位单片机SPCE061A的语音识别系统,并且采用了以传统的线性预测倒谱系数(LPCC)与分形维数相结合的混合参数作为特征参数的语音识别方法。LPCC方法是体现说话人特定的声道共振特性的线性预测方法,而分形维数则可以定量的描述语音气流中的非线性混沌特征。实验结果表明,基于LPCC与分形维数混合参数的语音识别方法要比单一的LPCC参数语音识别方法识别效果好。  相似文献   

20.
在非合作卫星通信中,针对具有固定帧长及帧同步序列的单通道同频混合信号的参数估计问题,提出了一种基于数据辅助的参数估计算法。该算法先对帧长及帧头起始位置进行估计,并提取帧同步数据构建辅助函数。在与混合信号做相关运算后去除干扰项,峰值搜索得到频率偏移的精确估计值;使用辅助函数简化混合信号,随后基于最大似然估计理论,实现对信号初相信息的提取。在算法研究的基础上,推导了单通道同频混合信号参数估计的修正克拉美罗界,为算法的性能分析提供了理论依据。仿真结果表明,当帧同步信号达到一定数量时,频率偏移估计方差达到10-7,初相估计方差达到10-3,性能接近MCRB理论界。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号