首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 890 毫秒
1.
为了提升计算机辅助发音训练(CAPT)系统中发音偏误趋势(PET)的检测效果,确保反馈信息的准确性与有效性,提出一种基于对数似然比的发音特征方法。该方法将多个基于深度神经网络的发音特征提取器用于生成帧级别的对数似然比,然后将对数似然比组成的发音特征用于PET的检测,为学习者提供发音位置和发音方法的正音信息。实验结果表明,发音特征对PET的检测效果优于常用声学特征(MFCC,PLP和f Bank),当发音特征与MFCC特征相结合时,可以进一步提升性能,达到错误接受率为5.0%,错误拒绝率为30.8%,诊断正确率为89.8%的检测效果。  相似文献   

2.
正音反馈的计算机辅助对外汉语发音训练系统已有发音偏误趋势的标注体系和基于HMM的偏误趋势检测系统。为了进一步提高系统的性能,该文应用深度神经网络进行声学建模,比较Mel频率倒谱系数(Mel-frequency cepstral coefficient,MFCC)、感知线性预测分析系数(perceptual linear predictive analysis,PLP)和Mel滤波器组系数(Mel filter bank,FBank)3种声学特征参数,并利用网格联合技术整合3种声学特征所得的候选网格。实验结果表明:DNN-HMM模型比GMM-HMM实现了更高检测正确率。针对不同发音偏误趋势,3种声学特征有不同表现,联合系统取得最高性能,最终性能为:错误拒绝率5.5%,错误接受率35.6%,检测正确率88.6%。  相似文献   

3.
该文基于优化的检测网络和多层感知(multi-layerperception,MLP)特征,提出一种可以更加准确地检测出错误发音类型的方法。首先,从第二语言学习的语音库中提取出基本的发音规则以及组合的发音规则,并相应地计算它们发生的先验概率,再将这些具有先验概率的规则用于构建基于多发音的扩展检测网络。然后在检测过程中,引入基于发音特征的MLP特征来描述发音概率,替代了传统的语音声学特征。最后使用基于MLP特征的GMM-HMM框架从检测网络中识别出最可能的发音音素串。实验表明:该方法将音素识别正确率提高了3.11%,错误类型准确率提高了7.42%。  相似文献   

4.
计算机辅助语音训练系统需要检测非母语者的错误发音,并提供详细的指导性反馈,有助于第二语言学习者更有效地提高发音水平.利用深度全序列卷积神经网络(Deep full convolutional neural network, DFCNN)和链接时序分类(Connectionist temporal classification, CTC)技术,建立了一种用于发音偏误检测和诊断任务的端到端语音识别方法.该方法不需要音位信息,也不需要强制对齐,以扩展声韵母为偏误基元,设计了64种偏误类型.实验结果表明,该方法能够有效地检测出错误发音,检测正确率为87.07%,错误拒绝率为7.83%,错误接收率为25.97%.  相似文献   

5.
针对已有的发音字典扩展方法只能从文本数据中学习新词而无法学习到音频数据中新词的问题,提出了一种基于混合语音识别系统的发音字典新词学习方法。该方法首先分别采用音节和字母音素对混合识别系统对音频数据进行集外词识别,利用系统间的互补性得到尽可能多的新词及其发音候选,然后借助感知器与最大熵模型对得到的新词及发音进行优化,降低错误率,最后实现发音字典的扩展,并利用语法语义信息完成对语言模型参数更新。基于华尔街日报(WSJ)语料库的连续语音识别实验表明:该方法可以有效学习到音频数据中的未知新词,采取的数据优化策略极大地提高了所得新词及发音的精度;在词错误率指标下,字典扩展后系统的识别性能相对基线系统提高约13.4%。  相似文献   

6.
汉语作为我们的母语,与日常生活联系密切。由于汉语的深入人心,一些人的汉语发音习惯或多或少的影响着他们的英语发音。本文列举了教学过程中遇到的几种错误发音,阐述了汉语发音对英语发音产生的影响。使人们在发现问题的基础上,有针对性地纠正英语发音,力求实现发音的纯正。  相似文献   

7.
提出CTC与Transformer结合的端到端模型,使用多编码器和字层级一致的方法,降低在复杂录制环境下的识别错误率.该端到端模型在自建数据集PSC_Monosyllable的测试集上的词错误率为5.6%.通过预训练,可以实现发音错误检测的正误分类,且比传统机器学习模型检测结果性能提升了16%,有效地提升了发音错误检出率,得出了较好的结果,检测率为0.589.  相似文献   

8.
实际环境下,一个说话人识别系统的性能受到很多因素的影响,说话人自身发音方式的变化所引起的训练与识别语音的不匹配是其中很重要的一个方面。该文以一个含有多种发音方式变化的数据库为基础,对于不限定发音方式变化类型的情形,在分数域提出了一系列发音方式分数规整(S-Norm)的解决方法。实验结果表明:SZ-Norm、ST-Norm及SZT-Norm的做法均使系统的整体性能在基线基础上有了明显提高,尤其是在SZT-Norm的情况下等错误率下降约为27%,这说明基于分数规整的方法是有效的。  相似文献   

9.
汉语是声调语言,相同的音节带上不同的声调所代表的语义就很不相同.为了便于计算机辅助语言学习或用于普通话水平测试系统,准确地检测出声调的发音错误,该文采用精细的上下文相关的声调建模(contextdependent tone model,CDTM),并通过度量与实际发音最相符合的声调模型与预期的声调模型问的KL散度(Kullback-Leibler Divergence,KLD)来检测声调发音的正确性.实验结果表明,在控制错误接受率和错误拒绝率相等的前提下,错误接受率约为6.7%.  相似文献   

10.
基于音素的发音质量评价算法   总被引:6,自引:0,他引:6  
面对广大的外语学习者,计算机辅助语言学习系统已经成为一种最佳的口语学习方式。该文提出了一种新的应用于计算机辅助语言学习系统的面向英语学习人群的发音质量评价算法,名为PASS(phone-basedautomaticscoreforl2speechquality)。PASS算法以基于隐含Markov模型的语音识别和口音自适应技术为基础,考察了音素发音的准确性和流利性信息,定义了音素级的发音质量分数,从而可以综合得到整句的评分结果。在实验室自行采集和精细标注的非母语语音库上与其他评分算法进行比较实验,PASS与专家评分的句子级相关性达到了0.66,优于其他算法。目前PASS算法已经被成功地应用于清华大学出版社的互动式语言学习系统中。  相似文献   

11.
讨论一类含有参数不确定性且具有状态滞后的广义时滞系统的观测器型最优保成本控制器设计问题.不确定性假设是时变的且范数有界.通过基于状态观测器的线性状态反馈控制并采用一种新方法,结合凸优化理论得到了不确定广义时滞系统的最优保成本控制器的设计方法.该控制器的设计使得在满足一定的条件下对所有的不确定性,广义时滞系统是鲁棒可镇定的且二次型保成本指标最小,并证明了所得结论等价于一组线性矩阵不等式(LMIs)的可解性问题.最后给出实际算例验证了设计方法的有效性.  相似文献   

12.
通过分析CVT速比控制系统的结构及基本控制原理,确定该系统具有时滞弱非线性特性,论述了常规PID控制算法以及单一的DMC控制算法应用于该系统的局限性.针对这一问题,设计了DMC-PID串级预测控制算法,该算法将经过PID校正的速比控制系统作为广义的控制对象,用DMC预测算法在线滚动优化控制参数,在优化过程中利用实测信息不断进行反馈校正,充分发挥DMC算法的超前预测性和强鲁棒性以及PID控制算法的抗干扰能力.台架实验结果表明,与常规的PID算法相比,该算法能有效减小速比跟踪过程中的波动,超调量由14%下降为4%,过渡时间由6 s缩短为4.5 s,提高了系统的动静态性能.  相似文献   

13.
智能交通系统中基于GSM网络的移动定位技术   总被引:3,自引:0,他引:3  
基于全球移动通信系统(GSM)网络的移动定位技术,提出一个符合智能交通系统(ITS)要求的定位试验系统,给出其结构组成,并利用GSM信令实现时间提前(TA)/信号到达时间(TOA)混合定位。仿真结果表明,TA/TOA定位对67%的用户定位精度达70m,通过与基于全球定位系统(GPS)定位方法和现行GSM定位能力的分析比较,试验系统在实施代价、网络覆盖有效性等方面具有优势,在现行GSM系统下具有实用价值。  相似文献   

14.
针对正交频分复用(orthogonal frequency division multiplexing, OFDM)系统多用户中继场景中混合业务对时延的不同需求,提出一种基于合理反馈机制下的降低时延、保证混合业务服务质量的调度算法(mixed services with feedback scheduling , MSFS)。MSFS算法针对用户实时业务及非实时业务的不同需求分别采用不同的调度准则及反馈方式,以达到优化系统性能的目的。针对实时业务,增大其调度优先级以减少等待时延,并在其等待时延接近时延门限时,使其调度优先级迅速增加,以避免丢包;针对非实时业务,加入时延公平因子,使得该类用户业务在时延公平性方面得到改善,同时设置适当的反馈门限,在不影响业务服务质量需求的同时达到降低系统反馈量的目的。仿真结果表明,该算法在保证系统吞吐量和用户公平性的同时,不仅能够有效降低实时用户的时延,而且能够较大程度地减少系统反馈量。  相似文献   

15.
针对具有时变外部扰动的不确定线性奇异系统,研究基于状态反馈的有限时间控制问题,系统的状态矩阵和输入矩阵均含有范数有界不确定项。利用Lyapunov泛函方法和线性矩阵不等式(LMI)工具,给出了不确定奇异系统经由状态反馈的有限时间有界(FTB)的充分条件。这些充分条件都可转化为线性矩阵不等式可行性问题。并通过一个数值实例说明了该方法的有效性。  相似文献   

16.
如何有效地挖掘变量与标签之间的相互关系和处理高维数据是自动图像标注的两个具有挑战性的问题。以往的自动图像标注都是基于向量模式的学习算法,这样一方面产生高维数据,另一方面破坏了图像数据的高阶结构和内在相关性,导致信息丢失。向量模式下的罚偏最小二乘算法(penalized partial least square,PPLS)可以在获取变量和标签相关性的同时,进行维度约简。在PPLS的基础上,提出基于张量罚偏最小二乘算法(tensor-PPLS)。首先构造图像的张量数据形式,然后采用多线性主成分分析(MPCA)进行降维预处理,最后用tensor-PPLS进行图像标注。在图像标注的三个标准数据集上,提出的算法标注结果明显优于传统的基于向量模式的学习算法。  相似文献   

17.
针对相干光正交频分复用(coherent optical orthogonal frequency division multiplexing,CO-OFDM)系统中相位噪声引起的载波间干扰(inter-carrier interference,ICI)问题,提出了一种基于线性预处理的新判决反馈相位噪声抑制算法。该新算法改进了线性预处理部分,利用循环前缀与OFDM符号固有的相关性,在时域进行简单的线性组合运算,充分利用了OFDM符号中冗余信息。仿真分析表明,在激光器线宽为200 kHz且误码率(bit error rate, BER)为10-4时,与判决反馈相位噪声抑制算法和一次迭代的判决反馈相位噪声抑制算法相比,该新算法BER曲线的信噪比(signal to noise ratio,SNR)分别改善了3 dB和1 dB,有效地降低由ICI引起的错误平层。  相似文献   

18.
为了进一步降低有限反馈系统的反馈量,提出一种基于树形码本的高效反馈方案.对于具有时间相关性的信道,下一时刻最优码字的分布取决于当前时刻波束成形矢量,树形码本的特点是同一支上的码字在矢量空间上距离较近,在已知当前时刻码字的条件下,将搜索范围限定在一个小码本内,从中搜索最优码字,从而降低反馈量.仿真结果表明:基于树形码本设计的高效反馈方案能在不降低系统性能的前提下有效地减少系统反馈信息量;反馈量的减少和信道多普勒频偏有关,多普勒频偏越小,信道的变化越缓慢,搜索码本也越小,反馈量改善效果就越明显.因此,在具有时间相关信道中,利用所提出的基于树形码本的高效反馈方案,能以较低的反馈量获取与传统方案相似的系统性能.  相似文献   

19.
In recent years, multimedia annotation problem has been attracting significant research attention in multimedia and computer vision areas, especially for automatic image annotation, whose purpose is to provide an efficient and effective searching environment for users to query their images more easily.In this paper, a semi-supervised learning based probabilistic latent semantic analysis ( PL-SA) model for automatic image annotation is presenred.Since it' s often hard to obtain or create la-beled images in large quantities while unlabeled ones are easier to collect, a transductive support vector machine ( TSVM) is exploited to enhance the quality of the training image data.Then, differ-ent image features with different magnitudes will result in different performance for automatic image annotation.To this end, a Gaussian normalization method is utilized to normalize different features extracted from effective image regions segmented by the normalized cuts algorithm so as to reserve the intrinsic content of images as complete as possible.Finally, a PLSA model with asymmetric mo-dalities is constructed based on the expectation maximization( EM) algorithm to predict a candidate set of annotations with confidence scores.Extensive experiments on the general-purpose Corel5k dataset demonstrate that the proposed model can significantly improve performance of traditional PL-SA for the task of automatic image annotation.  相似文献   

20.
Introduction Spatial multiplexing is a simple technique that allows multiple-input multiple-output (MIMO) wireless sys- tems to attain high spectral efficiencies. Unfortunately, the lack of spatial redundancy makes spatial multiplex- ing susceptible to ra…  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号