首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 31 毫秒
1.
计算机辅助语音训练系统需要检测非母语者的错误发音,并提供详细的指导性反馈,有助于第二语言学习者更有效地提高发音水平.利用深度全序列卷积神经网络(Deep full convolutional neural network, DFCNN)和链接时序分类(Connectionist temporal classification, CTC)技术,建立了一种用于发音偏误检测和诊断任务的端到端语音识别方法.该方法不需要音位信息,也不需要强制对齐,以扩展声韵母为偏误基元,设计了64种偏误类型.实验结果表明,该方法能够有效地检测出错误发音,检测正确率为87.07%,错误拒绝率为7.83%,错误接收率为25.97%.  相似文献   

2.
基于小数据量的方言普通话语音识别声学建模   总被引:1,自引:0,他引:1  
为在少量数据情况下显著提高方言普通话的识别率,针对标准普通话和方言普通话之间发音差异是连续变化的特点,在少量方言普通话的基础上,提出了基于距离度量的识别基元扩展方法,并将扩展基元与状态相关的基于基元的模型归并方法相结合.采用1 h的上海普通话数据作为开发集,用本方法,使音节错误率降低了17.3%. 另外与自适应方法的结合使用,还可以将音节错误率再降低6.6%, 这比单纯应用自适应方法错误率多降低了5.4%.  相似文献   

3.
针对已有的发音字典扩展方法只能从文本数据中学习新词而无法学习到音频数据中新词的问题,提出了一种基于混合语音识别系统的发音字典新词学习方法。该方法首先分别采用音节和字母音素对混合识别系统对音频数据进行集外词识别,利用系统间的互补性得到尽可能多的新词及其发音候选,然后借助感知器与最大熵模型对得到的新词及发音进行优化,降低错误率,最后实现发音字典的扩展,并利用语法语义信息完成对语言模型参数更新。基于华尔街日报(WSJ)语料库的连续语音识别实验表明:该方法可以有效学习到音频数据中的未知新词,采取的数据优化策略极大地提高了所得新词及发音的精度;在词错误率指标下,字典扩展后系统的识别性能相对基线系统提高约13.4%。  相似文献   

4.
针对决策树C5.0算法在建模中不同代价值的错误分类没有在建模过程中区别对待,使得模型错误分类代价较高的问题.论文使用误判代价值和代价矩阵以降低高代价错误率,从而实现在模型总体错误率变化不大的情况下,实现C5.0算法所建模型的错误分类代价最小.实验证明优化后的模型在测试数据中高代价错误率从原模型的1.52%降到了0,说明代价矩阵的应用效果非常明显,一般代价错误率也有所下降,低代价错误率基本持平.  相似文献   

5.
为了提升计算机辅助发音训练(CAPT)系统中发音偏误趋势(PET)的检测效果,确保反馈信息的准确性与有效性,提出一种基于对数似然比的发音特征方法。该方法将多个基于深度神经网络的发音特征提取器用于生成帧级别的对数似然比,然后将对数似然比组成的发音特征用于PET的检测,为学习者提供发音位置和发音方法的正音信息。实验结果表明,发音特征对PET的检测效果优于常用声学特征(MFCC,PLP和f Bank),当发音特征与MFCC特征相结合时,可以进一步提升性能,达到错误接受率为5.0%,错误拒绝率为30.8%,诊断正确率为89.8%的检测效果。  相似文献   

6.
汉语是声调语言,相同的音节带上不同的声调所代表的语义就很不相同.为了便于计算机辅助语言学习或用于普通话水平测试系统,准确地检测出声调的发音错误,该文采用精细的上下文相关的声调建模(contextdependent tone model,CDTM),并通过度量与实际发音最相符合的声调模型与预期的声调模型问的KL散度(Kullback-Leibler Divergence,KLD)来检测声调发音的正确性.实验结果表明,在控制错误接受率和错误拒绝率相等的前提下,错误接受率约为6.7%.  相似文献   

7.
基于数据包负载的网络入侵检测   总被引:1,自引:0,他引:1  
通过分析正常的网络数据流负载的字节统计分布,提出了一个基于网络数据包负载的异常检测模型,模型的产生完全是自动的、无监督的和高效的.模型训练阶段,针对特定主机的每一个端口,计算经过该端口的数据包负载的字节出现频率的平均值和标准差,根据计算结果产生统计分布检测模型.检测阶段,利用马氏距离计算新的数据和训练阶段产生的统计模型的相似性,根据计算结果和距离临界值的比较检测入侵.使用1999 DARPA IDS数据集对所建模型进行测试,结果显示该模型对于检测某些针对特定的端口的攻击有效,特别是在检测80端口的数据包时,正确率几乎达到100%,而错误率为0.1%.  相似文献   

8.
抽取了3种典型的单词后验概率特征(基于固定位置的词后验概率、基于目标位置窗的词后验概率、基于词对齐的词后验概率)和3种语言学特征(词、词性、句法分析器抽取的句法特征),并在此基础上抽取了一个来自源端的单词特征,然后基于中英NIST数据集,采用最大熵分类器来验证不同单词后验概率特征(WPP)独立使用及与其它特征组合后使用时对错误检测性能的影响。实验结果表明,采用不同方法计算得到的单词后验概率特征对分类错误率的影响是显著的,并且在单词后验概率和语言学特征组合基础上加入源端单词特征,可以显著降低分类错误率(CER),提高译文错误检测能力。  相似文献   

9.
对于小样本数据集,YOLOv3神经网络框架在训练时存在特征利用率和特征传递效率低的问题,其网络性能得不到充分利用,为解决这些问题,该研究提出基于改进的YOLOv3轻量化神经网络模型,该网络模型将YOLOv3基础框架中的ResNet残差网络结构改为DenseNet的密集串联结构,并将多尺度输出结构删减到2个.在自制麻将子数据集上的实验表明,改进YOLOv3的神经网络的每秒计算帧数(FPS)对比改进前提升了119.03%,预测目标与实际对象交并比(IoU)在0.5以上的平均检测精确度(mAP-50)提升了2.45%.将改进模型推广至开源数据集Kaggle以及Caltech上,改进模型相比原模型的每秒计算帧数分别提升了124.39%、140.05%,预测目标与实际对象交并比在0.5以上的平均检测精度分别提升了12.5%、5.34%.  相似文献   

10.
端到端的语音识别通过用单个深度网络架构表示复杂模块,减少了构建语音识别系统的难度.文中对传统的混合链接时序分类(Connectionist temporal classification, CTC)模型和基于注意力机制(Attention-based)模型的端到端语音识别架构进行了改进,通过引入动态调整参数对CTC模型和基于注意力机制模型进行线性插值,从而实现混合架构的端到端语音识别.将改进后的方法应用在中文普通话语音识别中,选择带投影层的双向长短时记忆网络(Bidirectional long short-term memory projection, BLSTMP)作为编码器网络模型,声学特征选取80维的梅尔尺度滤波器组系数和基频共83维特征.实验结果表明,与传统的端到端语音识别方法比较,文中方法在普通话语音识别上能够降低3.8%的词错误率.  相似文献   

11.
针对Attention过于灵活的对齐方式在复杂环境中适应性差、简单端到端模型对语言特征利用不充分的问题,研究了基于多任务损失附加语言模型的语音识别方法.通过分析语音信号特征,训练中选用包含更多信息的特征.以基于Attention的Conformer端到端模型为基础,采用CTC损失辅助纯Conformer (Attention)的多任务损失训练模型,得到Conformer-CTC语音识别模型.在Conformer-CTC模型基础上,通过分析对比部分语言模型的特点与效果,将Transformer语言模型通过重打分机制附加至上述模型的训练中,最终得到Conformer-CTC-Transformer语音识别模型.在AISHELL-1数据集上对上述模型进行了试验.结果表明:Conformer-CTC模型相对于纯Conformer (Attention)模型在测试集上的字错率(character error rate,CER)降低了0.49%,而Conformer-CTC-Transformer模型相对于Conformer-CTC模型在测试集上的CER又降低了0.79%.CTC损失可以改善Att...  相似文献   

12.
为解决EEG自动检测的错误率非常高的问题,提出了一种基于深层卷积神经网络(CNN)对脑电图进行异常检测的方法:首先,对多个异构数据源按标准进行重构和预处理,生成了有118 716个样本的训练集和有12 022个样本的测试集;然后,构建有快捷连接的深层CNN模型,以自动化学习ECG特征并进行分类识别; 接着,将模型在训练集上进行试验与调参,保存了性能最好的模型参数; 最后,在测试集上进行预测.预测结果显示该模型达到了94.33%的分类准确率.通过所提方法对脑电信号进行处理与分析,能够自动提取EEG特征并进行异常识别,从而达到快速检测与辅助诊疗的目的.  相似文献   

13.
该文基于优化的检测网络和多层感知(multi-layerperception,MLP)特征,提出一种可以更加准确地检测出错误发音类型的方法。首先,从第二语言学习的语音库中提取出基本的发音规则以及组合的发音规则,并相应地计算它们发生的先验概率,再将这些具有先验概率的规则用于构建基于多发音的扩展检测网络。然后在检测过程中,引入基于发音特征的MLP特征来描述发音概率,替代了传统的语音声学特征。最后使用基于MLP特征的GMM-HMM框架从检测网络中识别出最可能的发音音素串。实验表明:该方法将音素识别正确率提高了3.11%,错误类型准确率提高了7.42%。  相似文献   

14.
针对牲畜面部识别在养殖行业广泛需求的问题, 提出一种基于卷积神经网络的猪脸特征点检测方法, 解决了猪脸特征点难检测的问题. 首先, 采集猪面部数据并进行特征点标注, 使用新的采集方法以解决猪口部通常不可见的问题; 其次, 对猪脸数据和人脸数据进行结构计算, 匹配相似度较高的猪脸和人脸, 构建猪脸人脸匹配数据集; 再次, 利用匹配数据集训练TPS(thin plate spline)形变卷积神经网络, 得到形变后的猪脸数据集以适配人脸特征点检测模型; 最后, 使用形变猪脸数据集对人脸特征点检测神经网络模型进行微调, 得到猪脸特征点检测模型. 实验结果表明, 用该方法进行猪脸特征点检测, 错误率仅为5.60%.  相似文献   

15.
在消费金融服务场景下,存在用户逾期还款的情况。在逾期协商还款过程中,少量用户篡改图像凭证,实现不当得益。这些篡改集中在个人信息、印章、出具单位等具有很强的上下文语义联系内容上。基于此,在传统空域直接像素空间RGB和频域离散余弦变换(discrete cosin transform, DCT)作为判别特征的基础上,引入了文字块、印章块的位置关系和反卷积网络,实现了一种包含语义关系的端到端全卷积神经网络模型。该模型在天池2022年“真实场景篡改图像检测挑战赛”的数据集上,相对于传统模型平均交并比有3.97%的提升,在实际凭证图像篡改判断中,提升了3.7%的篡改检测准确率。  相似文献   

16.
文章提出一种基于YOLOv4的端到端多任务网络模型用于自动泊车系统中的感知任务,以环视图像(around view monitor, AVM)作为网络输入,基于卷积网络提取图像特征信息,通过YOLO和DMPR-PS(directional marking-point regression-parking slot)检测头实现停车位与障碍物并行检测。在PS 2.0公开数据集上进行验证的结果表明,所提出的多任务检测方法能够同时检测停车位和障碍物,障碍物识别平均精度均值达到89.72%,车位识别查准率达到93.53%,网络检测速率为34.0帧/s,在满足自动泊车感知任务需求的同时提升了系统的检测效率。该文研究成果对自动泊车感知技术的发展具有一定的意义。  相似文献   

17.
研究了基于信源量化、信道错误和差错隐藏的视频传输端到端失真问题.提出了一种基于视频编码流结构的端到端失真度估算方法.采用帧间递归,以宏块为单位根据信道平均误比特率和视频编码信息在编码器端实时估算端到端失真.仿真结果表明,对于绝大部分视频测试序列,在不同信道误比特率下,该方法模型估算的平均相对偏差小于8%,平均绝对偏差控制在0.9 dB以内,准确度高,为基于率失真或联合功率率失真优化中的失真估算提供一个有力的工具.  相似文献   

18.
鉴别局部特征分析及其在人脸识别中的应用   总被引:1,自引:0,他引:1  
由于传统的鉴别主分量分析(DKL)算法中,主分量分析(PCA)基于全局特征,难以提取人脸的局部特性,该文提出鉴别局部特征分析算法.该算法中,局部特征分析(LFA)代替PCA作为线性鉴别分析(LDA)的前端.一方面,LFA在保留大部分全局信息的同时提取局部特征.另一方面,它为信号提供一种有效的低维表示,增强LDA在小样本问题中的数值稳定和推广性能.文中结合开集模式的人脸认证领域,在PoliceFace、OCRLab人脸库和它们的组合库上对新算法和DKL算法进行实验比较.实验表明,通过结合LFA和LDA,新算法明显降低认证错误率在PoliceFace库上,等错误点错误率降低43.10%;在OCRLab库上错误率降低25.87%;在组合库上错误率降低33.16%.  相似文献   

19.
深度神经网络技术在汉语语音识别声学建模中的优化策略   总被引:1,自引:1,他引:0  
将深度神经网络作为声学模型引入面向汉语电话自然口语交谈语音识别系统。针对自然口语中识别字错误率较高的问题,从语音的声学特征类型选择、模型训练时元参数调节以及改善模型泛化能力等方面出发,对基于深度神经网络的声学模型建模技术进行了一系列的优化。针对训练样本中状态先验概率分布稀疏的情况,提出了一种状态先验概率平滑算法,在一定程度上缓解了这种数据稀疏问题,经平滑后,字错误率下降超过1%。在所采用的3个电话自然口语交谈测试集上,相对于优化前的深度神经网络模型,经过优化后的模型取得了性能的一致提升,字错误率平均相对降低15%。实验结果表明,所采用优化策略可以有效地改善深度神经网络声学模型性能。  相似文献   

20.
现有停车位检测方案大多将目标检测方案和人工设计的后处理模块进行简单结合,各阶段提取的特征存在大量冗余信息.并且,人工设计的后处理模块通常适应面窄,计算量大,最终导致停车位检测效果难以实用.针对这些问题,本文引入全景视觉,结合现有算法的优点与环视图像的特点,设计端到端的无锚框停车位检测算法.该算法对停车位进行进入线朝向建模,而非单独考虑两个入口点,省去了停车位入口点匹配和朝向判断流程,最终实现完全一体化的停车位位置、朝向和占用情况检测.考虑到实用性,在网络结构设计上进行了速度和精度的平衡、正负样本均衡,以及无后处理等多方面优化.最终,在ps2.0数据集上,本文提出的AFPSD模型以88.7的FPS(每秒帧数)达到68.7%的AP,相较VPS-Net和DMPR-PS方案精度分别提升1.2%和2.1%.由此可知,本文设计的一阶段端到端方案可以代替三阶段方案,在环视图像上实现停车位的稳定检测.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号