首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 125 毫秒
1.
基于标准语音的识别系统在识别带有发音变异的口语语料时,识别率较低。针对这一问题,提出了一种在标准维吾尔语发音字典的基础上生成多发音字典的方法。采用基于专家经验和数据驱动相结合的方法分析了维吾尔语方言口音发音变异规则,构造发音变异集合,生成初始的多发音字典,并运用了自动数据处理算法和门限阈值法,使得能够从方言口音训练语音数据中自动获得精简的多发音字典。实验结果表明:该方法对维吾尔语方言口音的识别性能有提升作用。  相似文献   

2.
3.
为了解决在基于稀疏表示的分类算法中,传统字典学习框架下学习得到的字典仅可用于信号重构而并不针对分类的问题,分析和总结了具有代表性的面向分类的字典学习算法,也称判决性字典学习。判决性字典学习算法总体上分为两类:直接使得字典具有判决性和使得表示系数具有判决性。对两类方法进行分析和总结可为本领域算法的发展提供参考,并引起更多研究。  相似文献   

4.
5.
提出一种基于Sparse K-SVD学习字典的语音增强方法,采用Sparse K-SVD算法自适应地训练一个可稀疏表示的冗余字典,在该冗余字典上采用正交匹配追踪(OMP)算法对带噪语音信号进行稀疏分解,利用稀疏系数矩阵重构纯净语音,实现语音增强.使用NOIZEUS语音库进行了一系列的语音增强实验,主客观评测数据表明,基于稀疏表示的语音增强方法(分别使用Sparse K-SVD和K-SVD训练字典)相对于传统语音增强方法(小阈值波法、谱减法、改进谱减法)可进一步改善语音质量;对字典训练时间进行统计,发现Sparse K-SVD算法训练字典消耗的时间为K-SVD算法训练时间的1/6~1/10,大幅度提高了计算效率.  相似文献   

6.
维语口语发音中很多音素相对标准语产生了发音变异,基于标准语音的识别系统在识别带有发音变异的口语语料时识别率较低。该文针对维吾尔语同化、弱化、脱落、元音和谐等语流音变难点进行分析,对语音、韵律特性进行知识融合与技术创新,运用基于数据驱动和基于专家经验相结合的方法对维吾尔语方言口语中存在的发音变异现象进行研究,统计元音、辅音多发音变化映射对,建立音素混淆矩阵,为维吾尔语方言口语语音识别研究奠定基础。  相似文献   

7.
为了研究LSP的稀疏表示方法,高效量化LSP参数,基于字典学习对LSP参数进行稀疏表示,并采用MOD和K-SVD算法训练参数字典,以平均谱失真和均方根误差为准则,通过仿真实验分析了算法的有效性,得出了字典学习时的稀疏度、原子个数等关键参数选取的原则。对比训练和测试LSP参数均方根误差性能曲线发现:随着稀疏度的增加,LSP参数字典外推能力增强,对训练集外参数稀疏表示性能恶化逐步减弱。  相似文献   

8.
提出CTC与Transformer结合的端到端模型,使用多编码器和字层级一致的方法,降低在复杂录制环境下的识别错误率.该端到端模型在自建数据集PSC_Monosyllable的测试集上的词错误率为5.6%.通过预训练,可以实现发音错误检测的正误分类,且比传统机器学习模型检测结果性能提升了16%,有效地提升了发音错误检出率,得出了较好的结果,检测率为0.589.  相似文献   

9.
基于音素的发音质量评价算法   总被引:6,自引:0,他引:6  
面对广大的外语学习者,计算机辅助语言学习系统已经成为一种最佳的口语学习方式。该文提出了一种新的应用于计算机辅助语言学习系统的面向英语学习人群的发音质量评价算法,名为PASS(phone-basedautomaticscoreforl2speechquality)。PASS算法以基于隐含Markov模型的语音识别和口音自适应技术为基础,考察了音素发音的准确性和流利性信息,定义了音素级的发音质量分数,从而可以综合得到整句的评分结果。在实验室自行采集和精细标注的非母语语音库上与其他评分算法进行比较实验,PASS与专家评分的句子级相关性达到了0.66,优于其他算法。目前PASS算法已经被成功地应用于清华大学出版社的互动式语言学习系统中。  相似文献   

10.
基于视觉的人体动作识别方法对光线和视距环境较高,并且存在侵犯隐私的问题,在应用中有局限性。为了解决这个问题,提出一种基于毫米波雷达和字典学习的人体动作识别方法。首先对人体动作的雷达回波信号进行时频分析得到时频图,再使用两种特征提取方法对时频图进行降维描述,将两种降维后的数据融合,通过LC-KSVD字典学习算法同时学习多特征字典和一个线性分类器,最后根据稀疏系数和线性分类器来识别动作。在此基础上,设计77 GHz毫米波雷达动作识别实验系统,结果表明:算法在10种人体动作数据集上达到了97.7%的识别准确率,可见所提方法实现了对人体动作的准确识别。  相似文献   

11.
声训方法的产生表明古人已经认识到音义之间的联系 ,“右文说”已经从在一个平面上进行共时的孤立研究发展为纵向的研究 ,同源词的研究把对词的音义关系研究提高到一个新的水平 ,词的音和义之间具有源和流的关系  相似文献   

12.
语言是人类创造的,直到现在人们还在寻找和探索着各种语言的规律.日语读音中"連濁"现象的规律至今还没有被人们彻底认识.这是由于日语中的读音有许多是约定俗成的,既有一定的规律可循,又有许多不符合规律的现象.使用一些实例对日语读音中"連濁"的规律进行一些探索.  相似文献   

13.
语言是人类创造的,直到现在人们还在寻找和探索着各种语言的规律。日语读音中“连濁”现象的规律至今还没有被人们彻底认识。这是由于日语中的读音有许多是约定俗成的,既有一定的规律可循,又有许多不符合规律的现象。使用一些实例对日语读音中“連濁”的规律进行一些探索。  相似文献   

14.
15.
本文介绍了运用在ATSC制式数字电视中的一种新型的音频编码系统--DolbyE.对它的应用范围、特点、以及技术标准逐一介绍,并把它与Dolby Digital做以比较,得出应用它的原因.  相似文献   

16.
Imbalanced data is a common and serious problem in many biomedical classification tasks. It causes a bias on the training of classifiers and results in lower accuracy of minority classes prediction. This problem has attracted a lot of research interests in the past decade. Unfortunately, most research efforts only concentrate on 2-class problems. In this paper, we study a new method of formulating a multiclass Support Vector Machine (SVM) problem for imbalanced biomedical data to improve the classification performance. The proposed method applies cost-sensitive approach and ramp loss function to the Crammer and Singer multiclass SVM formulation. Experimental results on multiple biomedical datasets show that the proposed solution can effectively cure the problem when the datasets are noisy and highly imbalanced.  相似文献   

17.
Most State-Of-The-Art (SOTA) Neural Machine Translation (NMT) systems today achieve outstanding results based only on large parallel corpora.The large-scale par...  相似文献   

18.
针对网络视频的监管需求,提出了一种基于音频词袋的暴力视频分类方法.采用提取视频中音频流的多媒体内容描述接口(MPEG 7)音频特征(包括音频频谱质心,音频频谱带宽等低层音频特征.)及MPEG 7高层特征——音频签名,来构造每段视频特有的音频词汇,采用该音频词汇出现的频率形成音频词袋特征.采用支持向量机对暴力和非暴力视频进行分类.把词袋模型应用到暴力音频特征分类中,对于不同音频词汇量采用了独特的词汇权重分配机制,同时借助特有的针对暴力视频的分类策略,以提高分类效果.通过3组实验,对不同的音频特征的准确率、不同词汇的分类效果、以及对视觉特征粗分类的精确分类进行了研究.实验结果表明,该方法有较好的查全率.  相似文献   

19.
英语语音学习困难分析与教学实践   总被引:6,自引:0,他引:6  
在英语语音学习中,学生往往会受母语及方言的影响,倾向于将汉语中音素、重音、节奏模式、语言的过渡形式、语调模式及与其他音素的相互作用方式一同迁移到英语之中,难以习得规范的英语语音语调。我们应在系统讲解、个别指导下,运用相应的教学方法,从语音、语调与节奏三个方面实施课堂教学。  相似文献   

20.
抽取音频数据特征的快速离散余弦变换方法   总被引:2,自引:0,他引:2  
针对音频数据库中存原在的问题,提出了一种基于索引的变换,分析了离散余弦变换的特点,得出Ⅱ型和Ⅲ型快速主散余弦变换算法,并把这两种算法用于数据索引特征的抽取和音频信号的重构,所提算法具有搜索速度快、回取精度高的特点,同时也使得音频数据的索引对噪声不敏感,与原数据搜索相比,具有更高的成功率,通过对峰值信号噪音率和回取精度两个指标的评估,验证了这种方法对加快音频数据的搜索速度和提高回取精度的有效性,为音频数据自动分析和分类、基于内容的数据索引和查询、基于近似的搜索提供了快速而有效的手段。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号