期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

杨雅婷马博王磊吐尔洪·吾司曼李晓《清华大学学报(自然科学版)》2011,(9):1230-1233,1238

维语口语发音中很多音素相对标准语产生了发音变异,基于标准语音的识别系统在识别带有发音变异的口语语料时识别率较低。该文针对维吾尔语同化、弱化、脱落、元音和谐等语流音变难点进行分析,对语音、韵律特性进行知识融合与技术创新,运用基于数据驱动和基于专家经验相结合的方法对维吾尔语方言口语中存在的发音变异现象进行研究,统计元音、辅音多发音变化映射对,建立音素混淆矩阵,为维吾尔语方言口语语音识别研究奠定基础。相似文献

2.

多发音字典在维吾尔语方言语音识别中的应用

杨雅婷马博王磊吐尔洪·吾司曼李晓《清华大学学报(自然科学版)》2011,(9):1303-1306

基于标准语音的识别系统在识别带有发音变异的口语语料时,识别率较低。针对这一问题,提出了一种在标准维吾尔语发音字典的基础上生成多发音字典的方法。采用基于专家经验和数据驱动相结合的方法分析了维吾尔语方言口音发音变异规则,构造发音变异集合,生成初始的多发音字典,并运用了自动数据处理算法和门限阈值法,使得能够从方言口音训练语音数据中自动获得精简的多发音字典。实验结果表明:该方法对维吾尔语方言口音的识别性能有提升作用。相似文献

3.

借助音频数据的发音字典新词学习方法

《西安交通大学学报》2016,(6)

针对已有的发音字典扩展方法只能从文本数据中学习新词而无法学习到音频数据中新词的问题,提出了一种基于混合语音识别系统的发音字典新词学习方法。该方法首先分别采用音节和字母音素对混合识别系统对音频数据进行集外词识别,利用系统间的互补性得到尽可能多的新词及其发音候选,然后借助感知器与最大熵模型对得到的新词及发音进行优化,降低错误率,最后实现发音字典的扩展,并利用语法语义信息完成对语言模型参数更新。基于华尔街日报(WSJ)语料库的连续语音识别实验表明:该方法可以有效学习到音频数据中的未知新词,采取的数据优化策略极大地提高了所得新词及发音的精度;在词错误率指标下,字典扩展后系统的识别性能相对基线系统提高约13.4%。相似文献

4.

THUYG-20:免费的维吾尔语语音数据库

《清华大学学报(自然科学版)》2017,(2)

语音数据资源是语音识别研究的基础。当前国内只有为数不多的开放的语音数据库供研究者免费使用,特别是在维吾尔语等少数民族语音识别方面,数据资源更为贫乏。该文发布一个完全免费的维吾尔语连续语音数据库,该数据库包括约20h的训练数据和1h的测试数据,同时介绍了构建维吾尔语语音识别系统所需要的音素集、词表、文本数据等相关资源,以及用于构建基线系统的脚本。给出了该基线系统在纯净测试数据和噪声测试数据上的识别性能。该数据库为维吾尔语语音识别研究提供了可以借鉴的标准数据库。相似文献

5.

维吾尔语大词汇语音识别系统识别单元研究

努尔麦麦提·尤鲁瓦斯吾守尔·斯拉木热依曼·吐尔逊《北京大学学报(自然科学版)》2014,50(1)

维吾尔语是一种黏着语,单词不太适合作为维吾尔语大词汇连续语音识别系统识别单元。针对维吾尔语大词汇连续语音识别系统中的识别单元选择问题,设计更适合维吾尔语的子词识别单元,提出维吾尔语单词和子词相结合的组合识别单元构建方法,并对单词、子词和组合识别单元的语言模型和语音识别性能进行评价。实验结果表明,所提出的识别单元在单元数量、语言模型复杂度等方面表现出更加优越的性能,并且使识别系统的单词错误率比基于单词的系统相对减少22%。相似文献

6.

从语言学的角度分析我国英语学习者的辅音发音问题

黄丽艳金慧敏《科技信息》2010,(5):187-187,202

随着交流的日益国际化,英语的实际应用能力以及英语口语的流畅表达成为现代英语学习的必需,英语语音是学好英语口语的基础,辅音是英语语音中的的重要组成部分,从语言学的角度来说,语音是处于语言学习的核心位置,而辅音又是语音学习的核心和基础,所以加强辅音的学习对我国英语学习者是不可忽视的一方面。但是受各方面的影响．我国英语学习者在辅音发音方面存在着各种问题,从语言学的角度,通过对辅音发音方法和发音器官的全面具体分析,总结英语辅音发音问题,并针对这些问题提出具体的训练方法,不仅能为辅音学习提供客观依据,还能为提高英语学习者的语音能力和口语水平提供新的思路。相似文献

7.

基于音节的维吾尔语大词汇连续语音识别系统

努尔麦麦提·尤鲁瓦斯吾守尔·斯拉木热依曼·吐尔逊《清华大学学报(自然科学版)》2013,(6):741-744

维吾尔语是一种黏着语,基于单词的语言模型不太适合于维吾尔语大词汇连续语音识别任务。该文提出了适合维吾尔语的基于音节的语言模型,引入最大匹配分词算法评价音节语言模型在大词汇连续语音识别任务中的单词识别性能。实验结果表明:基于音节的语言模型在未登录词和模型复杂度等方面表现出比基于单词的语言模型更加优越的性能,并且使识别系统的单元错误率比基于单词的系统减少了50%。因此,在维吾尔语语音识别任务上可以将音节作为识别单元。相似文献

8.

基于归一化算法的噪音鲁棒性连续语音识别

刘妍秀孙一鸣杨华民《吉林大学学报(理学版)》2015,53(3):519-524

针对归一化方法在连续语音特征曲线调整时存在的问题, 提出一种优化解决方案, 解决了噪声的不稳定性及不可预测性对语音特征的影响. 结果表明, 基于该优化方法建立的鲁棒性连续语音识别模型可实现在实验室干净环境和现实噪音环境下同时得到较好的识别结果. 相似文献

9.

基于GSOM模型的音位范畴习得建模

《清华大学学报(自然科学版)》2016,(11)

为了探究神经网络模型在儿童语言习得模拟研究中的应用,该文在可扩展的自组织网络模型(growing selforganizing map,GSOM)算法的基础上,模拟了婴幼儿习得标准德语部分元音和辅音音位范畴的过程。该研究将优化的网络扩展策略和"循环性强化和复习训练"学习算法与传统的GSOM算法进行了结合。模拟结果显示:"循环性强化和复习训练"算法可以有效地提高模型网络的学习质量;模型算法可以较好地习得元音音位和辅音发音方式的范畴,并构建相应的知识网络。建模研究的结果表明:在习得语言的过程中,通过对语音声学信息的加工,婴幼儿有能力习得元音音位和辅音发音方式的范畴,并构建元音音位在声学空间内的分布关系。相似文献

10.

基于特征波形内插与频带扩展技术的低速率宽带语音编码器

王晶匡镜明谢湘《北京理工大学学报》2007,27(2):166-170

考察了特征波形内插(CWI)算法对于宽带语音编码的扩展能力.分析宽带特征波序列的性质表明,直接使用传统的特征波形内插算法并不适于增强宽带语音的编码效率及对计算复杂度的兼顾,可引入频带扩展(BWE)技术单独处理高频段.宽带语音的高、低频分别由特征波形内插编码和频带扩展算法恢复,由此形成了5.15 kbit/s的低速率宽带语音编码器,增强了语音真实感、辅音的辨析度及对话者的识别度,宽带语音编码质量接近AMR-WB的6.6 kbit/s结果. 相似文献

11.

基于多任务损失附加语言模型的语音识别方法

柳永利张绍阳王裕恒解熠《江苏大学学报(自然科学版)》2023,(5):564-569

针对Attention过于灵活的对齐方式在复杂环境中适应性差、简单端到端模型对语言特征利用不充分的问题,研究了基于多任务损失附加语言模型的语音识别方法.通过分析语音信号特征,训练中选用包含更多信息的特征.以基于Attention的Conformer端到端模型为基础,采用CTC损失辅助纯Conformer (Attention)的多任务损失训练模型,得到Conformer-CTC语音识别模型.在Conformer-CTC模型基础上,通过分析对比部分语言模型的特点与效果,将Transformer语言模型通过重打分机制附加至上述模型的训练中,最终得到Conformer-CTC-Transformer语音识别模型.在AISHELL-1数据集上对上述模型进行了试验.结果表明：Conformer-CTC模型相对于纯Conformer (Attention)模型在测试集上的字错率(character error rate,CER)降低了0.49%,而Conformer-CTC-Transformer模型相对于Conformer-CTC模型在测试集上的CER又降低了0.79%.CTC损失可以改善Att... 相似文献

12.

基于小波分析的梅尔频率倒谱参数? 总被引：1，自引：0，他引：1

董丽娜何怡叶卫平《北京师范大学学报(自然科学版)》2015,(5):469-474

采用HMM模型和MFCC参数的语音识别器对普通话中声母音素的区分度不够理想,而在基于识别的计算机辅助发音教学系统中的辅音的识别具有特别重要的意义.考虑到相同发音位置不同发音方式的声母音素变化较快且高频信息较多,本文将小波分析的方法引入到提取梅尔频率倒谱参数(MFCC)的过程当中,来提高信号高频部分的时域分辨率,提出了基于小波分析的梅尔倒谱参数MFCC_Wavelet.结合高低频不同分帧方式的MFCC_Wavelet参数与HMM模型的语音识别器,本文测试了MFCC和MFCC_Wavelet两种参数在4类发音中的区分性,实验结果表明,在相同发音位置不同发音方式、塞音与不塞音、送气音与不送气音及擦音与不擦音4类发音错误中,MFCC_Wavelet的总体效果好于MFCC. 相似文献

13.

语速对普通话音段产生的影响

《清华大学学报(自然科学版)》2017,(9)

语速影响音段的语音实现以及相邻音段发音动作的时间关系,然而对普通话音段产出的影响却并不清楚。该文使用动态电子腭位方法分析语速对普通话跨音节辅音丛/#C2/中音段发音动作的时间关系以及V1#C2V2中音段的生理和声学特征的影响。研究发现:辅音丛音段发音动作的绝对时差和动作重叠度随语速的加快而增大;音段的生理/声学时长与语速线性相关,语速对辅音动作幅度的影响与辅音发音部位和方式有关;元音动作幅度减弱,在声学上表现出央化的趋势。研究结果表明:普通话语速控制与音段发音动作的时间关系以及音段动作的时空特征有关,音段发音属性和发音人发音策略也影响不同语速条件下的音段产出。相似文献

14.

基于非特定发音人拉祜语孤立词语音识别研究 总被引：3，自引：2，他引：1

王米利佘玉梅苏洁刘敬凤潘文林《云南民族大学学报(自然科学版)》2015,24(4):337-340

选用200个拉祜语常用词,以词为识别单元,利用语音识别工具箱HTK开展非特定人拉祜语孤立词的语音识别研究.研究发现:特定发音人的识别率比较稳定,针对非特定发音孤立词,通过增加模型的混合高斯数目,其识别率得到显著提高,使得识别正确率保持在99%以内,为拉祜语孤立词识别提供了有效方法. 相似文献

15.

基于PAS6600的藏语送气/不送气辅音气流信号研究

《西北民族学院学报》2017,(3):12-17

文章以藏文字母中的七组送气与不送气辅音为研究对象,利用语音空气动力学PAS6600提取各个辅音的气流信号参数.从呼气时长、平均呼气速度、呼出气流量等三项参数,分析相同辅音的各项参数在不同性别间存在的差异,以及不同发音方法和发音部位的辅音在同一气流信号中的不同表现.发现在藏语中不送气音的呼气时长比送气音大;平均呼气速度的大小从男女平均呼气速度的平均值来看送气音的平均呼气速度比不送气音大;呼出气流量的信号虽受发音方法和发音部位的影响,但主要还是跟发音人的性别有关系,即男性的呼出气流量比女性的呼出气流量要大,这主要跟其生理特征有直接的关系. 相似文献

16.

基于MAML和改进MobileNet模型的低龄儿童语音词汇识别

马孟星鄢元霞马春晓潘文林《云南民族大学学报(自然科学版)》2023,(3):346-351

语言能力测试常用于评估低龄儿童的词汇储备等能力,运用语音识别等人工智能技术能够提高语言能力测试的工作效率,从而让更多的语言发育迟缓儿童能被尽早发现并得到治疗.低龄儿童语音相较于成人语音更难识别,且缺乏相关公开数据集,为了解决语言能力测试场景下的低龄儿童语音词汇识别问题,采集72名2～3岁儿童的语音数据,对具有参数少、计算成本低等特点的MobileNet模型进行了改进,并使用模型无关的元学习方法(MAML)优化改进模型,使改进模型适用于小样本环境下的低龄儿童语音词汇识别.实验证明,相关改进措施均能提高模型的儿童语音词汇识别性能. 相似文献

17.

论语音象征

吴汉《甘肃科技》2011,27(1):187-189

语音象征探究语音形式和意义间的直接关系,众多研究者涉及多种语言的研究表明,语音象征在世界语言中普遍存在。语音是一系列声学和发音生理学特征的综合,从这些特征入手才能更好地认识语音象征。通过英汉两种语言素材,尝试从元音、辅音、音丛、声调和音长等几方面对其展开分析讨论,以期取得一个更全面的认识。相似文献

18.

不同录音环境对语音特征的影响研究

陈维娜曾庆发《中国人民公安大学学报(自然科学版)》2018,(4):18-23

不同的录音环境会对人的发音造成一定的影响。通过听觉分析、视谱比较和声学参数测量等方法研究发音人在大学校园宿舍、教室、食堂、操场4种不同录音环境下语音特征的变化情况,总结归纳出不易受环境因素影响的语音特征、易受到影响而发生变化的语音特征,以期为声纹鉴定实践提供参考依据。相似文献

19.

基于元度量学习的低资源语音识别

《云南民族大学学报(自然科学版)》2021,(3)

随着大数据及设备超强运算能力的出现,语音识别系统的性能得到了大幅提升.但在低资源语音识别研究中,由于缺乏足够的训练数据,模型很容易出现过拟合、识别精度低等问题.为此,提出了采用元度量学习方法来解决低资源环境下的语音难识别问题,该方法是先将大量类似且不相交的任务用于模型训练,让模型从中学会如何比较样本相似性;最后再在新任务中通过计算样本的相似度来识别未知样本.实验表明:元度量学习方法能够有效避免模型过拟合、提升模型泛化能力,实验在低资源语言(佤语和普米语)孤立词语音识别中均取得了显著的识别效果. 相似文献

20.

电视背景环境下语音命令识别系统

范婷刘宏《华中科技大学学报(自然科学版)》2011,39(Z2):312-315

设计了一种电视背景环境下的非特定人语音控制命令识别系统,包括基于隐马尔可夫模型的孤立词识别子系统和基于扩展信息最大化(Infomax)独立成分分析算法的语音分离子系统.本语音识别系统的语音库包括8 400个电视机转台控制命令的语音数据.在无噪环境下对特定语音命令的识别率可达93.2％,正常电视背景环境下的识别率降至49.0％,对电视背景下通过分离后的语音命令识别率可达85.8％. 相似文献