首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 281 毫秒
1.
自动语音切分是语音识别、声纹识别、语音降噪等语音应用中非常重要的预处理环节,切分算法的优劣直接影响了系统输出结果的精度.在空管地空通话中,传输信道噪声、天气因素以及说话人工作状态均会对语音信号产生影响,进而在一定程度上影响语音切分性能.在分析空管地空通话语音特性基础上,提出了一种基于CGRU网络多输入特征的自动语音切分方法.该方法结合地空通话的特点,采用深度学习的方法进一步提取语音信号的时域和频域非线性特征,将语音信号帧分类为语音帧、结束帧以及其他帧三类.实验对比了多种语音特征作为输入对切分效果的影响,同时验证了GMM、CNN、CLDNN、CGRU等切分算法在真实地空通话测试集上的表现,并提出了一种简单预测结果平滑算法.实验结果表明,文中提出的自动切分方法在地空通话中具有明显优势,分类模型的AUC值达到了0.98.  相似文献   

2.
文章通过采用两种方法对藏语语音合成语料库中的语音进行音素切分:一种是基于单音素HMM模型的自动切分方法,一种是传统的人工切分方法,并通过实验分析了自动切分与人工切分方法的准确率程度.实验结果表明:在构建语料库时,前者有助于缩短建库周期,尤其对于大语料库的建立会有明显的优势.这种方法既节省了切分与标注的大量时间和人力成本,又提高了语音语料库标注信息的精确度和一致性.  相似文献   

3.
普米语是一种无文字的少数民族语言,目前已处于濒危状态,建立语音语料库及开展语音识别研究是保护和传承普米语的重要手段.基于HTK的语音识别中,参数的选取对不同语言的识别率有很大的影响.针对MFCC维数、HMM状态数及GMM个数这3个参数对普米语的识别率进行研究,结果表明:普米语语音识别的最佳MFCC维数为13维,最佳HMM状态数为8个,最佳GMM个数为3个.  相似文献   

4.
近年来,基于深度学习的神经机器翻译已经成为机器翻译的主流方法.神经机器翻译模型比统计机器翻译模型更依赖于大规模的标注数据.因此,当训练语料稀缺或语料领域不一致时,翻译质量会显著下降.在藏汉翻译中,训练语料大多为政府文献领域且数据稀缺;在汉英语音翻译中,训练语料大多为书面语领域且噪音语料稀缺.为了提高神经机器翻译模型在这2个任务上的表现,该文提出了一种噪音数据增强方法和2种通用的领域自适应方法,并验证了其有效性.  相似文献   

5.
使用基于粒子群算法优化支持向量机识别算法实现对普米语语音的识别.首先通过傅立叶变换绘制出每条普米语语料的语谱图;再次,提取每张语谱图的图像特征构建特征向量;最后,运用支持向量机实现对普米语孤立词的分类.在运用支持向量机进行分类时,为了能够找到全局最优解,使用粒子群算法对支持向量机中的惩罚参数c和核函数参数g进行了优化,基于最优参数的分类准确率达到了89. 8%.  相似文献   

6.
提出一种基于词间关联度度量的维吾尔文本自动切分方法。该方法从大规模生语料库中自动获取维吾尔文单词Bi-gram及上下文语境信息, 在充分考虑维吾尔文单词间结合规则的前提下, 将相邻单词间的互信息、t-测试差及双词邻接对熵的线性融合作为组合统计量(dmd), 度量文本中相邻单词之间的关联程度。以dmd度量的弱关联的词间位置作为切分点进行自动切分, 得到语义及结构完整的词串, 而不仅仅是以空格隔开的单词。在大规模文本语料上进行的测试表明, 该方法的切分准确率达到88.21%。  相似文献   

7.
基于多尺度分形维数的汉语语音声韵切分   总被引:10,自引:0,他引:10  
针对低信噪比环境 ,提出一种汉语语音声韵母切分新方法。以语音信号非线性产生机制中存在混沌特性为依据 ,将普通分形维数扩展为多尺度分形维数 ,用于考察语音信号在不同最大观测分辨率下的局部自相似性。利用稳定声韵母段及其之间过渡段在多尺度分形维数上的不同特性能较好地区分二者。由此针对汉语音节“声母 +韵母”的结构特点设计了一种简单而高效的汉语语音声韵母切分方法。在干净语音测试集下测试 ,切分正确率为 95 .2 % ;在信噪比为10 d B的噪声环境下 ,正确率达到 82 .3%。  相似文献   

8.
讨论和分析了自动分词的现状,并针对分词问题,提出了一种基于规则的中文文本分词自动校对方法。该方法通过对机器分词语料和人工校对语料的对比,自动获取中文文本的分词校对规则,并应用规则对机器分词结果进行自动校对,提高分词语料的质量。  相似文献   

9.
目前,高准确率的语音识别需要在大规模语料库上进行学习才能获得,然而大规模语料库的构建成本较高,某些语言很难采集到充足的语料,因此,基于小规模语料库的语音识别已成为目前挑战性的研究问题.元学习是模仿人类利用已有经验快速学习新知识的机器学习方法,在机器视觉单样本学习任务中表现出明显的优势,已成为新的机器学习研究热点.将元学习应用于单样本语音识别是解决基于小规模语料库语音识别这一挑战性问题的有效途径,在TIMIT和佤语数据库上,开展了基于Reptile元学习算法的单样本孤立词语音识别研究.实验结果表明,该算法能有效地提升模型收敛速度与泛化精度,从而提升了模型的学习能力,说明元学习方法有助于解决小规模语料语音识别这一挑战性问题.  相似文献   

10.
汉字输入智能人机交互界面的若干改进方法   总被引:1,自引:1,他引:1  
对当前几种汉字识别与输入系统的人机交互界面 ,进行深入分析、研究和探讨 .对文字识别“后编改状态”存在的问题 ,提出机器的自动感知结合动态识别以提高识别准确性 .在语音识别校对方面 ,提出一种能让机器“听懂”的简单“语言”,来辅助机器对识别的结果进行有效修改 .在键盘输入方面 ,则提出字、词同时分区显示 ,可减少击键次数同时减少使用者查找所选字、词的时间 .最后 ,提出结合多种输入手段 ,可解决当前单一汉字输入手段识别率难以提高的瓶颈  相似文献   

11.
一种基于段间距离测度的语言自动分割方法   总被引:5,自引:0,他引:5  
根据连续语音中不同类语音段之间内在的相异性,提出了段间距离的概念,并基于特征矢量距离给出了段间距离的一种测度。在此基础上,提出一种新的语音自动分割方法,它根据语音段间距离曲线的峰值点对语音音素进行分割,而不需要关于语音单元的先验知识或参考模型,在该方法中,语音特征矢量按帧计算,通过采用适当的帧重迭度,可以使语音分割具有较高的时间分辨率,实验结果表明,该方法具有较高的分割精度和速度。  相似文献   

12.
参数滤波的基本思想是以一个变化的参数对信号进行滤波,得到信号在不同频带中的分量,可以证明若滤波参数以一定的规律变化,则这些滤波分量的一阶自相关表示了信号的相关结构、利用该方法对语音信号进行音素分段并对分段效果进行了鲁棒性分析,实验证明该方法分段效果好、鲁棒性强,是一种有效的音素分段算法。  相似文献   

13.
尝试将依存树转化为短语结构树, 并基于规则的方法自动检测出人工标注结果中的错误。将该方法应用于已经过两遍人工校对的北京大学多视图依存树库, 从50275个句法树中发现1529处错误, 正确率为100%。进一步, 所有错误可以分为3个层次: 分词错误、词性与句法角色不符、句法角色错标。该方法可以有效提高依存树库的质量, 并且适用于各类型的依存树库。  相似文献   

14.
汉语孤立词声韵分割算法的研究   总被引:2,自引:0,他引:2  
文章从汉语语音评价系统设计的需要出发,针对DTW算法和汉语音节的特点,研究并实现了汉语音节中声母和韵母分割的两种算法,算法依据的基础都是依据不同类语音段数据相异的原理.在实际系统测试中,发现基于段间距离的分割算法取得了良好的实验结果,可以作为汉语语音评价系统中的声韵分割算法.  相似文献   

15.
汉语语音音素分割的一种新方法   总被引:3,自引:0,他引:3  
音素分割在大词汇量连续语音识别的过程中起着重要的作用 .该文提出了一种简单实用的音素分割方法 ,比较好地解决了这个问题 ,并在大词汇量汉语语音识别中得到了应用 ,取得了较好的结果  相似文献   

16.
混响声场中语音识别方法研究   总被引:1,自引:4,他引:1  
免提式话筒语音识别系统是语音识别走向实用的目标之一.实现这一系统,首先要解决房间效应引起的混响问题.通过讨论室内混响声场中语音的特点,提出用鲁棒性特征参数——滤波规整的Mel频率倒谱参数(FNMFCC,即MFCC参数在对数功率谱域进行低通滤波,倒谱域进行均值减,并用标准差加权进行非线性规整,采用这3种措施来消除混响引起的语音参数的变化.识别方法用矢量量化法,用4组无混响数码语音进行训练,对特定人无混响和4种混响声场中共150组数码音的平均识别率达到98.7%.提出的这一新方法在不降低无混响音识别率的情况下,提高了混响声场的语音识别率.该方法不仅识别率高,而且运算量小、所需内存空间小。易于做成小型实用的快速识别系统.  相似文献   

17.
提出了一种可用于嵌入式ASR系统的语音/噪声分类的新方法,该方法利用一个噪声模型,对每帧信号的评价值进行语音/噪声分类.实验表明,该方法可以有效地区分语音和噪声,并表现出在各种噪声环境和不同信噪比条件下的鲁棒性.该算法已经集成进一个ASR系统,并在Corn-paq iPAQ上进行了测试,其计算代价不到整个系统代价的10%.  相似文献   

18.
Using a total of 297 segmented sections, we reconstructed the three-dimensional (3D) structure of pure iron and obtained the largest dataset of 16254 3D complete grains reported to date. The mean values of equivalent sphere radius and face number of pure iron were observed to be consistent with those of Monte Carlo simulated grains, phase-field simulated grains, Ti-alloy grains, and Ni-based super alloy grains. In this work, by finding a balance between automatic methods and manual refinement, we developed an interactive segmentation method to segment serial sections accurately in the reconstruction of the 3D microstructure; this approach can save time as well as substantially eliminate errors. The segmentation process comprises four operations:image preprocessing, breakpoint detection based on mathematical morphology analysis, optimized automatic connection of the breakpoints, and manual refinement by artificial evaluation.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号