首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到17条相似文献,搜索用时 203 毫秒
1.
汉语孤立词声韵分割算法的研究   总被引:2,自引:0,他引:2  
文章从汉语语音评价系统设计的需要出发,针对DTW算法和汉语音节的特点,研究并实现了汉语音节中声母和韵母分割的两种算法,算法依据的基础都是依据不同类语音段数据相异的原理.在实际系统测试中,发现基于段间距离的分割算法取得了良好的实验结果,可以作为汉语语音评价系统中的声韵分割算法.  相似文献   

2.
针对传统方法难以处理连音分割的问题,提出基于信息熵的粒子群优化分割方法.利用信息熵对语音进行粗分割,在长语音段计算时间序列复杂度的基础上,通过粒子群优化算法,寻找以长语音段的信息熵均值为适应值的分割点.实验结果表明,与基于短时能量与过零率、信息熵等分割算法相比较,提出的粒子群优化分割方法在分割准确率上有较大提高.  相似文献   

3.
龙山蹬上苗语与当地汉语密切接触,其内部结构受到汉语的强烈影响。目前龙山蹬上苗语正处于向汉语转型过程.出现许多新特点,其中语音的不稳定性很突出,本文主要描写和解释这些语音不稳定现象。  相似文献   

4.
蔡姗  王林  谭棉  郭胜  吴磊  王飞 《科学技术与工程》2024,24(19):8176-8185
少数民族语言的语音合成有助于民族文化的传承、保护和发展,目前相关研究成果较少。针对不同声调的相同词发音相似时易出现语音合成错误的问题,该文提出一种基于子音节表征的苗语语音合成方法,该方法利用子音节作为训练基元来表征苗语发音信息,以区分学习不同音节间的相似发音。根据文本序列和梅尔谱图之间对齐的单调性,引入单调对齐损失来指导注意力模块进行更准确的对齐学习,以减少因注意力机制的自回归性带来的跳词、重复等合成现象。为验证所提方法的有效性,以自建苗语语音合成语料库HmongSpeech(下载链接:http://sxjxsf.gzmu.edu.cn/info/1728/1214.htm)作为基准数据集,与典型的语音合成方法进行对比实验。实验结果表明,所提方法能够降低不同声调的相同词发音相似时导致的合成错误率,词错误率仅为0.96%,较基线方法改善了6.25%。  相似文献   

5.
BP人工神经元网络与汉语语音的音节切分   总被引:1,自引:0,他引:1  
提出了一种基于BP人工神经元网络的汉语语音声韵母分割算法.计算机模拟结果表明,该算法只需对极少数典型音节进行简单训练,便可实现汉语语音的声韵母分割,且分割精度远大于传统算法所能获得的精度.  相似文献   

6.
提出了一种基于双权值神经网络的非特定人连续语音识别的新算法.这种算法可以不经过端点检测和分割,构建连续语音中各不同音节的特征空间覆盖区,可以避免因分割错误而带来的错误识别.通过实验得到了较为满意的识别结果.  相似文献   

7.
双门限算法是语音端点检测的一种重要方法,对藏语语音识别和处理具有重要意义。提出了用双门限端点检测技术对藏语语音进行音节分割的方法,首先根据双门限语音端点检测原理进行Matlab编程和仿真,然后结合藏语语音的音节特点和双门限算法分别在正常语速和慢语速环境下对藏语的30个辅音语音、随机抽取的双音节、三音节及句子语音进行双门限算法的音节分割和分析,实验表明双门限算法对没有太多连读音节的藏语语音和慢语速下长句的音节分割准确率较高。  相似文献   

8.
语音是人类表达情感的重要方式之一,语音中情感信息的识别已然成为人机交互不可或缺的组成部分,目前的语音情感识别技术存在一定的问题,如冗余大、识别率低等,故提出一种改进KNN识别算法。首先提取能够表征音频情感信息的特征参数,并通过优化算法对其进行筛选,然后对优化特征集运用所提算法进行识别验证。实验结果表明,笔者所提的识别算法能够用于基于语音信息的个体情绪识别状态。  相似文献   

9.
基于组合神经网络和模糊聚类的话者分类   总被引:2,自引:0,他引:2  
基于话者分类的自适应语音识别是实现非限定人、大字表语音识别的一种很有前途的有效方法.本文设计了一种用于话者分类的主从式组合神经网络,以神经预测模型作为从网络,可以从短语音(一个音节,约0.3秒)中有效地提取、规正和压缩话者个人性信息;主网络采用具有很强聚类功能的自组织特征映射网络.针对话者个人性信息的模糊性,提出了模糊系统聚类算法和双类心聚类算法.实验验证了组合神经网络对于话者分类的有效性以及模糊聚类算法对不同文本的语音样本具有较好的适应性  相似文献   

10.
一种基于自适应模糊滤波的语音增强方法   总被引:1,自引:0,他引:1       下载免费PDF全文
在语音识别和语者识别中,通常需要先将输入的语音信号进行去噪处理,这样可使识别的正确率大大提高,通常采用基于LMS算法和RLS算法的自适应线性滤波器来进行去噪。提出了一种基于自适应模糊滤波器的语音增强方法,该模糊滤波器是一种非线性滤波器,它在语音信号的特征域空间采用参数映射的方式来滤除噪声,并能够进行自适应结构调整和参数更新。实验结果表明,采用自适应模糊滤波器来滤除噪声比线性滤波器具有更好的效果。  相似文献   

11.
分析了Horspool算法的原理及特点,提出了一种适用于方块苗文环境的字符串模式匹配算法.该算法结合方块苗文的编码方式及字符串查找的特点,通过对Horspool算法中的字符处理单位进行扩展来适应方块苗文的字符串匹配.实验结果表明,在单字词、双字词和多字词的方块苗文字符串匹配过程中,该算法均呈现出较好的性能,能够用于解决方块苗文的快速检索问题.  相似文献   

12.
为提高汉语连续语音识别系统的性能,建立了音节间相关的半音节识别单元,并研究了基于这种单元的连续语音识别算法。讨论了基于 D D B H M M 模型和最大后验概率估计准则的连续语音识别的理论基础,依据动态规划的基本原理,提出了一种基于音节间相关的识别单元的汉语连续语音识别算法。依照这种算法,不但能得到最优句子侯选,而且能够在识别过程中得到音节格(即 Nbest句子侯选)的数据结构。最后通过大词汇量非特定人连续语音识别的实验,表明了采用音节间相关的识别单元比基本的识别单元误识率有明显的降低  相似文献   

13.
Limits on bilingualism   总被引:1,自引:0,他引:1  
A Cutler  J Mehler  D Norris  J Segui 《Nature》1989,340(6230):229-230
Speech, in any language, is continuous; speakers provide few reliable cues to the boundaries of words, phrases, or ther meaningful units. To understand speech, listeners must divide the continuous speech stream into portions that correspond to such units. This segmentation process is so basic to human language comprehension that psycholinguists long assumed that all speakers would do it in the same way. In previous research, however, we reported that segmentation routines can be language-specific: speakers of English do not. French has relatively clear syllable boundaries and syllable-based timing patterns, whereas English has relatively unclear syllable boundaries and stress-based timing; thus syllabic segmentation would work more efficiently in the comprehension of French than in the comprehension of English. Our present study suggests that at this level of language processing, there are limits to bilingualism: a bilingual speaker has one and only one basic language.  相似文献   

14.
湘西方块苗文是湖南湘西苗族地区使用的一种文字,对该文字的机器识别还几乎处于空白状态.预处理是整个文字图像识别过程的前提,其处理的效果将直接影响到文字图像特征提取和识别的效果.采用加权平均法对湘西方块苗文图像进行灰度化,采用Ostu算法对其进行二值化处理,基于同态滤波和改进的中值滤波相结合的方法对其进行平滑和归一化,得到适于湘西方块苗文图像预处理的方法,为后续的湘西方块苗文识别研究提供基础.  相似文献   

15.
In this paper, an adaptive spatial clustering method is presented for automatic brain MR image segmentation, which is based on a competitive learning algorithm – self-organizing map (SOM). We use a pattern recognition approach in terms of feature generation and classifier design. Firstly, a multi-dimensional feature vector is constructed using local spatial information. Then, an adaptive spatial growing hierarchical SOM (ASGHSOM) is proposed as the classifier, which is an extension of SOM, fusing multi-scale segmentation with the competitive learning clustering algorithm to overcome the problem of overlapping grey-scale intensities on boundary regions. Furthermore, an adaptive spatial distance is integrated with ASGHSOM, in which local spatial information is considered in the clustering process to reduce the noise effect and the classification ambiguity. Our proposed method is validated by extensive experiments using both simulated and real MR data with varying noise level, and is compared with the state-of-the-art algorithms.  相似文献   

16.
TD-PSOLA技术在汉语语音波形编码合成中的应用   总被引:1,自引:0,他引:1  
以时域基音同步叠加(PSOLA)技术和一个全汉语单音节库为合成单元进行汉语语音波形编码合成,针对汉语语音的音高、时长、音强以及音节之间的协同发音效应等影响合成语音质量的主要因素,建立相应音节的声调曲线、时长规则和音节之间协同发音规则等韵律规则,并利用时域基间同步叠加法原理调整合成语音的音高和时长,从而使合成的语音比较清晰自然。  相似文献   

17.
基于多尺度分形维数的汉语语音声韵切分   总被引:10,自引:0,他引:10  
针对低信噪比环境 ,提出一种汉语语音声韵母切分新方法。以语音信号非线性产生机制中存在混沌特性为依据 ,将普通分形维数扩展为多尺度分形维数 ,用于考察语音信号在不同最大观测分辨率下的局部自相似性。利用稳定声韵母段及其之间过渡段在多尺度分形维数上的不同特性能较好地区分二者。由此针对汉语音节“声母 +韵母”的结构特点设计了一种简单而高效的汉语语音声韵母切分方法。在干净语音测试集下测试 ,切分正确率为 95 .2 % ;在信噪比为10 d B的噪声环境下 ,正确率达到 82 .3%。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号