首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 31 毫秒
1.
利用汉语语音的统计指数,从语音丢失的角度出发,分析了在语音数字综合业务网中,语音信号包化长度的变化对通信系统性能的影响,给出了包化长度所满足的数学表达式和实际计算值.  相似文献   

2.
与文本无关的复合策略说话人辨识系统   总被引:4,自引:1,他引:4  
为获得较高的说话人辨识正确率,同时减小辨识系统的时空开销,提出了一种复合策略的辨识系统。采用长时平均频谱作为粗识的特征,定义了相应的辨识判别准则。建立mel-倒谱特征的高斯混合模型(GMM)进行第二步辨识。给出了GMM求解算法的一种简便推导,着重研究了判别阈值,预加重系数,GMM阶次,训练语音长度及辨识语音长度对系统辨识性能的影响。  相似文献   

3.
传统的隐马尔可夫模型的缺点在于不能很好地描述语音信号的动态特性。某些改进算法状态持续时间进行修正,但是也削弱了对实时信号长度变化的适应性。作者在传统的隐马尔夫模型的基础上,通过在引入状态持续时间时,将其归一化。并观察序列长度对它的影响,使之能较好地描述语音信号的动态特性,同时也能较好地自适应描述实时语音信号的长度变化。  相似文献   

4.
本通过对IP电话原理的分析,提出了一种利用缓冲区长度控制IP电话信源发送速率从而提高语音质量的方法,并通过计算机仿真得出实验结果。  相似文献   

5.
设计开发了一种数字语音录入器,它可以反复记录和播放数字语音,以便检验语音质量.数字语音录入器可通过交换系统提供给用户.其实验结果令人满意,最大记录长度可达16s.  相似文献   

6.
针对单通道的语音盲去混响研究中存在的问题,提出了一种盲去混响的方法.首先对语音信号进行可变长度的分段,然后采用复倒谱技术,对房间声学冲激响应进行预估计,得到去混响的初始解,并以此作为盲解卷积算法的初始解进一步去混响.仿真和实验表明,该方法具有很好的去混响效果.  相似文献   

7.
传统的机器翻译模型均基于无噪声环境,即输入的数据是无错误的.但在实际同声传译中,语音识别不可避免会存在错误,这些错误在机器翻译过程中会直接影响其他内容的翻译.因此,统计分析语音识别错误的种类及产生的影响对提高机器翻译的鲁棒性具有指导意义.为了模拟真实语音识别错误,本文通过人工朗读NIST汉英实验测试集,并采用讯飞语音识别系统获取其语音识别结果进行统计分析,主要包括:1)语音识别错误的词性分析;2)语音识别错误的类型分析;3)语音识别错误对翻译性能的影响;4)语音识别错误对其他词翻译的影响.得出的主要结论为:名词和动词出现语音识别错误的次数较多,人名最易出现语音识别错误;同音异形字的语音识别错误出现次数最多;长度较小的句子在翻译时受到语音识别错误影响的程度更加明显;与语音识别错误词距离更近的词的翻译更易受到影响.  相似文献   

8.
为解决待识别语音时长小于10s时,语种识别性能急剧下降的问题,该文提出应用语音时域伸缩(time-scale modification,TSM)技术改变语音的长度(从而改变了语速),并保持其他频域信息不变。首先,对一段待识别语音,应用TSM技术转换为多条时域压缩和时域拉伸后的语音;其次,将这些不同语速的语音与原语音拼接起来,生成一个时长较长的语音;最后,送入语种识别系统进行识别。实验结果表明:所提出的语音时长扩展算法可以显著提升短时语音的语种识别性能。  相似文献   

9.
调度的目标是尽可能降低语音分组时延,同时最大化数据业务的总吞吐量,采用串行调度的方法:先进行语音调度,再进行数据调度。通过一个可调参数Vmax体现语音和数据业务在资源分配上的折衷。算法设计时考虑了可变分组长度给调度带来的影响与约束,提出了一种载波补偿方案以保证在每个调度帧内传输尽可能多的分组,并利用了语音业务特性。仿真结果表明:与Ahmed和Gkkw算法相比,该算法降低了语音分组时延。  相似文献   

10.
调度的目标是尽可能降低语音分组时延,同时最大化数据业务的总吞吐量。采用串行调度的方法:先进行语音调度,再进行数据调度。通过一个可调参数Vmax体现语音和数据业务在资源分配上的折衷。算法设计时考虑了可变分组长度给调度带来的影响与约束,提出了一种载波补偿方案以保证在每个调度帧内传输尽可能多的分组,并利用了语音业务特性。仿真结果表明:与Ahmed和Gkkw算法相比,该算法降低了语音分组时延。  相似文献   

11.
一种特定人声道频率响应的精确的提取方法   总被引:2,自引:2,他引:0  
提出了一种在浊音中切取相当基音长度的一段波形,用傅里叶变换求出谱线,多次填充构造精确声道频率响应函数的新方法.经过实验,证实此方法特别适合特定人的语音识别,也能较好合成出模仿特定人的语音.  相似文献   

12.
为了能够更加准确地评价语音包丢失对基于IP的语音传输(voice over internet protocol,VoIP)的语音质量的损伤,对ITU-T G.107建议书提出的语音质量预测模型E-Model中计算丢包与编码造成的损伤Ie-eff的方法作出改进,在综合考虑语音包的内部特性和存在突发连续丢包情况后,提出利用在固定语音长度下,语音实际损失时间Tloss来衡量语音包丢失造成的语音损伤.仿真结果表明,相比原有模型,改进后的模型得到的语音质量评分同主观语音质量评估方法(perceptual evaluation of speech quality,PESQ)评分相比,皮尔森相关系数平均提高了0.045 8,均方根误差平均降低了0.053 4,改进后的E-Model模型在评价语音质量时与PESQ更具有一致性,可以更为准确地预测VoIP通信的语音质量.  相似文献   

13.
提出一种基于声道长度对齐的年龄语音转换方法.该方法包含频谱转换和基频转换两个方面,前者在频域依据声道因子和弯折函数对已进行基音标注过的每一帧语音的频谱进行弯折转换;后者对基频特征的转换采用线性变换方法.实验结果表明,通过对同一人不同年龄段的语音进行转换合成,由年龄较大语音向年龄较小语音转换时,转换合成得到的语音频谱平均距离得到明显减小,转换效果较好,而从年龄较小语音向年龄较大语音转换时,频谱平均距离减少较小,同时女性年龄语音转换的效果和自然度都好于男性.  相似文献   

14.
用于语音识别的基于高谱分辨率的谱减法   总被引:1,自引:0,他引:1  
提出了一种新的基于高谱分辨率的谱减法,通常噪音帧和带噪语音帧具有相同的长度且都是短时帧,对短的噪音帧和带噪语音帧做傅立叶变换得到的谱分辨率低导致谱减法性能下降严重。基于平稳或接近于平稳的背景噪音下合并所有噪音帧再做傅立叶变换以提高噪音帧的谱分辨率;通过对带噪语音信号在时域进行前向和后向的延拓再做傅立叶变换以提高带噪语音信号的谱分辨率,在有效抑制噪音的同时减少了语音谱的失真并提高了系统识别率。  相似文献   

15.
压缩感知理论框架可以同时实现信号的采样和压缩,将压缩感知应用于语音信号处理是近年来的研究热点之一.本文根据语音信号的特点,采用K-SVD算法获得稀疏线性预测字典,作为语音信号的稀疏变换矩阵.高斯随机矩阵用于原语音信号的采样从而实现信号的压缩,最后通过正交匹配追踪算法(OMP)和采样压缩匹配追踪算法(Co Sa MP)将已采样压缩的语音信号进行信号重构.实验考察了待处理语音信号帧的长度、压缩比,稀疏变换字典以及压缩感知重构算法等因素对语音压缩感知重构性能的影响,结果表明,基于数据集训练的稀疏线性预测字典相比传统解析构造的离散余弦变换字典,对语音的重构性能具有0.6 d B左右的提升.  相似文献   

16.
根据声道模型与AR模型的对应关系,提出一种可用于神经网络语音识别的新特征———语音信号的全局时频特征,从整体上描述LPC倒谱系数的变化规律.其特点是:(1)特征长度固定,为传统的静态神经网络应用于语音识别创造了良好条件;(2)与其他语音识别系统所用的神经网络相比,新特征极大地降低了神经网络的规模及训练时间;(3)基于新特征的系统的识别性能明显优于传统的HMM方法及GMDS算法.  相似文献   

17.
以声旁位于右半边且独立成字的汉语左右结构合体字为材料,操纵汉字的规则性和命名作业的类型,利用命名整字和命名声旁两种命名作业中的规则性效应,分别测量声旁语音对整字语音激活的干扰和整字语音对声旁语音激活的干扰,在此基础上考察了整字与声旁语音不一致时,两种语音相互竞争和干扰的情况。结果发现:(1)高频字整字语音干扰声旁语音激活,但声旁语音并不干扰整字语音激活;(2)低频字整字语音干扰声旁语音激活,声旁语音也干扰整字语音激活,其中整字语对声旁语激活的干扰更明显。这些发现表明,高频字整字语音的获得快于声旁语音的获得,低频字整字语音和声旁语音尽管可能是同时获得的,但是,整字语音的激活水平要高于声旁语音的激活水平。  相似文献   

18.
根据语音的波形编码与参数编码的特性,提出了一种统一格式的数字电路倍增设备方案(Digit-al Circuit Multiple Equipment,DCME).针对电路和分组传输方式,设计了不同的承载结构,从而可以高效的承栽各种业务,能适用于各种语音压缩编码和传真解调再调制的情况.承载帧长度采用2.5ms,明显提高了系统的承栽快速性能.它可以取代ITU-T G.763、G.767和G.768,并能适应未来的更低比特率或更高质量语音编码.  相似文献   

19.
汉语特有的声调特征,表现为基音周期的有规律变化,也就是说声调体现于基音周期变化的模式。本文叙述了用基音模板函数法研究特定说话人核对的语音识别原理和方法,並制成语音识别控制锁。提取说话人语音的特征参数主要是声调特征(包括基音周期的长度及其变化的斜率)和时间特征等。经测试,对语音锁所有者(标准模板)的长期平均识别率为92%,其他人在已知标准单词时识别率为0.33%,未知标准单词时识别率为0%。作为衡量锁功能的指标引了对识别率系数K,当K大于100,语音锁可以实际使用。  相似文献   

20.
为了合成可变音长的语音,若简单地将基音周期拉长或缩短,则会造成基频的降低或升高,从而造成音调的失真.本研究对原始语音的基音变化趋势进行了拉格朗日内插和最小二乘法拟合,并保存其内插及拟合的系数;在合成时,利用系数来恢复并插入基音从而改变发音长度,避免了音调的失真.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号