期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

钱胜吕萍吴及《清华大学学报(自然科学版)》2009,(Z1)

该文分析讨论了连续语音识别系统中的快速高斯计算问题。语音信号的短时平稳特性,使得相邻语音帧可能共享相似的分布。最大概率增量估计算法利用该特性,估计当前帧与基准帧间似然值增量的最大值,以减少似然值的精确计算量。该文针对该算法中增量上界被高估的问题,在增量上界平滑、最优G auss候选、风险因子设定等方面进行了改进。实验结果表明,在几乎不损失识别率的情况下,改进后的M P IE算法可节约40%的维数计算,解码速度相对提高10%。相似文献

2.

非凸段长分布隐含Markov模型的搜索算法

吴及肖熙许琳王作英《清华大学学报(自然科学版)》2005,45(7):924-927

基于段长分布的隐含Markov模型(DDBHMM)可解决经典隐含Markov模型(HMM)的状态段长指数分布的问题,实现了基于凸性假设的搜索。为解决非齐次模型的搜索算法问题,提出采用混合Gauss分布来拟合非凸段长分布,用子状态拆分的方法来实现非凸段长分布DDBHMM识别算法。在音乐信号识别上的实验表明:该方法在召回率提高1.1%的情况下,使准确率提高约10%。该方法实现了非凸段长分布HMM的识别算法,并且对于其他非凸段长信号具有推广价值。相似文献

3.

连续语音识别中的说话人快速自适应技术 总被引：2，自引：0，他引：2

吕萍吴及王作英陆大 《清华大学学报(自然科学版)》2002,42(7):977-980

语音识别技术中说话人快速自适应技术受到普遍关注。该文综述了说话人快速自适应技术在国际上的研究现状 ,并且介绍了本研究组提出的快速自适应方法 ,即最大似然模型插值快速自适应框架及插值算法。与现有的相关自适应方法相比 ,该算法在更复杂的识别系统上同时实现了均值和协方差的自适应 ,并取得较好的自适应效果。当仅有一句自适应数据时 ,识别系统的误识率从 2 8.75 %下降到2 4 .93%。相似文献

4.

连续语音识别系统中测度计算的快速算法研究 总被引：3，自引：0，他引：3

吴及刘丰王作英《清华大学学报(自然科学版)》1999,39(5):geMap1

随着语音识别技术的迅速发展,其实用化前景已经逐步明朗起来,而语音识别系统实时化是首先必须解决的问题。由于测度计算占用了整个识别系统中绝大部分的计算量,所以降低测度计算的复杂度是系统实时化的首要问题。在对此加以分析的基础上,根据两级识别的思想,改进了基于决策树的方法,更进一步提出了基于Ｃｈｏｌｅｓｋｙ分解的Ｍ对角线方法,介绍了这些方法的原理和实现,并在大量实验的基础上对结果进行了比较和分析,说明了方法的实用效果。改进后的系统在识别率稍有下降的情况下使识别时间大为减少。相似文献

5.

基于支持向量机与多观测复合特征矢量的语音端点检测 总被引：1，自引：0，他引：1

张晓雷吴及吕萍《清华大学学报(自然科学版)》2011,(9):1209-1214

该文提出了一种新的多观测复合特征(MO-CF)用于基于支持向量机(SVM)的语音端点检测(VAD)。该特征是由2个子特征经平衡因子加权构成。特征的优化目标是寻找能使VAD的性能曲线下面积(AUC)最大化的平衡因子,以综合各个子特征的优点。在子特征选择方面,要求各个子特征不仅本身具有较好的性能,而且存在互补性。针对该要求,提出2种组合特征MO-CF1和MO-CF2。由多观测信噪比(MO-SNR)特征与多观测最大概率(MO-MP)特征复合而成的MO-CF2比MO-CF1更稳健。实验结果表明:在多种噪声环境下,相比于已有的9种VAD算法,该算法具有更好的性能和更高的稳健性。相似文献

6.

一种快速的语音识别词图生成算法

李伟吴及王智国《清华大学学报(自然科学版)》2009,(Z1)

词图的高效生成算法是语音识别领域的重要研究课题。该文提出了一种基于词格的词图生成算法(trellis-based lattice-generating algorithm,TBLG),该算法在正向Viterbi解码生成的词格(trellis)基础上,进行反向A*解码生成词图。实验结果表明,与经典的解码器HDecode相比,TBLG生成的词图最优备选效果优于Hdecode。生成高密度词图时,TBLG在解码速度上远远快于HDecode。同时在相同识别率下,TBLG算法生成的词图更加简洁。相似文献

7.

药物表示学习研究进展

陈鑫刘喜恩吴及《清华大学学报(自然科学版)》2020,60(2):171-180

药物开发过程存在资本密度高、风险大、周期长的特点,需要投入大量的资金、人力与物力。传统的机器学习方法虽然可以在一定程度上辅助药物开发,但需要分子描述符作为特征输入,而不同的分子描述符的选择对机器学习模型的性能影响较大,因此传统的机器学习方法大多需要进行繁复、耗时的特征工程。近年新兴的深度学习方法,能够从药物的"原始"结构中直接提取特征,从而绕开特征工程,缩短开发周期。该文将现有的药物表示学习方法划分为2类:基于简化分子线性输入规范(SMILES)表达式的药物表示学习和基于分子图的药物表示学习,报告了这两类药物表示学习方法的最新研究进展,阐述了各种方法的创新点与局限性。最后,指出了当前药物表示学习研究中存在的重大挑战,并讨论了可能的解决方案。相似文献

8.

用于语音识别的空间相关性变换

苏腾荣吴及王作英《清华大学学报(自然科学版)》2009,(10)

针对经典隐含Markov模型忽略了语音信号之间的依存关系的问题,提出一种线性特征变换——空间相关性变换,利用同一个说话人的不同语音单元之间的相关性(空间相关性)得到鉴别性能更好的新特征。该变换的最优变换矩阵在最小协方差准则下得到。识别系统采用新特征及其模型参数代替原特征及其模型参数进行Viterbi搜索。实现空间相关性变换的关键是最优变换矩阵的计算,提出了两种相应的算法。实验结果表明:该方法在说话人无关识别系统上取得了比自适应方法更好的性能,同时该方法与自适应方法结合应用可进一步提高系统性能。相似文献

9.

口语对话系统中的一种稳健语言理解算法

陈俊燕吴及王侠王作英《清华大学学报(自然科学版)》2005,45(1):21-24

为提高口语对话系统中语言理解的稳健性,提出了一种基于最大后验统计框架的两级搜索的理解算法.第一级用概念捆绑达到提取句中关键成分并剔除某些干扰成分的目的; 第二级采用改进的基于树扩展的稳健句法分析搜索最佳理解结果,同时引入用户意图推断和句子特征短语两方面的信息对搜索空间进行约束,进一步提高了理解的稳健性和实时率.实验表明,该算法应用于火车信息查询领域,在0.22倍实时下,能得到13.6%的句意理解错误率和25.4%的概念理解错误率,相对基线系统分别为降低了23.2%和9.3%. 相似文献

10.

基于MLER的语音/音乐分类方法

胡艳芳吴及刘慧星《清华大学学报(自然科学版)》2008,48(Z1):720-724

音频分类是音频信号处理中一项重要的预处理工作.该文描述了一种基于能量的分类方法,将音频信号分为语音和音乐2种类型.分类的过程分为3个阶段,首先计算优化低能量率MLER(modifiedlow energy ratio)作为特征,然后利用初级分类器得到初步分类的结果,最后利用音频类别的前后相关性,使用上下文分类器修正初始分类得到最终分类的结果.该文重点对MLER中参数的合理选取范围进行了讨论,并对传统的初始分类器作了改进,用非参数分类器和参数分类器代替原有的Bayes硬判决的方法,避免了由于门限选择不当所带来的分类错误.实验表明,使用参数分类器时,对纯语音和纯音乐分类效果很好,正确率达99％以上. 相似文献