期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

徐嘉明张卫强刘加夏善红《清华大学学报(自然科学版)》2013,(6):800-803

训练数据和测试数据之间由于信道等差异而引起的不匹配会严重影响语种识别的性能。而在实际应用中,通常只能获得少量的和测试数据匹配的标注数据(目标域数据),以及大量的和测试数据不匹配的标注数据(源域数据)。该文利用迁移学习的方法,通过无监督迁移分量分析(unsupervised transfer component analysis,UTCA),可以合理利用上述两种数据寻找到一个低维子空间,在该空间中,源数据和目标数据之间的分布差异最小,而且数据中有利于分类的属性得以保留,从而提高系统识别性能。实验表明:相对于基线系统,该算法对30s和10s语音的识别性能分别有24.7%和8%的提高。相似文献

2.

Multi-Level Error Detection and Concealment Algorithm to Improve Speech Quality in GSM Full Rate Speech Codecs

王林芳刘加刘小青李明《清华大学学报》2011,16(3):247-255

Digital mobile telecommunication systems, such as the global system for mobile (GSM) system, want to further improve speech communication quality without changing the channel encoders and decoders. Speech quality is most affected by residual bit errors in received speech frames. Conventional methods use binary decision strategies for error detection and concealment in frames. This paper presents a multi-level error detection and concealment algorithm for GSM full rate speech codec systems. The algorithm use... 相似文献

3.

电话语音的多说话人分割聚类研究 总被引：2，自引：0，他引：2

张薇刘加《清华大学学报(自然科学版)》2008,48(4):574-577

为了提高电话多人语音中提取的单人语音纯度,即多说话人分割聚类处理的性能,该文在传统的分步分割聚类算法机制上增加了重分割处理,提出逐级算法增强处理机制: 在分割部分,该文提出了一种基于Bayesian信息准则的分割算法,融合基于不同距离测度检测得出的分割点提高了分割点检测率;在聚类部分提出了基于BIC和交叉似然比准则(CLR)的分层聚类算法;在重分割部分引入和改进了进化隐Markov模型算法精化分割结果.该文在美国国家标准技术局(NIST) 1998年度多说话人识别数据库上进行实验,聚类后性能"类纯度"比传统算法提高了10%. 相似文献

4.

基于优化检测网络和MLP特征改进发音错误检测的方法

袁桦钱彦旻赵军红刘加《清华大学学报(自然科学版)》2012,(4):557-560,570

该文基于优化的检测网络和多层感知(multi-layerperception,MLP)特征,提出一种可以更加准确地检测出错误发音类型的方法。首先,从第二语言学习的语音库中提取出基本的发音规则以及组合的发音规则,并相应地计算它们发生的先验概率,再将这些具有先验概率的规则用于构建基于多发音的扩展检测网络。然后在检测过程中,引入基于发音特征的MLP特征来描述发音概率,替代了传统的语音声学特征。最后使用基于MLP特征的GMM-HMM框架从检测网络中识别出最可能的发音音素串。实验表明:该方法将音素识别正确率提高了3.11%,错误类型准确率提高了7.42%。相似文献

5.

快速口音自适应的动态说话人选择性训练

董明刘加刘润生《清华大学学报(自然科学版)》2005,45(7):912-915

为解决语音识别系统实用中的说话人口音快速自适应问题,提出了一种动态说话人选择性训练方法。基于说话人选择性训练方法,采用基于Gauss混合模型似然分数计算的置信测度选择训练用说话人,改变训练用说话人的绝对数目选取方式,提高了选取的效能并拓展了选取标准的推广性。根据各个训练用说话人同被适应说话人的不同似然程度,加权地合成动态说话人选择性训练的语音模型,提高了自适应训练的效果。实验表明:该方法使识别率从80.16%提高到84.12%,相对误识率降低了19.96%,在实用中提高了基线系统的识别性能。相似文献

6.

基于听感知特征的语种识别 总被引：3，自引：0，他引：3

张卫强刘加《清华大学学报(自然科学版)》2009,(1)

为了在语种识别时充分利用人的听感知特性提高识别性能,提出了一种基于听感知模型的特征。听感知特征采用Gammatone滤波器组代替常用的三角滤波器组计算语音信号各子带能量;根据等效矩形带宽模型,确定各滤波器的中心频率与带宽;使用反置等响度曲线模拟人耳对信号不同频率成分的主观响度感受。在基本听感知特征的基础上,还提出了一、二阶差分特征和偏移差分特征用于语种识别。对比实验表明,该文所提的听感知特征性能均优于目前普遍使用的Mel频率倒谱系数(MFCC)特征及其衍生特征。相似文献

7.

用 TMS320C31 实时实现电话语音识别系统 总被引：3，自引：0，他引：3

刘加潘胜昔江金涛胡凯军王作英《清华大学学报(自然科学版)》1998,(9)

描述了一个新型实时声控用户交换机语音接口的设计和实现。该系统使用数字信号处理器ＴＭＳ３２０Ｃ３１开发板在ＰＣ机ＷＩＮＤＯＷ平台下实现了与人无关连续命令语音识别,完成拨号、进行电话交换。系统使用少量控制词加上连续数字串构成了电话用户交换系统的常用命令语句,并生成相应识别文法网络（语言模型）。识别采用改进的令牌传递式Ｖｉｔｅｒｂｉ算法。研究中还开发识别系统拒识算法,在无拒识情况下命令语句中数字识别率为９８％以上,数字串（串长＜４）识别率达到９１％以上,通过加入拒识算法,字符串识别率可达９５％以上。相似文献

8.

基于鉴别性向量空间模型的语种识别 总被引：1，自引：0，他引：1

刘巍巍张卫强刘加《清华大学学报(自然科学版)》2013,(6):796-799

传统语种识别中训练数据库的规模庞大,对于语种分类有鉴别性的信息大量重叠,且训练数据的不同信道条件、不同来源都会对训练和测试有一定干扰。针对这些问题,提出一种鉴别性向量空间模型(D-VSMs)建模方法。D-VSMs能够自动过滤训练集中信息重叠的数据,使得每一个支持向量机的训练数据都有针对性,从而用较少的训练数据能取得较好的分类效果。在美国国家标准技术局(NIST)2009年语种识别测试中,D-VSMs只用了原训练数据的25%,计算量是传统并行音素识别器后接向量空间模型(PPRVSM)的10%,等错误率在30s、10s和3s的测试条件下分别比传统PPRVSM下降了12.75%、15.89%以及7.33%。相似文献

9.

基于听感知特征的英语句子重音检测

李坤刘加《清华大学学报(自然科学版)》2010,(4)

为了更有效地提取英语句子重音,提出了一种基于听感知特征的方法。根据音素特点,改进段长的归一化方法;根据听感知特性,引入半音程和响度特征,并以归一化的音节最高值代替其平均值,系统正确率达到78.7%,漏检率为9.37%。在此基础上,还提出了基于掩蔽效应的突显度模型,系统正确率提高到83.4%,漏检率下降到5.72%。实验表明,突显度模型更符合人的听感知,其性能接近人工标注的一致率(约为86%)。系统还具有文本无关和说话人无关的优点。相似文献

10.

基于非负矩阵分解的阴影检测方法

周鹏宇杨欣周大可刘加《吉林大学学报(信息科学版)》2013,31(6):575-581

针对以往的矩阵分解方法不能保证分解结果非负的问题, 根据非负矩阵分解（NMF: Non negative Matrix Factorization）结果非负的特点, 提出了基于NMF的阴影检测方法, 并以此为基础将进一步引入的分块非负矩阵分解（BNMF: Block Non negative Matrix Factorization）应用于阴影检测。通过NMF/BNMF提取训练样本中阴影的亮度特征, 再根据特征识别测试样本中的阴影区域。实验结果表明,与基于奇异值分解方法相比, 该算法的阴影检测细节更清晰, 具有更好的效果。相似文献