首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 156 毫秒
1.
马海斌 《甘肃科技纵横》2006,35(2):37-37,41
随着DSP技术的进步,计算能力更强、功耗更低和体积更小的DSP已经出现,使3G手机上植入更精确更复杂的自动语音识别(ASR)功能成为可能。目前,基本ASR应用可以分成三大类:1.语音-文本转换(语音输入);2.讲者识别;3.语音命令控制(语音控制)。采用DSP与MCU相结合可以实现上述功能。  相似文献   

2.
为改善语音识别系统的性能,采用时频分布参数来描述语音特征。由于时频分布参数考虑到语音信号内在的非平稳特性,因此能够更准确地描述语音信号的时频特性。对基于正弦模型的多种时频参数(能量谱和幅度加权瞬时频谱)进行了比较,并在基于隐马尔可夫模型的连接词语音识别系统中进行了实验仿真。结果表明,单独采用时频分布参数作为ASR的前端特征并不能改善识别率;而采用标准ASR特征和能量谱时频特征的联合前端特征,可以有效地改善语音识别系统的识别效果。  相似文献   

3.
自动语音识别(ASR)技术目前已发展得较为成熟,通用ASR引擎已经广泛应用于交通、医疗、通信等行业。但是,由于行业专有词汇在大规模训练语料库中呈非独立同态分布,通用ASR引擎在各细分行业转写时存在对行业专有词汇识别准确率低的问题。相较于互联网环境的16 kHz音频采样率,电话呼叫中心语音为窄带低采样(采样率8 kHz),转写后精度下降尤为明显。为了提高行业词汇的语音转写准确率,文中提出一种基于行业词表的ASR转写后优化技术。首先,对语料库文本数据分别采用卷积神经网络模型和深度神经网络BERT模型进行预测分词,生成行业纠错词表。随后,在生产环境中,使用通用ASR引擎对电话呼叫语音数据进行初始转写。然后,对一次转写后的文本,通过Soft-Masked BERT模型结合纠错词表实现文本数据的纠错,从而提高语音识别准确率。使用广州12345热线客服通话语音数据进行训练和测试,结果表明,使用文中的转写后优化技术可以将通用ASR引擎的行业用词转写准确率提高约10个百分点,且纠错速度较快,具有良好的适用性。  相似文献   

4.
语音识别模型中帧间独立假设在给模型计算带来简洁的同时,不可避免地降低了模型精度,增加了识别错误。该文旨在寻找一种既能满足帧间独立假设又能保持语音信息的特征。分别提出了基于k均值和基于归一化类内方差的语音识别自适应聚类特征提取算法,可以自适应地实现聚类特征流的提取。将该自适应特征分别应用在Gauss混合模型-隐Markov模型、基于段长分布的隐Markov模型和上下文相关的深度神经网络模型这3种语音识别模型中,与基线系统进行了实验对比。结果表明:采用基于归一化类内方差的自适应特征可以使得3种语言模型的识别错误率分别相对下降10.53%、5.17%和2.65%,展示了语音自适应聚类特征的良好性能。  相似文献   

5.
维吾尔语是一种黏着语,基于单词的语言模型不太适合于维吾尔语大词汇连续语音识别任务。该文提出了适合维吾尔语的基于音节的语言模型,引入最大匹配分词算法评价音节语言模型在大词汇连续语音识别任务中的单词识别性能。实验结果表明:基于音节的语言模型在未登录词和模型复杂度等方面表现出比基于单词的语言模型更加优越的性能,并且使识别系统的单元错误率比基于单词的系统减少了50%。因此,在维吾尔语语音识别任务上可以将音节作为识别单元。  相似文献   

6.
在字母语言的文本到语音(text to speech,TTS)系统和自动语音识别(automatic speech recognition,ASR)系统的实际应用中,由于新词的出现和大量专有名词收集、存储的困难,经常会遇到发音词典中不存在的单词,需要自动对这些单词注音.该文对各类自动注音方法做了回顾,对自动注音系统中若干关键问题做了简单的介绍.在此基础上,该文给出了一个自动注音系统的实现,对其中若干技术细节对性能的影响做了分析,最后给出了本系统与基于手写规则的方法的对比实验,结果表明前者的单词转换正确率达63%以上,显著优于后者.  相似文献   

7.
传统的机器翻译模型均基于无噪声环境,即输入的数据是无错误的.但在实际同声传译中,语音识别不可避免会存在错误,这些错误在机器翻译过程中会直接影响其他内容的翻译.因此,统计分析语音识别错误的种类及产生的影响对提高机器翻译的鲁棒性具有指导意义.为了模拟真实语音识别错误,本文通过人工朗读NIST汉英实验测试集,并采用讯飞语音识别系统获取其语音识别结果进行统计分析,主要包括:1)语音识别错误的词性分析;2)语音识别错误的类型分析;3)语音识别错误对翻译性能的影响;4)语音识别错误对其他词翻译的影响.得出的主要结论为:名词和动词出现语音识别错误的次数较多,人名最易出现语音识别错误;同音异形字的语音识别错误出现次数最多;长度较小的句子在翻译时受到语音识别错误影响的程度更加明显;与语音识别错误词距离更近的词的翻译更易受到影响.  相似文献   

8.
对于基于Gauss混合模型-通用背景模型(Gaussianmixure model-universal background model,GMM-UBM)方法的文本无关说话人识别,当测试语音时长缩短到很短时,识别率会严重下降。为了充分利用文本内容信息,该文提出了一种基于K-top多音素类模型混合(KPCMMM)的建模方法。在音素识别阶段,利用语音识别得到训练语音的音素序列,在说话人识别阶段利用音素序列对每个说话人训练多个音素类模型,测试语音则在最相近的音素类模型上进行打分判决,K是选取的相近音素类数。由于音素类定义的不同,KPCMMM方法分为基于专家知识和数据驱动这两类。实验结果显示选择合适的K值可以得到更好的识别结果。不同的音素类定义方法的比较实验结果显示:当测试语音时长小于2s时,对比GMM-UBM基线系统,该方法的等错误率(EER)相对下降38.60%。  相似文献   

9.
针对英语口语考试评分系统工作过程复杂、评分准确度低的问题,构建基于隐马尔可夫模型的英语口语考试评分系统.设计了语音识别模块和评分流程,采用语音识别器和隐马尔可夫评分模型,实现对英语口语发音的识别、错误判定和评分,并由百分制变换得到英语口语的最终得分.实验结果表明,该系统的评估准确度高,可提高系统错误判定的准确率和稳定性.  相似文献   

10.
在语音信号处理系统中,基于帧能量的语音端点检测(voiceactivitydetection,VAD)往往受到语音段能量不平稳及噪声的影响,为了提高语音端点检测的性能和鲁棒性,引入视觉信息。该文提出采用基于数据驱动的线性变换生成视觉特征,在提出一个基于统计的VAD一般模型的基础上构建两个单模式的VAD系统,通过两步式的融合方法,得到了多模式的VAD系统。实验表明:同时利用音频和视觉信息的多模式VAD比基于帧能量的听觉VAD在帧错误率上有55.0%的相对下降,在断句错误率上有98.5%的相对下降。这一结果说明多模式VAD方法基本可以避免断句错误,也能够显著改善帧检测性能,是一种相当有效的方法。  相似文献   

11.
新一代人工智能技术的深度融合引发了制造业的大变革,其中基于人机物协同的人机混合增强智能展现出越来越大的潜力。针对这一背景,本文分析了智能制造系统中人机协同的相关研究,从人机建模、人机交互模式、人机界面设计和人机共享控制等几个方面回顾了面向自主系统集群的人机混合增强智能的关键理论和方法及其可能存在的问题和未来可能的解决方案。希望能为相关研究提供启发和参考。  相似文献   

12.
对话推荐技术旨在通过与用户的对话交互完成高质量的信息推荐.针对已有研究存在的对话目标预测准确性不高的问题,提出一种利用对话模型引导的对话生成推荐(dialogue guided recommendation of dialogue generation, DGRDG)模型.首先,利用对话模型生成对话目标,通过经典的Seq2Seq模型融合输入的对话历史、用户画像以及知识信息来生成对话目标;其次,提出目标重规划策略(goal replan policy, GRP)来修正生成的对话目标,以提高对话目标预测的准确率.在DuRecDial数据集上进行实验的结果表明,对话目标生成模块在引入目标重规划策略后,对话目标预测的准确率提高了3.93%;总体模型在BLEU,DISTINCT,F1以及人工评价指标上具有较好的效果.  相似文献   

13.
对话教学建立在尊重、信任、民主、平等、宽容的课堂氛围中,深刻体现了课堂话语权利中的师生平等和课堂交往中的师生共鸣。本研究在回顾传统教学背离生活世界的基础上,进一步建构走向生活世界的对话教学。  相似文献   

14.
针对GMDSS设备误报警的现象,给出了各类设备在防止误报警方面应采取的措施和应重视的内容及误报警发生后进行澄清的路由和方法。  相似文献   

15.
如何设计一个能满足不同层次用户的MIS语言接口,目前尚无完善的方法,本文在分析了MIS语言接口设计的一些难点的基础上,提出了一些解决方法。  相似文献   

16.
虚拟现实技术得到越来越广泛的研究和应用,参与者希望进行更加智能化的人机交互,这对研究者提出了更高的要求。提出了一种基于6自由度坐标模型的虚拟智能实体,利用有限状态机来实现状态变迁,以此来增加整个虚拟现实系统的人-机交互智能特性。  相似文献   

17.
任何语篇都是有对话性的,商业性广告中对话性的体现更为突出,其对话性越强越能够说服顾客购买产品。因此商业性广告的翻译要重视其对话性因素的功能等值翻译,这样才可以达到与原广告相当的广告目的,即向顾客推销产品和服务。本文着重分析了商业性广告对话性的形成,利用翻译的功能对等原则,在对话性角度上提出了商业性广告翻译好坏的的一个标准。  相似文献   

18.
作为20世纪重要的思想家之一的戴维·伯姆,在其著作《论对话》中详尽阐述了一系列极具价值的关于对话的思想。他从隐藏在对话背后深处的思维入手,着重分析了对话中思维的特性:分裂性思维和思维假定、共享思维和平实思维、悬置和思维的本体感受性、非预设目的及对话的无限性、以及“微文化”背景下的对话环境等五个层面,深刻揭示了对话的本质、意义及方法。在新课程改革背景下,戴维·伯姆的对话思想给当前的对话教学带来了诸多启示。  相似文献   

19.
壳聚糖在乌龙茶汁澄清中的应用研究   总被引:1,自引:0,他引:1  
研究了壳聚糖对乌龙茶汁的澄清作用,探讨了pH、壳聚糖添加量及澄清时间对澄清效果的影响.结果表明壳聚糖是一种良好的澄清剂,能提高乌龙茶汁的透光度,而且不影响乌龙茶汁的主要风味物质茶多酚、咖啡碱的含量.  相似文献   

20.
PSAZ-亚硫酸法澄清新工艺研究   总被引:3,自引:0,他引:3  
研究PSAZ絮凝剂用量、硫熏强度、pH值及加热温度对甘蔗混合汁清净效率的影响。并同传统的H_3PO_4-亚硫酸法澄清工艺进行比较。结果表明,PSAZ-亚硫酸法澄清新工艺具有成本低且效果优良的特点。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号