首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 93 毫秒
1.
介绍了一种基于Microsoft Speech SDK5.1的机器人语音交互系统,利用Speech SDK5.1提供的应用程序编程接口SAPI进行语音识别,对识别结果在逻辑程序中处理,使用Inter-phonic5.0语音合成技术替代TTS技术来合成语音,实现了AHRR-I接待机器人的语音对话和语音控制。  相似文献   

2.
吴兰  杨攀  李斌全  王涵 《广西科学》2023,30(1):52-60
视听语音识别(Audio-Visual Speech Recognition,AVSR)技术利用唇读和语音识别(Audio-Visual Speech Recognition,AVSR)的关联性和互补性可有效提高字符识别准确率。针对唇读的识别率远低于语音识别、语音信号易受噪声破坏、现有的视听语音识别方法在大词汇量环境噪声中的识别率大幅降低等问题,本文提出一种多模态视听语音识别(Multi-modality Audio-Visual Speech Recognition,MAVSR)方法。该方法基于自注意力机制构建双流前端编码模型,引入模态控制器解决环境噪声下音频模态占据主导地位而导致的各模态识别性能不均衡问题,提高识别稳定性与鲁棒性,构建基于一维卷积的多模态特征融合网络,解决音视频数据异构问题,提升音视频模态间的关联性与互补性。与现有主流方法对比,在仅音频、仅视频、音视频融合3种任务下,该方法的识别准确率提升7.58%以上。  相似文献   

3.
概要介绍了语音识别技术和微软语音开发应用程序接口(Microsoft Speech API,SAPI)。语音识别技术随着计算机技术的发展而逐渐成熟,使计算机能够识别用户的语音输入,记录下用户的语音信息并执行相应的命令。微软的SAPI是Windows操作系统下的语音识别开发平台,它开发快捷,有设计良好的运行机制、识别引擎和调用接口,能够模块化组件开发。其次,利用SAPI,设计实现了应用语音识别技术的数字图书馆检索系统。此系统使用户在使用数字图书馆时检索更加方便,读者说出想查询的内容,系统即可完成整个检索过程并显示查询结果。此系统基于SAPI平台开发,采用了MySQL作为后台数据库。此检索系统分为一站式检索和智能检索。其中,一站式检索为读者提供了通用语音识别框,读者检索时无需使用鼠标和键盘,只需说出自己想要查找内容的关键词即可查询。一站式检索系统不仅能够实现对图书馆数据库的关键词检索,而且在界面上还同步提示出可选关键词、现有馆藏书目、借阅情况等信息,协助用户检索信息。而智能检索是在一站式检索的基础上,结合了中文分词技术,进一步降低搜索难度方便用户使用。用户检索时无需考虑关键词、检索语法,只需像平时一样说出想检索的内容,检索系统会自动识别用户的语音,然后进行智能分词,再通过转换过程,过滤出关键词并生成专业的检索语法进行检索,并最终返回检索结果。整个识别、分词、转换过程由系统自动完成,无需读者干预。随着技术的进步,结合了语音识别的检索系统将使数字图书馆能够更加方便快捷地为读者服务。  相似文献   

4.
本文描述了分布式语音识别(Distributed Speech Recognition)技术的原理、先进性及其在3GPP体系中的应用,重点描述了3GPP协议栈体系下的集成语音识别框架SRF及语音识别框架SRF在3GPP体系中对多模式和多设备服务提供基本支持的体系结构。  相似文献   

5.
梁家恩 《华东科技》2014,(10):38-39
语音如何入侵智能生活?通过智能语音将用户和智能生活连接起来,企业和用户通过云知声的智能语音服务在手机、智能家居、智能汽车、智能客服、在线教育等生活的方方面面带来高效和令人满意的智能化操作体验。语音不仅是人类之间进行信息交流最自然、最有效、最方便的工具,而且也是人与机器之间进行通信的重要工具。语音识别(Automatic Speech Recognition,ASR)技术能够让机器听懂人的声音,并据此作出正确的反应。2011年Siri的出现让语音技术渗透进人们的生活,也将语音识别带入了新纪元。此前,"人机交互"一直只是个虚拟概念。  相似文献   

6.
 自动语音识别技术(Automatic Speech Recognition-ASR)是一种实现从"声音"到"文字"转换的技术,通过将人的语音直接转换成相应的文本以便计算机进行理解和产生相应的操作,并最终实现人与机器之间的自然语音交互。语音识别就好比"机器的听觉系统",让机器通过识别和理解,能够把语音信号转变为相应的文本或命令,下面简要回顾语音识别技术的发展历程。  相似文献   

7.
本文通过C 示例介绍如何将计算机中的TTS(Text To Speech)技术应用到外语语音教学,解决语音教学中内容分散、语流教学效率低等的问题。  相似文献   

8.
文章提出了一个可以同时面向语音识别和说话人识别的汉语语音数据库,并对该语音数据库的录音方案、录音内容以及标注与存储设计作了详细说明,并部分实现了语音特征的分析功能.  相似文献   

9.
文章介绍了一种基于DSP技术的电视机语音拨号遥控器.该设计采用了美国TI公司推出的语音识别芯片TMS320C5402,在不对电视机做任何改动的情况下,实现声控,介绍了该语音拨号器的性能与特点,以及基于定点DSP实现的语音训练和语音识别算法的流程图.  相似文献   

10.
VoiceXML作为电话访问Internet网络的W3C标准,在介绍了其系统结构、解释程序、特点和语音识别及合成技术的基础上,设计和实现了完整的VoicexML语音浏览器,包括解析器、识别引擎、合成引擎和语音通道,实现了计算机网络与电话技术的完美结合。  相似文献   

11.
一种新型语音识别系统   总被引:1,自引:0,他引:1  
提出一种新型语音识别系统,采用帧能量与帧过零率的乘积作为指标量进行语音端点检测,以MFCC作为语音信号特征矢量,基于HMM语音识别模型进行语音识别.同时,提出了一种新的抗噪语音识别方法,通过改进型重复Wiener滤波结合PUM模型进行抗噪语音识别,较好地抑制了噪声干扰,提高了语音识别率.  相似文献   

12.
混响声场中语音识别方法研究   总被引:1,自引:4,他引:1  
免提式话筒语音识别系统是语音识别走向实用的目标之一.实现这一系统,首先要解决房间效应引起的混响问题.通过讨论室内混响声场中语音的特点,提出用鲁棒性特征参数——滤波规整的Mel频率倒谱参数(FNMFCC,即MFCC参数在对数功率谱域进行低通滤波,倒谱域进行均值减,并用标准差加权进行非线性规整,采用这3种措施来消除混响引起的语音参数的变化.识别方法用矢量量化法,用4组无混响数码语音进行训练,对特定人无混响和4种混响声场中共150组数码音的平均识别率达到98.7%.提出的这一新方法在不降低无混响音识别率的情况下,提高了混响声场的语音识别率.该方法不仅识别率高,而且运算量小、所需内存空间小。易于做成小型实用的快速识别系统.  相似文献   

13.
藏语语音信号降噪算法研究   总被引:1,自引:0,他引:1  
藏语语音在识别过程中会受到各种信号的干扰,从而影响语音识别的质量。在进行语音识别预处理过程中,语音信号的降噪技术是一个关键的环节。文章通过分析各种降噪手段,重点研究了藏语语音信号降噪方法,提出了符合藏语语音信号降噪的小波包降噪算法。其研究结果为进一步的藏语语音识别技术的研究提供了基础。  相似文献   

14.
今天的语音识别正处于由实验室技术走向实用化,产品化的关键时期,然而,现有的绝大我数语音识别系统在噪声环境中的性能都不可避免地急上降,环境噪声已经成为语音识 技术商品化的一个主要障碍,因此在语音识 技术逐渐走向实用化的过程中,噪声语音识别日益成为一个重要的研究领域,遗憾的是,由于噪声语音识 问题本身的复杂性,至今还没有一种方法可以圆满地解决这一问题,拟从模型补偿方面,对噪声环境下的孤立词语音识别进行一些探索,重点研究一个在噪声环境下的语音识别算法--并行模型组合方法(PMC),详细论述了其原理以及在噪声环境下的语音识别中的应用。实验中,我们使用汉语的数字语音,分别在3种不同噪声不同信噪比条件下对这一方法进行了识别率测试,结果显示,该方法有着令人振奋的识别效果。  相似文献   

15.
采用STC11L08XE单片机作为主控制器,以LD3320芯片作为外扩语音控制器件,实现语音辨识功能和对空调运行状态的控制,如启动、停止、功能转换、温度调节、定时开关等.该语音控制系统由语音辨识模块、红外线传输模块、LED指示灯模块及按键触发模块组成.根据非特定人声语音辨识方案,设计相应的语音识别程序,并将语音控制系统模块集成到具有红外传输功能的空调遥控器电路中.实验结果表明,根据初始设定的语音命令可实现系统对空调的语音控制,该系统在一定距离范围内具有较高的识别率.  相似文献   

16.
目前,高准确率的语音识别需要在大规模语料库上进行学习才能获得,然而大规模语料库的构建成本较高,某些语言很难采集到充足的语料,因此,基于小规模语料库的语音识别已成为目前挑战性的研究问题.元学习是模仿人类利用已有经验快速学习新知识的机器学习方法,在机器视觉单样本学习任务中表现出明显的优势,已成为新的机器学习研究热点.将元学习应用于单样本语音识别是解决基于小规模语料库语音识别这一挑战性问题的有效途径,在TIMIT和佤语数据库上,开展了基于Reptile元学习算法的单样本孤立词语音识别研究.实验结果表明,该算法能有效地提升模型收敛速度与泛化精度,从而提升了模型的学习能力,说明元学习方法有助于解决小规模语料语音识别这一挑战性问题.  相似文献   

17.
基于支持向量机的抗噪语音识别   总被引:4,自引:1,他引:3  
阐述了支持向量机的分类机理,采用改进的MFCC语音特征参数,用基于不同核函数的支持向量机(SVM)作为语识别网络,对SVM多类分类问题采用"一对一"分类算法,实现了一个孤立词非特定人中等词汇量的抗噪语音识别系统。通过实验,得到了不同核函数下的识别结果;分析了核参数和误差惩罚参数对SVM推广能力的影响,并将实验结果同基于RBF神经网络的识别结果进行了比较。  相似文献   

18.
语音信号是受说话人、环境等因素影响的复杂函数,人工神经网络(ANN)模型进行语音识别具有自适应、自组织及联想等特征,适合用于语音识别。主要研究了传统BP神经网络在实际语音识别中的改进方案。利用改进后的方案实现语音识别、网络结构简化、运算速度加快、训练时间缩短。  相似文献   

19.
在分析语音识别原理的基础上,设计了一个基于ARM和DSP芯片的语音识别子系统,用于嵌入式系统中的语音识别,该语音识别子系统由ARM和DSP芯片为核心,配合其他功能电路,能够独立完成语音识别的工作,ARM芯片作为系统的控制芯片,DSP芯片负责对语音信号的隐马尔可夫模型建立,从而使得嵌入式系统的语音识别更为方便简捷,并且该子系统具有一定的通用性和可剪裁性.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号