首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 287 毫秒
1.
目前的技术不能使单字识别系统的识别率达到100%,单字识别系统会产生错判和拒判.因此,将满文中单词识别系统的识别信息和满文的词组信息有机的结合起来,建立满文词组和待定词集统计信息库,采用基于统计的隐马尔可夫模型的方法,利用Viterbi动态规划法求最佳路径,对满文的单字识别输出进行后处理,可以有效的提高识别系统的识别率.实验表明,单字识别系统的识别率越高,后处理的纠错能力越强.  相似文献   

2.
目前的技术不能使单字识别系统的识别率达到100%,单字识别系统会产生错判和拒判。因此,将满文中单词识别系统的识别信息和满文的词组信息有机的结合起来,建立满文词组和待定词集统计信息库,采用基于统计的隐马尔可夫模型的方法,利用Viterbi动态规划法求最佳路径,对满文的单字识别输出进行后处理,可以有效的提高识别系统的识别率。实验表明,单字识别系统的识别率越高,后处理的纠错能力越强。  相似文献   

3.
为给满文识别系统提供基元特征和训练测试样本,在对图象进行灰度化、二值化、倾斜校正、行列分割等预处理后,构建了印刷体满文文字多级数据库,包括列文本库、单词库和基元库3个子库。该库的构建为后续满文识别提供了技术支撑。  相似文献   

4.
设计孤立词的语音识别系统,对小词汇量、非特定人的语音进行识别。利用HTK(Hidden Markov Model Toolkit,隐马尔科夫模型工具箱)语音识别工具包进行系统的搭建,从语音识别的原理出发,对每一个单词建立和训练隐马尔科夫模型,探讨语音识别的基本流程和实现方法,为连续语音识别研究打下基础。实验结果显示,隐马尔科夫模型对孤立词具有良好的识别性能。在正常说话语境下,对语料库中单词的识别率可达到80%。  相似文献   

5.
抽取了3种典型的单词后验概率特征(基于固定位置的词后验概率、基于目标位置窗的词后验概率、基于词对齐的词后验概率)和3种语言学特征(词、词性、句法分析器抽取的句法特征),并在此基础上抽取了一个来自源端的单词特征,然后基于中英NIST数据集,采用最大熵分类器来验证不同单词后验概率特征(WPP)独立使用及与其它特征组合后使用时对错误检测性能的影响。实验结果表明,采用不同方法计算得到的单词后验概率特征对分类错误率的影响是显著的,并且在单词后验概率和语言学特征组合基础上加入源端单词特征,可以显著降低分类错误率(CER),提高译文错误检测能力。  相似文献   

6.
设计了一种电视背景环境下的非特定人语音控制命令识别系统,包括基于隐马尔可夫模型的孤立词识别子系统和基于扩展信息最大化(Infomax)独立成分分析算法的语音分离子系统.本语音识别系统的语音库包括8 400个电视机转台控制命令的语音数据.在无噪环境下对特定语音命令的识别率可达93.2%,正常电视背景环境下的识别率降至49.0%,对电视背景下通过分离后的语音命令识别率可达85.8%.  相似文献   

7.
维吾尔语是一种黏着语,单词不太适合作为维吾尔语大词汇连续语音识别系统识别单元。针对维吾尔语大词汇连续语音识别系统中的识别单元选择问题,设计更适合维吾尔语的子词识别单元,提出维吾尔语单词和子词相结合的组合识别单元构建方法,并对单词、子词和组合识别单元的语言模型和语音识别性能进行评价。实验结果表明,所提出的识别单元在单元数量、语言模型复杂度等方面表现出更加优越的性能,并且使识别系统的单词错误率比基于单词的系统相对减少22%。  相似文献   

8.
用 TMS320C31 实时实现电话语音识别系统   总被引:3,自引:0,他引:3  
描述了一个新型实时声控用户交换机语音接口的设计和实现。该系统使用数字信号处理器TMS320C31开发板在PC机WINDOW平台下实现了与人无关连续命令语音识别,完成拨号、进行电话交换。系统使用少量控制词加上连续数字串构成了电话用户交换系统的常用命令语句,并生成相应识别文法网络(语言模型)。识别采用改进的令牌传递式Viterbi算法。研究中还开发识别系统拒识算法,在无拒识情况下命令语句中数字识别率为98%以上,数字串(串长<4)识别率达到91%以上,通过加入拒识算法,字符串识别率可达95%以上。  相似文献   

9.
研究了带有位置信息的2-garm音节模型,根据音节切分后前后音节的位置信息和同现概率来判断非词错误,再根据最短编辑距离和、viterbi算法来提供候选词.根据2元单词模型,对输入文本以句子为单位,从判断前后2元单词的同现概率来判断真词错误,并提供候选词.  相似文献   

10.
李旭东 《科技信息》2011,(8):154-154,156
本文用两个公式归纳了四六级词组中英语动词词组总的用法:在特定的语境下把两个单词构成的词组组归纳为一个公式;把三个单词构成的词组归纳为一个公式,并对它们举例说明。  相似文献   

11.
满汉计算机辅助翻译系统的满文字符编码   总被引:3,自引:3,他引:3  
满文借助于蒙古文字母创制而成,是一种拼音文字,满文的拼接是以音节为单位进行的·“满汉计算机辅助翻译系统”首先建立了基于音素的满文编码,以及基于音节的满文输出与显示码,并在这两级编码之间建立起映射规则·在此基础上实现了一个满文编辑器,以及基于罗马转写的满文输入法·使用的编码方式,使满文的输入输出方便简单,并能同时适应满文印刷和满文信息深层次处理的需要·  相似文献   

12.
为解决采用深度学习方法研究满文识别中训练样本匮乏的问题,提出一种使用数据增广方法扩展训练样本集的技术框架。该框架包括字体几何结构变形与图像质量变换两个模块,采用仿射变换、弹性形变等9种数据生成方法,分别模拟满文字符图像的笔画粗细变化、扭曲变形、光照不均、不同视角及背景等情况下的采集效果。在满文识别的研究中,采用该方法将每个类别的字符数据量扩展到7万个。实验表明,该方法生成的数据在一定程度上弥补了训练样本不足的问题,是解决训练样本匮乏问题的有效技术手段。  相似文献   

13.
针对目前中文分词技术主要依赖于常用词词典,而词典对未登录词识别率较低的问题,提出一种用双词典识别未登录词的方法,即构建一个常用词词典和一个单字词词典,二者相互结合进行分词,有效解决了对未登录词识别效率偏低的问题.实验表明,采用构建单字词表法对未登录词的识别准确率可达90%以上.  相似文献   

14.
文字识别作为模式识别的一个重要方面,其研究获得广泛重视。本文基于粗集理论的观点,把文字识别问题看作是模式识别中简化知识表达与信息分类处理问题,提出一种新的文字识别方法,这不仅对模式识别中如何提取有用特征是一种新的探索,而且对简化信息处理也是一种新的方法。本文介绍了基于粗集理论的文字知识表达的方法,探讨了模式识别中的特征提取及最小决策算法,并给出一个文字识别的例子来说明这种有效的方法。  相似文献   

15.
在数据匮乏的领域,命名实体识别效果受限于欠拟合的字词特征表达,引入常规的多任务学习方法可以有所改善,但需要额外的标注成本.针对这一问题,提出了一种基于多粒度认知的命名实体识别方法,在不产生额外标注成本的前提下,增强字特征信息,提高命名实体识别效果.该方法从多粒度认知理论出发,以BiLSTM和CRF为基础模型,将字粒度下的命名实体识别任务与句子全局粒度下的实体数量预测任务相联合,共同优化字嵌入表达.三个不同类型的数据集上的多组实验表明,引入多粒度认知的方法有效地提升了命名实体识别效果.  相似文献   

16.
嵌入式中等词汇量英语语音识别片上系统   总被引:1,自引:0,他引:1  
针对目前嵌入式英语语音识别系统中识别性能较差或硬件资源占用较大的问题,提出了一个在16 b定点数据信号处理语音芯片上实现的非特定人、中等词汇量英语命令字识别系统。该系统采用基于连续隐含M arkov模型(con tinuous dens ity h idden M arkov m ode l,CDHMM)的两级识别网络,通过应用改进的音素体系、B ayes ian信息准则模型参数选择算法、决策树和数据驱动相结合的状态聚类方法、最小互信息改变准则特征选择算法,在保证识别率的前提下,大大降低了模型的存贮空间和计算复杂度。实验表明,对1 235词的英语短句的识别率为96.41%,识别时间为0.46倍实时。  相似文献   

17.
在专利技术功效矩阵构建研究中,专利技术功效短语获取是矩阵构建的基础,也是构建矩阵的词汇来源。专利技术功效短语获取的准确性直接影响专利技术功效矩阵构建的效果。为了提高专利技术功效短语的准确性,基于汽车新能源专利文献文本数据基础上,综合考虑专利文献结构、专利文献线索词,以及专利文献的句法、语法分析等多种因素,提出了基于规则和统计相结合的专利技术功效短语获取方法。首先,根据专利摘要文本定位包含专利技术功效短语的单句,提取技术功效目标句;其次,在改进的分词方法和词性标注的基础上,针对包含功效短语的句子,结合依存关系规则、短语规则计算出共现频率较高的词,并提取技术功效短语。利用该方法获取专利技术功效短语,其准确率可到达85%。实验证明该方法在获取专利技术功效短语中是有效的、可行的,进而整体上提高专利技术功效短语的识别效果。  相似文献   

18.
口语对话系统中,集外词的存在会引起很多识别错误,为了有效地发现并拒绝集外词,提高系统性能,研究利用置信度打分进行语音确认的方法,发现并拒绝识别错误。提出上下文相关的置信度特征,充分考虑当前待确认词与其前序词和后序词之间的相关性。实验结果表明:上下文相关的置信度特征能够很好地提高拒识性能,对符合识别文法的句子,错误拒绝率为2.5%或5%时,对比没有使用上下文相关的置信度特征时,错误接受率分别下降了29%和36%;基于置信度打分的语音确认策略在拒识性能上优于系统已有的在线垃圾模型。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号