首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 229 毫秒
1.
可穿戴设备和智能家居系统需要语音识别引擎占用极小的资源并具有较强的拒识能力。传统的语音识别算法无法满足小资源系统的这种需求。该文针对小资源下语音识别系统,在解码策略和拒识算法设计上均提出了改进方法。在解码策略上,通过修改垃圾音素的重入,使得集外语音的拒识率提高到64.8%,而内存占用只增加了8.5kB。在拒识算法上,提出了离线计算背景概率和在线查表的方法,与基线系统相比,在集内识别率略有损失的情况下,集外拒识率达到93.8%,而内存占用和计算速度也得到了优化。  相似文献   

2.
语音识别中基于两层词法树的跨词搜索算法   总被引:1,自引:0,他引:1  
为了在连续语音识别过程中充分并且高效地使用上下文相关声学模型,提出了一种新颖的基于两层词法树的跨词搜索算法.采用两层词法树来表示搜索空间,解决了现有单层词法树的规模爆炸问题,使其有能力在词边界搜索中高效地使用上下文相关声学模型进行匹配,充分发挥上下文相关声学模型较好地描述协同发音现象的能力.实验结果表明,与词内搜索算法相比误识率平均下降60%,搜索时间达到实时,证明基于两层词法树的跨词搜索算法具有很好的识别性能.  相似文献   

3.
汉语连续语音识别中上下文相关的声韵母建模   总被引:8,自引:1,他引:8  
声学建模是汉语连续语音识别中的关键步骤之一。根据汉语语音的特点,采用扩展声韵母(XIF)作为识别基元,并针对XIF基元设计了相应的问题集,利用基于决策树的状态共享策略建立上下文相关声韵模型(Tri-XIF)。将Tri-XIF模型与上下文相关音素模型(Tri-phone)、上下文无关音节模型进行了对比。提出了几种方法用于改善标注、改进问题集和降低模型规模。实验结果表明,Tri-XIF模型与Tri-phone模型、音节模型相比,识别性能有了很大提高,其音节误识率分别降低了24.53%和41.65%。采用了所提出的优化策略后,模型规模降低20%以上,而性能下降很少。  相似文献   

4.
基于环境特征的语音识别置信度研究   总被引:2,自引:0,他引:2  
传统的语音识别置信度方法基于各种静态特征进行分类判决,而忽略了词与周围环境之间的关系所携带的信息。为了进一步提高置信度特征的分类性能,该文提出了上下文环境、动态环境、句全局环境共3类5种环境特征,从空间与时间角度较全面地描述了词与环境之间的关系。实验结果表明:静态特征与环境特征联合分类的性能与只用静态特征相比有不同程度的提高,其中,静态环境与环境特征的二元联合最高有5.02%的相对改进,三元联合最高有6.11%的相对改进,说明环境特征确实是一种有价值的置信度特征,并且这几类环境特征之间存在一定的独立性。  相似文献   

5.
提出一种融合多模型和高置信度词典的事件线索识别方法,将高置信度词典特征分别加入最大熵模型和条件随机场模型,然后融合两个模型的结果,旨在提高触发词识别的召回率和整体性能。针对事件真伪性识别任务,进一步考察否定词或不确定词与触发词的物理位置距离和依存路径距离等特征,提高事件真伪性识别的性能。实验结果显示,针对触发词识别和事件真伪性识别任务,与仅使用最大熵模型相比,所提出的融合多模型与高置信度词典的方法能够提高触发词识别的性能6.43%,提高事件真伪性识别的性能1.69%。  相似文献   

6.
在关键词检出系统中由于替换错误而导致的识别性能下降时,为了在较低的误警率下提高关键词检出系统的检出率,提出了关键词恢复算法,通过对被拒绝的语音信号再次分析从而恢复关键词.实验表明 引入关键词恢复算法,在误警率为10%时,检出率从78.1%提高到85.3%;检出率的上限从85.0%提高到92.0%. 采用关键词恢复的检出算法极大地改善了系统性能,不仅在较低误警率时检出率有很大的提高,而且关键词检出率的上限也得到很大的提高.  相似文献   

7.
采用生物的特征识别技术,对说话人识别中说话人确认与说话人辨认的传统方法与分类进行了讨论,对现在使用的各种说话人识别算法进行了综合分析。以LPCC(Linear Prediction coding Coefficient)和MFCC(MEL Frequency Cestrum Coefficient)两种特征参数提取为基础,对GMM(Gaussian MixtureModels),VQ(vector Quantization),DHMM(Discrete Hidden Markov Model),CHMM(Concatenation HiddenMarkov Model)等几种识别方法进行了实现,做到了真正的与文本无关。特别以GMM识别方法的部分实验结果为例进行分析,解决了系统中的阈值设置问题,改进了该方法的决策手段。根据实验数据,在各种方法中,说话人确认的错误拒识率和误识率相对说话人辨认总是较高,本文把说话人辨认的阈值选择方法应用于说话人确认,以多模板匹配方式为辅助,使得说话人确认的错误拒识率和误识率大大降低,并通过实验证明了该种改进方法的有效性。  相似文献   

8.
为提高语音识别系统的性能,针对汉语语音的单音节结构的特点,提出了建立三音子识别单元的方法。这种方法完全利用语音学知识对上下文进行分类从而实现参数共享,而不同于传统的数据驱动的聚类共享。提出并实现了采用三音子单元的识别系统的训练算法和识别搜索算法。实验表明:基于语音学分类的三音子单元对识别性能有明显的改善,系统的首选误识率相对基线系统降低了28%。  相似文献   

9.
传统的机器翻译模型均基于无噪声环境,即输入的数据是无错误的.但在实际同声传译中,语音识别不可避免会存在错误,这些错误在机器翻译过程中会直接影响其他内容的翻译.因此,统计分析语音识别错误的种类及产生的影响对提高机器翻译的鲁棒性具有指导意义.为了模拟真实语音识别错误,本文通过人工朗读NIST汉英实验测试集,并采用讯飞语音识别系统获取其语音识别结果进行统计分析,主要包括:1)语音识别错误的词性分析;2)语音识别错误的类型分析;3)语音识别错误对翻译性能的影响;4)语音识别错误对其他词翻译的影响.得出的主要结论为:名词和动词出现语音识别错误的次数较多,人名最易出现语音识别错误;同音异形字的语音识别错误出现次数最多;长度较小的句子在翻译时受到语音识别错误影响的程度更加明显;与语音识别错误词距离更近的词的翻译更易受到影响.  相似文献   

10.
两级决策的开集说话人辨认方法   总被引:10,自引:0,他引:10  
为了减少语音数据量 ,提高处理速度和识别的准确性 ,提出了一种采用公共码本、个人隐 Markov模型 (HMM)和个人拒识阈值进行两级决策来实现开集说话人辨认的新方法。在系统实现时 ,采用了一种改进的语音切分算法来提高输入数据的有效性 ,并将说话人识别和人脸识别融合在一起进行身份验证。实验证明这种融合方法能够有效地降低识别的相等错误率至 1%。  相似文献   

11.
提出了一种Log-Gabor滤波器结合特征融合的虹膜识别方法.该方法利用多尺度多方向二维Log-Gabor滤波器构成的多通道滤波器提取虹膜纹理特征,在特征层利用幅值信息对同尺度下多方向的Log-Gabor特征进行融合,以压缩冗余信息及去除非有效特征,然后对融合后的特征进行相位编码,并运用加权海明距离进行匹配,匹配时借助噪声屏蔽码去除眼睑遮挡干扰.提出了一种虹膜图像质量评价方法,可有效鉴别不适于识别的低质量虹膜图像.与传统的Gabor方法相比,新识别方法能得到更小的等错误率和相同错误接收率下更小的错误拒绝率,同时又将虹膜特征码的大小压缩为传统方法的1/2,可提高匹配速度及节约存储空间.在CASIA和UBIRIS虹膜库的测试结果表明,与传统Gabor方法相比,该方法在错误接受率为0.01%和0.1%时的错误拒绝率分别降低了0.57%和0.36%,等错误率降低了0.25%,特征码长度为128 B,减少了50%.  相似文献   

12.
在大词表孤立词语音识别中,Viterbi搜索是时间消耗的主要因素。为改善基线系统性能,根据汉语孤立词识别的特点,提出了一种基于音节切分的束搜索算法,在音节层和词条层进行剪枝。该算法不增加内存开销。实验结果表明:在词表规模为10 000时,该算法以0.23%的识别率下降率为代价,将Viterbi搜索的时间消耗降低为基线系统的26.73%;相对于小词表,该算法在大词表情况下对系统性能的改善尤为明显。  相似文献   

13.
基于语音识别置信度的英语语言学习算法研究   总被引:2,自引:0,他引:2  
语音识别技术是实现一个语音学习系统的关键。由于目前的英语学习软件并不能完全满足用户的要求,因此该文提出了将语音识别置信度引入语言学习的方法。在讨论了置信度的基本原理和在语言学习中的作用之后,提出了一种新的算法并在此算法基础上最终建立了一个基于置信度技术的英语语言学习系统。在TIMIT语音库中的实验结果表明,语音识别置信度可以有效地提高语言学习系统的性能;当门限值设置于-0.7和-1.0之间,虚警率(false alarm)在1.1%左右,漏报率(false rejection)在0.65%左右,并且在一定条件下可以有效地反映学习者发音的质量,基本上可以达到实用的要求。  相似文献   

14.
基于离散HMM的非特定人关键词提取语音识别系统   总被引:2,自引:0,他引:2  
设计了一个基于离散隐含马尔可夫整词模型的非特定人汉语小词表关键词提取语音识 别系统, 提出一种基于对前向、 后向搜索得到的关键词假设做二次识别的置信度策略. 将 该置信度用于关键词提取系统的说话验证, 得到了良好效果.  相似文献   

15.
针对口语重复修正检错这一计算机辅助语言教学中的难点,提出一种基于音节单元WFST(weighted finite-state transducer)网络的容错对齐和搜索过滤算法。该算法将对齐后识别结果中邻近匹配词所对应的脚本建立上述语法网络进行二次识别下的容错对齐,得到的候选被修改部分和替换部分作为搜索过滤的查询和模板。最终,重复修正检错结果由搜索过滤算法的置信度决定。为此,提出了基于顺序假设的k-difference算法和基于随机假设的n-gram算法。实验表明:不使用二次容错对齐时,以音节为建模单元的多n-gram混合搜索过滤取得了相对最优的结果;使用二次容错对齐时,能够使F-measure获得3~4个百分比的进一步提升。  相似文献   

16.
Stream Weight Training Based on MCE for Audio-Visual LVCSR   总被引:2,自引:0,他引:2  
In this paper we address the problem of audio-visual speech recognition in the framework of the multi-stream hidden Markov model. Stream weight training based on minimum classification error criterion isdiscussed for use in large vocabulary continuous speech recognition (LVCSR). We present the lattice rescoring and Viterbi approaches for calculating the loss function of continuous speech. The experimental results show that in the case of clean audio, the system performance can be improved by 36.1% in relative word error rate reduction when using state-based stream weights trained by a Viterbi approach, compared to an audio only speech recognition system. Further experimental results demonstrate that our audio-visual LVCSR system provides significant enhancement of robustness in noisy environments.  相似文献   

17.
提出了一种评估非母语英语学习者的词汇应用能力的方法,用于提高英语为非母语者的自然语音响应自动评分系统的精度.方法根据词表中每个词在参照语料库的出现频率来估算词汇复杂度,并评定响应中词汇的平均难度等级.基于口语响应中的单词,得出3种特征:相关覆盖率、平均词排名及平均词频,研究了它们对人工语言能力得分的影响程度.最后,探讨了词汇分布特征对自动语音评分系统的影响,重点在于参照语料库的文类和词项类型2个因素的影响.  相似文献   

18.
高性能汉语数码语音识别算法   总被引:13,自引:0,他引:13  
提出了一个高性能的汉语数码语音识别 (MDSR)系统。 MDSR系统使用 Mel频标倒谱系数 (MFCC)作为主要的语音特征参数 ,同时提取共振峰轨迹和鼻音特征以区分一些易混语音对 ,并提出一个基于语音特征的实时端点检测算法 ,以减少系统资源需求 ,提高抗干扰能力。采用了两级识别框架来提高语音的区分能力 ,其中第一级识别用于确定识别候选结果 ,第二级识别用于区分易混语音对。由于采用了以上改进 ,MDSR系统识别率达到了 98.8% .  相似文献   

19.
针对于目前传统的命名实体识别模型在食品案件纠纷裁判文书领域的准确率不足的问题,在双向长短时记忆网络的基础上提出一种基于双向编码器表示模型(bidirectional encoder representations from transformers,Bert)和注意力机制的命名实体识别模型.模型通过Bert层进行字向量预训练,根据上下文语意生成字向量,字向量序列输入双向长短期记忆网络(bi-directional long short-term memory,BiLSTM)层和Attention层提取语义特征,再通过条件随机场(conditional random field,CRF)层预测并输出字的最优标签序列,最终得到食品案件纠纷裁判文书中的实体.实验表明,该模型在食品纠纷法律文书上面的准确率和F1值分别达到了92.56%和90.25%,准确率相较于目前应用最多的BiLSTM-CRF模型提升了6.76%.Bert-BiL-STM-Attention-CRF模型通过对字向量的预训练,充分结合上下文语意,能够有效克服传统命名实体识别模型丢失字的多义性的问题,提高了食品案件纠纷裁判文书领域命名实体识别的准确率.  相似文献   

20.
藏文分词是藏文自然语言处理的基础。根据藏文虚词在藏文文本中的特殊作用以及虚词的兼类性、结合性、黏着变体性和还原特性,设计实现了一个基于藏语虚词切分的正向最大匹配的藏文分词系统,该系统对原始文本进行逐次扫描处理得到分词结果。实验表明,文章提出的藏文分词系统具有较高的切分精度和切分速度。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号