首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 156 毫秒
1.
在字符识别技术日趋成熟的现状下,单个字符的正确切分及提取已经成为制约字符识别精确度的关键因素。本文针对二手车发票上印刷体的日期数字(阿拉伯数字),对图像二值化处理后,采用垂直方向投影和轮廓特征两种策略进行自适应字符切分及提取。实验结果表明,该方法提高了从图像中定位出来的字符串的切分率,并保证了字符切分和提取的正确率平均达到99%。  相似文献   

2.
近些年来语料库语言学的发展较为迅速,语料库的建设成为一项重要的工作.在对语料加工的过程中,保证词性标注的一致性也成为建设高质量语料库的重要问题.目前国内外对汉语语料库词性标注结果的校对,还停留在人工校对上,对词性标注结果不一致现象尚未进行系统的研究.对于词性标注方法不是很成熟的维吾尔语语料库来说,词性校对方面的研究工作更少.首先概要介绍了一种维吾尔语的标注方法,并受一些文献的启发,根据维吾尔语的特点对其进行词性标注自动校对的研究,并分析其适用于维吾尔语词性校对的可行性,进而提高维吾尔语词性标注的正确率.  相似文献   

3.
通过藏文格助词的接续、结构以及上下文特征,提出基于规则、支持向量机、还原法等三层混合模式的藏文音节切分方法.藏文音节切分是藏文字频统计、分词、词性标注和机器翻译等研究领域的基础,其中藏文紧缩格歧义现象的正确识别、切分和还原是藏文音节切分的难点.经实验,混合模式藏文音节切分的F值为99.97%.  相似文献   

4.
在标有复句逻辑语义关系的清华汉语树库上, 研究汉语篇章语义片段自动切分以及篇章关系的自动标注方法。通过比较不同序列标注模型对汉语篇章语义单元切分的性能, 提出基于最大熵模型的汉语篇章结构分析方法。实验结果表明, 篇章语义单元自动切分的F值能达到89.1%, 当篇章语义结构树的高度不超过6层时, 篇章语义关系标注的F值为63%。  相似文献   

5.
提出了一种新的能对脱机无约束手写体中文文本行中的字符进行切分的方法.首先采用预切分算法产生一系列曲线候选切分路径;然后使用两个修正的二次判决分析函数对单字符的识别信息、文本行的几何信息进行融合,得到切分假设的置信度;最后利用动态规划算法搜索出最佳切分假设.使用哈尔滨工业大学多人手写真实文本数据库中的383个文本行对文中方法进行实验,在无语言模型的情况下,切分准确率可以达到89.70%,从而验证了所提字符切分方法的有效性.  相似文献   

6.
基于最大熵模型的交集型切分歧义消解   总被引:6,自引:0,他引:6  
利用最大熵模型研究中文自动分词中交集型切分歧义的消解.模型输出的类别为两种:前两个字结合成词和后两个字结合成词.模型采用的特征为:待切分歧义字段的上下文各一个词、待切分歧义字段和歧义字段两种切分可能的词概率大小关系.通过正向最大匹配(FMM)和逆向最大匹配(BMM)相结合的分词方法,发现训练文本中的交集型歧义字段并进行标注,用于最大熵模型的训练.实验用1998年1月<人民日报>中出现的交集型歧义字段进行训练和测试,封闭测试正确率98.64%,开放测试正确率95.01%,后者比常用的词概率法提高了3.76%.  相似文献   

7.
基于字符在词位的特定性位置能起标志性作用,使用反映日语的语言倾向性的特征分析依存句法,给出基于字符级特征的依存句法自动分析算法.该算法使用词首的头2个字符、词尾的最后1个字符以及词尾的最后2个字符这3种类型的字符级特征加强分析器的学习.采用第1种类型的特征,反映日语的词汇形态特点,采用后2种类型的特征,则部分反映了日语表达重心后置的语言特性.在CoNLL-2009日语语料库上进行实验以及进行实际评估,结果表明:与基线特征相比,该算法有效地提高分析器的UAS指标(即无标记依存关系的正确率)和LAS指标(即考虑带标记的依存关系的正确率),大大提高分析器的竞争力.  相似文献   

8.
一种快速精确的汽车牌照字符切分算法   总被引:5,自引:0,他引:5  
针对汽车牌照具有字符间距、字符数、字体等统一的纹理特征,提出了一种快速精确的牌照字符切分方法,设计了一系列的特征函数和判决函数突出其纹理特点从而进行车牌字符的切分。对在不同气候条件和不同地点采集到的1000幅图片进行了实验,实验结果表明,该算法具有快速和鲁棒性的特征,字符切分准确度达到98.1%。  相似文献   

9.
车牌识别主要包括4个环节,分别是:图像预处理、车牌定位、字符切分和字符识别。运用MATLAB软件,对车牌识别算法进行仿真,实现了汽车牌的定位以及字符切分。在预处理方面,对图像进行降噪,将其转化为灰度图像;在边缘检测方面,运用Roberts等算子进行边缘检测,实验比较后,最终采取较优的Roberts算子;在车牌定位方面,对边缘检测后的图像进行数学形态的闭合和腐蚀运算,去除面积较小的部分,得到车牌位置;在字符切分方面,对车牌进行二值化处理,去除车牌上的间隔符,运用比例分割和垂直投影法混合进行字符切分。  相似文献   

10.
根据维吾尔语黏着型的特点,以及形态化单词和频率进行统计分析之后的结果,为解决因单词形态而导致的数据稀疏问题和兼类词标注的问题,提出了维吾尔文的融合词干、词缀等形态特征的基于最大熵的词性标注模型。在通用的词性标注模型的基础上,构造了相应的词性标注特征模版,并设计了它的特征函数。实验结果分析表明,最大熵模型可以较好地处理维吾尔文词性标注的问题,其中词缀特征对提高兼类词和未登录词的词性标注有着十分显著的效果,与其他只用词形的词性标注系统相比准确率比以前提高了2.64%,达到了96.85%。  相似文献   

11.
文字识别是图像处理和模式识别的主要研究方向之一。文章提出了一种复杂背景图像中维吾尔字符切分与识别方法,该方法根据维吾尔文字母结构特点,对维吾尔文词语的切分进行了认真地分析,通过对维吾尔文字符边缘特征和笔画分布规律等特点进行研究,提出了比较有效的切分方法,并结合维吾尔文的特有规则,利用维吾尔文周边结构模式识别方法提取结构特征,最后通过计算 Minkowski距离找出最近的类别,输出识别结果。  相似文献   

12.
本文以维吾尔语拼写检查方法作为研究对象,提出以词典、形态分析、统计为基础的拼写检查方法。维吾尔语是黏着语言,富于形态变化,难以把单词的所有形态收录到词库里。因此,拼写检查时把词干提取方法与词典结合使用。为了保证词干和词缀连接的可靠性,建立基于统计的词干和词缀连接判断模型。上述的方法仅仅能处理词典中存在的单词。因此,在N元语法模型的基础上建立拼写查错模型,准确率为68.58%,一般词典能覆盖80%以上单词,结合统计方法后,差错准确率提高到93.6%以上。  相似文献   

13.
针对印刷体维文在连体段切分部分存在过切分和漏切分的现象,结合水平投影法和连通域搜索法实现维文文本的行切分和单词切分;同时针对连体段切分正确率不高的问题,提出一种新的切分方法。首先对字母连体段位于基线上方的部分进行竖直投影来寻找所有可能的切点,然后利用阈值判定法去除误切分。实验证明,该方法提高了印刷体维文的切分正确率,为提高维文识别的正确率打下基础。  相似文献   

14.
在许多文字识别系统中,字符切分是预处理阶段的重要环节,其目的是从文本图像中分离出字母图像,然后针对切分后的每个字母进行识别。为了达到字符切分的目的首先要切分出文本图像中的每一个连体字母段。本文将彩色图像转换为灰度化的边缘图像,其次对图像进行局域二值化,再进行区域检测,初步实现了图像中维吾尔文字行的定位,然后根据定位结果从图像中切分出文字行,统计切分后的文字行在水平和垂直方向上的像素累计情况,查找最佳切分点,分离出文字行中的字母独立形式或几个字母连成的连体字母段,对后面的字符切分打了很好的基础。实验结果表明,文字行的切分准确率达到92%,字切分准确率达到90%以上。  相似文献   

15.
提出一种基于词间关联度度量的维吾尔文本自动切分方法。该方法从大规模生语料库中自动获取维吾尔文单词Bi-gram及上下文语境信息, 在充分考虑维吾尔文单词间结合规则的前提下, 将相邻单词间的互信息、t-测试差及双词邻接对熵的线性融合作为组合统计量(dmd), 度量文本中相邻单词之间的关联程度。以dmd度量的弱关联的词间位置作为切分点进行自动切分, 得到语义及结构完整的词串, 而不仅仅是以空格隔开的单词。在大规模文本语料上进行的测试表明, 该方法的切分准确率达到88.21%。  相似文献   

16.
Correct prosodic boundary prediction is crucial for the quality of synthesized speech in text-to-speech system. This article mainly presents the prosodic hierarchy of Uyghur language, which belongs to Turkish language family of Altaic language system and further verifies the reliability of proposed Uyghur prosodic boundary annotation rules by acoustic analysis. In the prediction part, a two-layer shifting hierarchical approach based on decision tree is used for predicting prosodic word and prosodic phrase boundary, and the influence of different feature sets on the Uyghur prosodic boundary prediction is also investigated. Experimental results clearly show the acoustical changes and automatic prediction performance of different prosodic boundaries of Uyghur language, thus laying a good foundation for further research.  相似文献   

17.
基于彩色分割的车牌自动识别技术   总被引:100,自引:1,他引:100  
提出一种采用彩色分割及多级混合集成分类器的车牌自动识别方法.该方法由彩色分割、目标定位、字符识别及后处理模块组成.采用多层感知器网络(MLPN)对输入彩色图象进行彩色分割,通过投影法分割出潜在的车牌区域并进一步切割出字符,由多级混合集成分类器给出字符识别的初步识别结果及置信度,经后处理得到最终结果.该方法识别正确率高、鲁棒性好,车牌定位正确率达98.6%,字符识别正确率达到95%以上,具有很好的实用技术指标.  相似文献   

18.
声旁有提示整个形声字读音的功能,但不能完全凭声旁来推断形声字的读音。从形声字与声旁的关系来看,以声旁来推断形声字读音产生偏误有诸多的原因。  相似文献   

19.
汉字是表义文字,从汉字的体制看,汉字有语素字和非语素字,从汉字的字音看,汉字不光有单音字,还有许多多音字,从汉字的形体看,汉字是由笔画构成的,有不少汉字的形体相近或相似,构成了形近字。这些语素字、非语素字、多音字和形近字出现在普通话水平测试(PSC)的单字试题中,用来检测应试者的普通话水平,应试者的错误率极高,严重影响普通话测试目标的实现。本文根据汉语言文字的特点,提出改变试题的形式,以期真正实现测试目标。  相似文献   

20.
以中文分词为应用目标, 将大规模语料库上存在的自然标注信息分为显性标注信息与隐性标注信息, 分别考察了它们的分布和对大数据集上语言计算的影响。结果表明, 两者都直接或间接地表达了作者对语言的分割意志, 因而对分词具有积极的影响。通过词语抽取测试, 发现在缺乏丰富显性标注信息的文本中, 来自语言固有规律的自然标注信息对字符串有着强大的分割性能。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号