首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 562 毫秒
1.
提出了一种新的能对脱机无约束手写体中文文本行中的字符进行切分的方法.首先采用预切分算法产生一系列曲线候选切分路径;然后使用两个修正的二次判决分析函数对单字符的识别信息、文本行的几何信息进行融合,得到切分假设的置信度;最后利用动态规划算法搜索出最佳切分假设.使用哈尔滨工业大学多人手写真实文本数据库中的383个文本行对文中方法进行实验,在无语言模型的情况下,切分准确率可以达到89.70%,从而验证了所提字符切分方法的有效性.  相似文献   

2.
在许多文字识别系统中,字符切分是预处理阶段的重要环节,其目的是从文本图像中分离出字母图像,然后针对切分后的每个字母进行识别。为了达到字符切分的目的首先要切分出文本图像中的每一个连体字母段。本文将彩色图像转换为灰度化的边缘图像,其次对图像进行局域二值化,再进行区域检测,初步实现了图像中维吾尔文字行的定位,然后根据定位结果从图像中切分出文字行,统计切分后的文字行在水平和垂直方向上的像素累计情况,查找最佳切分点,分离出文字行中的字母独立形式或几个字母连成的连体字母段,对后面的字符切分打了很好的基础。实验结果表明,文字行的切分准确率达到92%,字切分准确率达到90%以上。  相似文献   

3.
一种基于字符轮廓特征的印刷体汉字切分方法   总被引:1,自引:0,他引:1  
针对单一汉字切分方法的不足,提出一种基于字符轮廓凹凸特征的印刷体汉字切分方法,首先对扫描后的印刷体汉字文本图像进行二值化处理,根据整篇汉字字符的左右轮廓凹凸特征,把字符图像切成一个个的汉字行,最后根据每一个汉字行的字符串上下轮廓凹凸特征,把每一个汉字行切分为单独的汉字字符.仿真实验表明,提出的方法对于标准的纯印刷体汉字文本图像,可以得到比较理想的切分效果.  相似文献   

4.
针对维吾尔词书写粘连和手写笔画漂移等问题,提出一种基于多信息融合路径寻优的字符分割算法.利用笔画提取、切分和聚类,过分割单词图像得到主体和附加字段,通过字段模糊匹配获得鲁棒的字根序列描述,以抑制笔画漂移造成的干扰;由建立的匹配位置高斯模型来估算字段匹配信息,经对单字分类器输出进行置信度转换,从而得到字符识别信息,再运用数据统计获取单词语义信息;由构建的字符序列二阶Markov语言模型,基于Bayes准则,提出了单词后验概率的多信息加权融合计算方法,通过字段匹配及字根合并的路径寻优,可得到最佳字符分割结果.在手写维文样本库上的实验表明,所提算法能有效提升字符分割的准确率和稳定性.  相似文献   

5.
针对手写中文文本交错、粘连、字内过分离等问题,提出一种基于贪吃蛇算法和部首识别的文本切分方法.首先,根据贪吃蛇算法建立文本原始切分轨迹,并依据多重规则优化切分路径;之后,基于粘连字符的轮廓和骨架提取候选粘连点,利用贪吃蛇算法进行二次切分;最后,对过切分字符,进行部首的笔段提取和识别,依据汉字结构确定合并方向,并结合几何...  相似文献   

6.
基于识别反馈的粘连字符切分方法研究   总被引:1,自引:0,他引:1  
字符切分是影响OCR系统识别的关键因素之一.对于中英文混排粘连字符图像,笔者提出了一种基于字符类别的识别反馈的字符切分方法.该方法结构简单,容易实现,实验结果表明该方法切分效果好.  相似文献   

7.
字符切分是影响OCR系统识别的关键因素之一.对于中英文混排粘连搭接字符图像,提出了一种基于识别反馈的字符切分方法.该方法结构简单,容易实现,实验结果表明该方法有较好的切分效果.  相似文献   

8.
基于地址结构匹配的手写中文地址的切分与识别   总被引:2,自引:0,他引:2  
为了自动识别手写中文地址,提出基于地址结构的汉字字符切分和匹配方法。它将地址行图像过切分为一列子字符图像,对于可能的子字符合并方式进行识别。置信度比较大的词作为关键词搜索地址数据库,得到一系列候选地址。对每个候选地址进行匹配,综合考虑切分、识别和匹配代价给出最终结果。该方法在565个地址行样本上获得了超过91%的地址匹配率。实验表明:该方法能有效地克服传统手写汉字切分方法的不足,减少切分错误,从而提高地址匹配的正确率。  相似文献   

9.
藏文字符分割是藏文印刷体识别技术中的关键技术之一,高精度的字符分割是图像文本识别的主要因素,分割的效果直接影响最终的识别.该文通过研究藏文字形结构和文本图像分割技术,提出了投影法和连通域分割法相结合的藏文音节分割方法.在不同的喜马拉雅字体文本图像上分割测试准确率达99.31%,在卷积网络模型上藏文音节识别准确率比字丁高2.7%,表明藏文音节分割方法的有效性.  相似文献   

10.
字符切分是影响OCR系统识别的关键因素之一.对于中英文混排文档,提出了基于字符类别的识别反馈混排字符切分方法,利用字符特征分类判别出文档中的汉字类、英文、数字和标点符号类、部件类,对汉字类和部件类借助识别技术分别进行处理.该方法结构简单,客易实现,实验结果表明该方法切分效果好,字符类别判断准确.  相似文献   

11.
切分是光学字符识别中一个至关重要的步骤,它直接影响着最终文本识别的准确性.传统光学字符识别一般是针对给定的文本图像提供单一的切分策略,但在处理低质量或者格式多变的图像时效果较差.研究了多切分候选的选择问题,提出了一种针对多切分候选的基于GPT模型语义反馈的切分选择算法.实验表明,本文提出的算法,通过与GPT模型的语义评估能力有效结合,对低质量文本图像的切分任务取得了显著的改进,进一步提升了识别的准确率.  相似文献   

12.
针对中文漫画图像的特点, 提出一种无监督的中文漫画图像对白自动定位方法, 以满足中文漫画移动阅读的需求。不同于现有基于学习的方法, 该方法不需要训练集, 且具有较强的鲁棒性, 主要包括3个步骤: 1) 利用包围漫画图像文字的空白区域(气泡)的连通性进行气泡检测, 并在气泡中检测完整字符对; 2) 基于字符形状与字符排版规则的一致性, 聚类形成字符行或字符列, 并提取字体特征; 3) 联合多页漫画图像字体特征, 利用贝叶斯分类器检测多页漫画中的剩余字符。在包含900页漫画图像的数据集上进行实验, 结果表明, 该方法可以有效定位中文漫画图像中的对白区域, 取得比较满意的实验结果。  相似文献   

13.
在联合匹配边缘概率和条件概率分布以减小源域与目标域的差异性时,存在由类不平衡导致模型泛化性能差的问题,从而提出了基于平衡概率分布和实例的迁移学习算法。通过基于核的主成分分析方法将特征数据映射到低维子空间,在子空间中对源域与目标域的边缘分布和条件分布进行联合适配,利用平衡因子动态调节每个分布的重要性,采用加权条件概率分布自适应地改变每个类的权重,同时融合实例更新策略,进一步提升模型的泛化性能。在字符和对象识别数据集上进行了多组对比实验,表明该算法有效地提高了图像分类的准确率。  相似文献   

14.
字符切分是影响OCR系统识别的关键因素之一.对于英文搭接字符图像,笔者提出了一种基于轮廓线搜索策略的搭接英文字符切分方法.该方法结构简单,容易实现,实验结果表明该方法切分效果好.  相似文献   

15.
针对当前图像文字识别与提取的最新发展状况,提出一种基于K-means的图像文字识别与提取算法,其主要处理步骤包括图像的预处理、像素点聚类处理、图层的选择与优化以及最终的文字切分等。经过上机对算法进行测试,该算法能够有效提高图像文字识别与提取的准确率与执行效率,并可以针对不同环境下的图片文字进行有效识别。  相似文献   

16.
基于笔划合并和动态规划的联机汉字切分算法   总被引:4,自引:0,他引:4  
联机手写汉字识别已从单字识别走向多字,乃至整篇文档的识别,字符的正确切分很大程度上决定了系统的性能.为了提高系统对整页文档的切分识别性能,该文提出了一种联机手写汉字的切分算法.通过基于规则的笔划合并将单个笔划合并成字符块,在此基础上,采用动态规划算法,利用字符块的长宽比、大小、间距以及识别信息,寻找出最优的切分路径.同时,对于手写汉字的任意性,提出了一种对汉字外接矩形框进行裁减的调整算法,使外接框并不包含整个汉字.实验证明,该文所提出的算法对于字数较多的多行样本以及存在字符相互粘连的情况,都有着很好的效果.  相似文献   

17.
行人重识别任务旨在跨相机下检索出特定的行人图像.虽然行人重识别任务得到了快速发展,在检索精度上得到很大的提升,但是依然面临着行人重识别模型在新的数据集上泛化能力有限,以及在无监督领域自适应任务中无法避免的伪标签噪声的问题.针对目前无监督领域自适应任务中由于聚类算法的局限性而导致伪标签出现噪声的问题,提出一种基于多度量融合的无监督领域自适应行人重识别算法.具体而言,多度量融合算法是在目标域上使用DBSCAN(density-based spatial clustering of applications with noise)聚类算法对特征空间的行人特征进行聚类时,通过多个特征相似度度量函数线性加权的方式,计算行人之间的特征相似度,从而在目标域上生成更为准确的伪标签,之后利用该伪标签微调模型.通过在Market1501→DukeMTMC-reID和DukeMTMC-reID→Market1501上大量的实验,证明多度量融合算法有效提升了行人重识别模型在无监督领域自适应任务上的检索精度.  相似文献   

18.
提出一种基于隐Markov模型(Hidden Markov Model,HMM)的图像方位识别方法.将待识别的目标图像进行分割,对子图像进行奇异值分解,提取奇异值向量形成观测序列,即图像奇异值向量作为HMM的观测向量.确定HMM参数并计算其最大似然概率,按待识别图像最大似然概率对应所属的聚类进行识别.实验结果表明,3类共150幅目标图像的识别率达到了85%.  相似文献   

19.
研究了基于小波变换的图像文本信息提取模型,提出了一种在小波域内提取图像文本信息的算法,该算法首先对图像进行二维小波变换,设置滑动窗扫描高频子带,计算滑动窗内图像的小波纹理特征,采用k-均值聚类算法提取文本区域,再对原图像进行边缘检测,根据文本区域的相关特征精确地定位文本区域,最后将文字与背景分离.从实验结果可以看出该算法能够较准确地从背景图像中提取出不同语种、字体、大小的文本信息.  相似文献   

20.
手写体中文的自动识别是中文文档数字化的前提和基础,由于中文字符数目繁多、相似性强、字体种类繁多、书写随意、缺乏统一规范等原因,一直是计算机视觉领域中一个具有挑战性的问题.为解决这一难题,提出了一种基于卷积神经网络的手写体中文识别方法.在经典LeNet-5网络模型的基础上进行改进,提出了一种LeNet-Ⅱ模型.利用改进的Inception模块和空洞卷积,设计了一种并行的双路卷积神经网络结构;两路分支可分别提取手写中文图像中不同尺度的特征,获得多个尺度的特征图像;通过对其进行特征融合,可以达到丰富特征图像多样性、提升识别准确率的目的;最后经过全连接层进行分类.利用经典手写体中文数据集进行训练,利用该模型实现了3 755类手写体中文字符及相关文本的自动识别.实验结果表明,基于改进LeNet-5模型的手写体中文识别方法,在同一训练数据集上的收敛速度和识别准确率明显优于经典LeNet-5模型,对经典数据集的识别准确率可以达到95.21%,也高于其他传统算法;此外,对4幅手写体中文文本的平均识别准确率达到97.30%,超出了人类表现,取得了理想的实际效果.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号