首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到17条相似文献,搜索用时 577 毫秒
1.
高山山  宋凯 《科技资讯》2010,(12):225-226
版面分析目前已成为提高汉字识别系统效率的关键技术之一。针对中文版面较为复杂的特点,本文提出一种非文本区域优先的版面分析方法。该方法提取文档图像中所有连通域,根据连通域的大小进行聚类,从而可以得到文字连通域和非文字连通域,以达到分割版面的目的。实验结果表明,这种方法能够对比较规范的中文版面进行分析,具有较高的效率和较好的适应性。  相似文献   

2.
基于连通域的版面分割研究   总被引:2,自引:2,他引:0  
版面分割是OCR(光学字符识别)系统的重要组成部分,在将印刷文档转换为电子文档的过程中是必不可少的,该文对基于连通域的版面分割方法进行研究,首先用动态聚类法选取模糊阈值,然后对文档图像进行模糊处理,形成大的连通区域,再根据连通域的位置关系等分割出文档的各个分栏,实验表明,该方法对于简单的矩形版面及复杂的版面,例如,非Manhattan版面等都能较好地分割。  相似文献   

3.
贾运  田学东  左丽娜 《科学技术与工程》2020,20(29):12021-12027
古籍版面图像结构复杂,对其进行有效、准确的分析是实现古籍汉字识别与检索的前提和基础。对古籍汉字版面分析的关键问题展开研究,在对古籍版面特点进行分析与归纳的基础上,提出基于LOF和波动阈值的古籍版面分析方法。首先,采用基于LOF的分类算法对古籍版面图像投影分割后的区域进行分类,确定存在分割问题的候选混合区域;然后,利用波动阈值对候选混合区域中的文字与框线粘连部分进行分割;最后,确定古籍版面中的文字区域并输出。实验结果表明,该算法能够有效地分离古籍文字区域和框线区域,版面分类和分割准确率分别为87.02%和78.69%。  相似文献   

4.
经典的C V模型分割算法在处理较大尺寸图像时存在需多次迭代、运算时间长的缺点。在分析图像尺寸和初始逼近图像与获得稳定解的迭代次数与运算时间的关系的基础上,提出了一种改进的基于阈值分割及快速连通域标记算法的局部C V图像分割算法,对大尺寸图像进行处理。采用OTSU算法对图像进行初步的阈值分割,再利用快速非递归连通域标记算法进行连通域的标记及图像的局部分片。对分片后的小块图像以其阈值分割的结果作为初始逼近图像采用C V算法进行分割处理。算法分析及仿真结果证实,与经典C V算法相比较,改进的算法能够以很少的迭代次数和很短的运算时间达到稳定解,能够对含有丰富轮廓细节的大尺寸图像进行快速有效的处理。  相似文献   

5.
为克服现有方法对数字人切片图像分割中人工参与的依赖,提出了一种基于连通域标记和K-均值聚类的数字人脑彩色切片图像分割方法.该方法首先通过连通域标记分割出脑组织的初始区域,再通过腐蚀操作精确提取脑组织,然后在RGB(红绿蓝)空间内借助直方图确定聚类中心,以欧几里得距离为判断标准实现对白质的K-均值聚类分割.采用首例中国女...  相似文献   

6.
文档图像分割技术研究   总被引:2,自引:0,他引:2  
在文档图像分析处理中,分割技术十分必要.本文介绍了目前文档图像分割算法中常用的特征和方式,并对针中文文档图像给出了一种分割方法.该方法首先利用Sobel算子粗略检测出文字边缘区域,利用形态学膨胀方法扩展该区域,接着进行了两次颜色聚类分析,最后根据中文字符的特征进行了一系列启发式处理,很好地分割出了文字区域.  相似文献   

7.
提出一种基于Mask R-CNN深度学习框架的满文文档版面分析方法,将满文文档版面分析问题转化为基于深度学习的图像实例分割问题。使用ResNet101网络和FPN网络构成的卷积神经网络自动提取满文文档图像特征,特征图经过RPN网络和RoI Align层生成新的特征图。新特征图经过全连接层完成感兴趣区域的类别和边框预测,并经过全卷积神经网络对感兴趣区域的像素进行分类得到mask预测,最终实现满文文档图像的实例分割。通过《新满汉大辞典》的文档图像构建了满文文档图像数据集,算法在该满文文档图像数据集上进行了实验。实验结果表明,本算法在满文文档版面分析中取得了较好的检测和分割效果。  相似文献   

8.
针对古籍文献版面图像切分中存在的过切分和粘连等问题,提出基于犹豫模糊集的古籍汉字图像切分方法。首先,对古籍汉字版面图像进行连通区域搜索,获取版面中的笔画部件,实现古籍汉字的初切分;然后,对过切分汉字进行特征分析,提取过切分区域的特征,利用犹豫模糊集在处理多属性决策问题方面的优势,通过建立犹豫模糊集来判断过切分区域归属同一古籍汉字的隶属度,并据此进行过切分区域的合并;最后,对存在粘连和重叠的汉字采用分段像素跳跃数突变分析方法进行分割。在28 886个古籍汉字上的实验结果显示,可以达到92. 3%的切分准确率和85. 7%的过切分合并准确率。  相似文献   

9.
一种适合硬件实现的多值图像连通域标记算法   总被引:4,自引:0,他引:4  
提出了一种合适硬件实现的多值图像连通域标记算法.算法以有效的方式识别、保存并整理区域之间复杂的连通关系.首先,通过对图像执行一遍逐像素扫描,得到图像的初步标记结果以及初步标记之间的连通关系;然后,通过等价表整理以及图像代换,输出图像标记的最终结果,并且连通域按照扫描顺序被赋予唯一的连续自然数.仿真结果表明,该算法能够识别图像中复杂的连通关系,产生正确的标记结果,在用于大幅图像的分块标记时,能够实现全局标记一致.在以硬件方式实现该算法时,在50 MHz工作时钟下,处理320×256像素图像能够达到100帧/s的标记速度,满足大部分实时目标识别系统的要求.  相似文献   

10.
吴建 《科学技术与工程》2013,13(5):1135-1140
针对磁共振脑组织图像中存在灰度不均匀,不利于分割的问题,提出了一种应用模糊连通图和区域生长的MRI(Magnetic Resonance Imaging)脑组织图像分割算法。首先用大津法对脑组织进行粗分割,得到脑白质部分的大致轮廓,。然后计算粗分割结构的中心点,根据中心点得到图像的模糊连通图。最后用区域生长算法对模糊连通图中的脑白质进行更精确的分割。试验结果表明,此方法能够精确的得到脑白质轮廓的边缘,并且大大降低了区域生长种子点位置和阈值选取对分割结果的影响。  相似文献   

11.
从手写文档图像中提取出文本行是文档分析的一个重要预处理步骤,但是由于手写文本行之间通常行方向不平行,甚至存在着交叠和弯曲,所以它仍然是一个具有挑战性的问题. 针对该问题,提出了一种基于高阶相关聚类的脱机中文手写文本行的分割算法.首先,使用连通部件构成一个文档超图,然后,在学习所得的相似性度量准则的约束下,通过高阶相关聚类算法将连通部件对标记为属于或者不属于同一文本行;最后,使用union­find算法将连通部件连接成为不同的文本行.该算法在HIT­MW脱机手写数据库上的803幅文档上取得了较好的效果,召回率99.05%,错误率为1.96%.  相似文献   

12.
基于分层密度特征的文档图像检索   总被引:1,自引:0,他引:1  
为克服基于版面重建的文档图像检索方法对图像质量要求高,且局限于部分文种,以及基于版面分割的文档图像检索方法受限于版面分割技术等问题,提出了一种基于二值文档图像分层密度特征的检索方法。该方法通过倾斜校正、去除黑边等预处理得到有效文本区域,提取有效文本区域的长宽比和分层密度特征,通过特征比对进行检索。实验表明:该方法对不同分辨率以及不同的输入设备具有自适应能力,对复杂版面和批注等噪声鲁棒性好,漏检率为2%,是一种简单有效的文档图像检索方法。  相似文献   

13.
针对Web同一对象内部信息组件之间的空间距离小于不同对象之间信息组件之间的距离这一显示特征.提出一种新的Web对象抽取方法.通过分析给定页面中不同实体间的空间位置关系来判断哪些信息成分属于同一对象,与Web文档的表示无关.通过Web页的文档对象模型(DOM)获得不同信息成分之间的位置关系,进而判断这些信息组件是否属于同一对象.实验结果表明,该方法对于多个领域中不同结构的Web文档具有很好的适应性.对于设计结构规则,含有多个数据对象的页面,抽取结果的准确率可以达到100%.  相似文献   

14.
基于纹理合成的打印文件鉴别   总被引:1,自引:0,他引:1  
为解决现有打印文件鉴别方法需要相同字符匹配的条件限制,提出了一种基于纹理合成的打印文件鉴别方法。通过对已知纹理样本块的操作,将字符图像中的空白部分修复,得到完整的纹理图像,从而消除字符内容的干扰。在打印文件鉴别实验中,通过提取完整纹理图像的灰度共生矩阵特征,并对两份打印文件的特征距离进行分类判别,最后取得了98%的正确率。  相似文献   

15.
层次化蒙古语统计语言模型   总被引:1,自引:0,他引:1  
蒙古文具有典型的构词、构形词缀的特点,一个蒙古语单词往往可以切分成词干和词缀等若干个部分.根据蒙古语的特点,提出了一种层次化的蒙古语语言模型,将蒙古语语言模型分为词干和词干、词干和词缀、词缀和词缀三个层次.在这三个层次上分别计算出独立的语言模型.把这种层次化的蒙古语语言模型方案应用到了一个统计汉蒙机器翻译系统中,实验证明所构造的层次化的蒙古语语言模型能够有效地提高汉蒙机器翻译的效果.  相似文献   

16.
提出了一种图像的非线性尺度空间表示方法,并将其应用于时间要求严格的场景绘制。首先把图像分解为水平差集,对水平差集的连通分支赋予一个测度,然后根据测度从大到小对所有水平差集的所有连通分支进行排序。绘制进根据所排序依次将连通分支显示出来,根据时间的限制, 显示的将是不同层次细节的图像。这种表示方法具有保形、保对比度的特点。最后,给出了实验结果,并探讨了此方法的局限性及改进方向。  相似文献   

17.
提出了一种面向对象的表格图像版面分析方法,引入属性关系图的概念来描述表格版面结构,以表达表格组件间的复杂高维关系.属性关系图中属性的引入一方面可以描述组件的非结构特性,另一方面还可以利用属性来表达一些组件间的约束关系.该方法已应用于实际系统,测试结果表明该方法能够充分表达表格的结构化特点,同时具有相当的灵活性,为表格分析提供了一个实用的接口.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号