首页 | 本学科首页   官方微博 | 高级检索  
     检索      

一种新的文本预处理方法研究
引用本文:郑苏民,张松顺.一种新的文本预处理方法研究[J].云南大学学报(自然科学版),1995,17(1):1-8.
作者姓名:郑苏民  张松顺
作者单位:云南大学信息与电子科学系
摘    要:文本预处理是整个字符识别系统的重要组成部分.它的性能的优劣,对整个字符识别系统的识别率和识别速度至关重要.由于汉字印刷文稿版面的复杂性,其文本预处理远比西文困难.本文提出了一种新的文本预处理方法.实现了含有文字字符,图形,图片和表格的、版面结构复杂的数字图象的分割.整个算法分为两个阶段完成:首先,从图形的连通原则出发,定义了扩展连通域的概念,对整个文本图象逐行扫描,搜索出所有的扩展连通域,进而通过集合的交、并操作,将属于一个字符或图象、图片和表格的若干个扩展连通域合并.这时扩展连通域已标记文本图象中的字符尺寸大小和位置.然后,基于同一行字符的间距的知识,将扩展连通域合并为逻辑字符行(横,竖);由字符行的高(宽)度的一致性及间距的知识,将逻辑字符行合并为逻辑块:按照印刷文稿的排版规律完成版面的结构识别、并将标记字符位置和大小的扩展连通域的顺序按版面结构信息重新组合,最后把字符规范为一定尺寸的点阵图象输出到字符识别器.本文提出的文本预处理方法已经实现.经实际运行测试表明,系统对于复杂版面的文件,书刊和报纸的文本图象的分割,具有较好的效果.

关 键 词:字符识别,文本预处理

A Study on the New Text Preprocessing Method
Zhen Suming,Zhang Songshun.A Study on the New Text Preprocessing Method[J].Journal of Yunnan University(Natural Sciences),1995,17(1):1-8.
Authors:Zhen Suming  Zhang Songshun
Abstract:The text preprocessing is an important part of the Chinese Characters rec-ognition Systems.Its performance will seriously affect the capacity and speed of thesystems.Owing tothe complexity of the printed sheets of the Chinese Characters,the dif-ficulty of the text preprocessing is far exceedingly over the Western Charater.In this paperwe putforward a new method of the text preprocessing that the divisions of the ChinesCharacters,graphics,photographics,tables and the complicated layout of the printedsheets which areconsist of characters or numbers or alphabets are realized.
Keywords:Character recognition  text preprocessing  
本文献已被 CNKI 维普 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号