首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 265 毫秒
1.
一种新的文本预处理方法研究   总被引:2,自引:0,他引:2  
文本预处理是整个字符识别系统的重要组成部分.它的性能的优劣,对整个字符识别系统的识别率和识别速度至关重要.由于汉字印刷文稿版面的复杂性,其文本预处理远比西文困难.本文提出了一种新的文本预处理方法.实现了含有文字字符,图形,图片和表格的、版面结构复杂的数字图象的分割.整个算法分为两个阶段完成:首先,从图形的连通原则出发,定义了扩展连通域的概念,对整个文本图象逐行扫描,搜索出所有的扩展连通域,进而通过集合的交、并操作,将属于一个字符或图象、图片和表格的若干个扩展连通域合并.这时扩展连通域已标记文本图象中的字符尺寸大小和位置.然后,基于同一行字符的间距的知识,将扩展连通域合并为逻辑字符行(横,竖);由字符行的高(宽)度的一致性及间距的知识,将逻辑字符行合并为逻辑块:按照印刷文稿的排版规律完成版面的结构识别、并将标记字符位置和大小的扩展连通域的顺序按版面结构信息重新组合,最后把字符规范为一定尺寸的点阵图象输出到字符识别器.本文提出的文本预处理方法已经实现.经实际运行测试表明,系统对于复杂版面的文件,书刊和报纸的文本图象的分割,具有较好的效果.  相似文献   

2.
藏文编码中UNICODE数据库的应用   总被引:2,自引:1,他引:1  
藏文的字符编码工作中需要建立编码字符数据库,而Unicode字符数据库在各国语言文字的字符编码方面具有非常重要的作用,因此要制定藏文编码字符数据库必须对Unicode字符数据库技术掌握得深透.本文扼要介绍这一新技术在藏文扩充集A字符数据库中的应用.  相似文献   

3.
以点阵式喷头字符成形原理为基础,提出了字高调整的方法;具体研究了脉冲喷射开关阀的驱动方式、驱动器排列方式、开启量确定等几个关键问题,为高速点阵式大字符喷头的设计制造提供了理论基础;分析了影响喷印精度的因素,为减小误差设计了实施方案;并用实验证明了理论的可行性.  相似文献   

4.
李玮 《科学技术与工程》2013,13(10):2836-2840
文中面向字符型报文,提出了一种全新的无损报文压缩技术。该技术引入算术编码,提出了报文字符集合静态概率表的建立以及自适应概率表更新方法,并提出了一种直接、有效的编码区间移位方法。文中首先采用实例对算术编码原理进行了详细介绍,其次阐述了压缩技术方案原理,并给出了程序设计流程图。最后,以NMEA—0183格式报文为样本进行测试,给出了算术编码以及其它几种无损压缩编码的实验结果,并进行了比较分析。结果表明,文中提出的方法具有良好的压缩效果。  相似文献   

5.
本文扼要介绍了电子邮件安全增强机制,分析了S.T.Kent的“Internet Prifacy Enhanced Mail”一文中一例报文各字段的功能,进一步给出了源发证书字段的编码值;在此基础上对J.P.Anderson在Computing Reviews“的评述提出了异议,肯定了PEM机制的前景。  相似文献   

6.
校园网出口流量存在大量的特殊报文(长度为40字节且标识字段值为0的口报文),本文运用信息论中熵的概念来定义随机测度,研究特殊报文对标识字段比特随机测度值的影响.实验结果表明,将特殊报文另行处理,则比特随机测度值不仅有明显提高而且变化幅度更小。  相似文献   

7.
本文提出一种用于抽取字符骨架特征的预处理方案,以摄象机输入的字符图象先被分割出单个字符.然后用IFA算法阈化为二值图象,经规格化处理成16×12的标准形式后,再用CGT算法进行细化,最后得到字符的单象素宽的骨架.  相似文献   

8.
本文介绍了IP组播的概念和特点,分析了SNMP协议TRAP报文的格式和工作机制,给出了基于winSNMP编程实现SNMP协议TRAP报文在IP组播传播的具体步骤.以期为IP网监控系统的建设提供借鉴。  相似文献   

9.
基于粗糙集的车牌字符识别方法   总被引:4,自引:0,他引:4  
提出了一种基于粗糙集理论的车牌字符识别的方法,通过粗糙集的属性约简,有效地压缩了图像的特征数目,提高了运行效率,并且采用基于影响因子的图像判别算法,有效地提高了识别的准确率.以在高速公路收费站实地拍摄的车牌图像为样本,经过车牌的定位、分割,以及字符的分割,选取其中的300幅字符图像作为训练集,100幅字符图像作为测试集,实验结果表明:将训练集图像作为输入,正确识别率为100%;将测试集作为输入,正确识别率为86%。  相似文献   

10.
针对二值数字化机械工程图中字符的提取和分割问题,提出了一种新的图文自动分离算法———行程编码匹配法,能对原始点阵图像的噪声水平、图形与字符粘连以及字符的大小和书写方向等因素几乎不加限制地进行处理.在此算法的基础上,提出的一种字符分割算法可以成功地将字符与字符的粘连分割转化为图的边割集问题.经对以此算法研制成的图纸识别软件系统GIRS80的初步测试,提取率在95%以上  相似文献   

11.
讨论如何在Windows平台上,处理文字的显示.讨论了在图形系统中显示、打印文字信息的几种情况,出现的问题,及相应的解决方案.针对蒙文、汉文等文字的录入、编辑,设计了专门的显示、编辑控件,解决了在Web页面中文字的显示问题.这里对显示汉蒙文字所遇到的文字显示宽度、旋转角度问题进行了讨论并给出了解决方法.给出了在椭圆曲线上显示文字的一种方法.  相似文献   

12.
QR code二维条码数据编码的研究   总被引:2,自引:0,他引:2  
为了实现二维条码的超大容量和高效汉字表示,应用快速响应矩阵码(QR code)进行编码.QR code码可以对任何类型数据,如数字、字母、字节以及汉字等进行编码.汉字模式下输入字符被压缩成13 bit二进制数,然后将二进制数连接起来,并在前面加上模式指示符、汉字子集指示符和字符计数指示符.在对输入数据进行汉字编码时,发现国家标准(GB/T 18284-2000)中存在错误,生成的数据位流超出国标中规定的符号数据容量.提出了3种修订方法,修改了国标中汉字模式的数据容量.测试结果表明所提方法是可行和有效的.  相似文献   

13.
句法模式识别方法能够很好地解决结构复杂模式的识别问题,这种方法的关键是对模式进行形式的描述,这个描述通常是文法的一个句子,它可以是一棵树,一个图或一条链。在手写体汉字识别中,由于通过摄象机获得的汉字模式已失去了书写时的顺序信息,这就使得分离、组合其有意义的结构并用来作为描述汉字的部件变得十分困难。本文提出一种树状文法与投影叠加技术(Tree Grammar with Projection)来分层描述汉字,有效地解决了汉字部件的分割和各种复杂结构的描述。为了保持汉字的二维结构信息,采用了树状文法。  相似文献   

14.
句法模式识别方法能够很好地解决结构复杂模式的识别问题,这种方法的关键是对模式进行形式的描述,这个描述通常是文法的一个句子,它可以是一棵树,一个图或一条链。在手写体汉字识别中,由于通过摄象机获得的汉字模式已失去了书写时的顺序信息,这就使得分离、组合其有意义的结构并用来作为描述汉字的部件变得十分困难。本文提出一种树状文法与投影叠加技术(Tree Grammar with Projection)来分层描述汉字,有效地解决了汉字部件的分割和各种复杂结构的描述。为了保持汉字的二维结构信息,采用了树状文法。  相似文献   

15.
汉字是承传使用至今最古老的文字,由汉字书写而发展起来的书法,成为中华民族的艺术瑰宝,是一门独立于世界艺术之林的艺术。汉字书法不仅传递文字信息,更包孕中华民族独特的审美理想,反映着中华民族独有的精神内涵。书法的学习与承传,不仅是艺术与技艺的学习,而且是传承民族优秀文化的重要载体。  相似文献   

16.
针对中文字库制作开销过大的问题, 提出一种基于部件拼接的高质量中文字库制作方法。参考汉字相关规则与信息, 选取供用户书写的少量汉字集合, 将书写的汉字分割至部件级别。根据汉字部件成字关系, 拼接产生剩余汉字, 最终生成完整GB2312标准(共包含6763个中文字符)的高质量中文字库。实验表明, 所提出的字库制作系统实现了快速生成个性化中文字库的功能, 在保证生成字库质量的前提下, 显著降低了个性化中文字库的制作时间。  相似文献   

17.
吴琴霞 《科学技术与工程》2013,13(15):4426-4432
目前汉字字形的生成仍是手工劳动和人工设计,加上汉字数据量巨大截止到现在没有一种合适的字形自动化生成工具可以使用。针对这一难题提出了一种基于字形描述库的汉字字形自动生成的技术。该技术先将汉字字形与字形描述库映射,以字形描述库为桥梁将汉字字形数据化,然后通过查找字形描述库找到汉字对应的骨架信息,提取笔画骨架。最后通过数据的逆向处理将笔画骨架信息还原为各种汉字字形,形成汉字字形库。  相似文献   

18.
基于短信平台的铁路信息服务系统的设计   总被引:2,自引:0,他引:2  
为适应铁路信息化的需要,提出建立一个基于短信平台的铁路信息服务系统,实现短信查询与短信订票功能。平台采用客户端方式与通信公司的互联网短信网关进行通信,用数据库存储过程文现业务处理。首先提出了系统的网络结构.并较详细地阐述了客户端模块与业务处理模块的开发步骤,其中业务处理模块采用了模糊处理技术.比如汉字分词模糊处理、关键字模糊识别等技术.该系统已在铁路集团某下属公司投入运营,具有一定的社会效益和经济效益。  相似文献   

19.
汉字笔画若干数据的统计方法研究与应用   总被引:5,自引:0,他引:5  
统计汉字笔画信息的各种数据,这些数据主要包括:每个汉字的平均笔画数及按使用频度加权的平均笔画数、以各种笔画起笔的汉字数目、各种笔画在汉字字库中的出现次数、汉字字库中笔画相同的汉字、能与其他字区分开的汉字前若干笔画数的平均数与加权平均数以及汉字字库中相邻笔画的频度等。统计的数据对于基于笔画的汉字输入法和汉字的联机手写识别等方面具有重要的指导意义,我们根据这些统计资料设计了标准键盘和数字键盘,并在Windows下实现了以上两种笔画输入法。  相似文献   

20.
在分析鼓浪屿景区旅游文本的基础上,参照汉英译文,研究旅游文本的汉日翻译。由于中日两国在文化与语言上的历史渊源,译者往往在日语译文中直接沿用汉语文化词的汉字,这种翻译方法有其积极的一面,但过分使用,也会妨碍翻译目标的实现。因此,旅游文本中文化词的汉日翻译应充分考虑中日两国的文化异同与日本人的异文化接受能力,并参考汉英翻译策略,除直接使用对应的日语汉字外,还应综合运用增添解释性文字、适当删减等翻译方法。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号