首页 | 本学科首页   官方微博 | 高级检索  
     

版面相似中文表单的分类方法研究
引用本文:王思萌,高良才,王悦涵,李平立,汤帜. 版面相似中文表单的分类方法研究[J]. 北京大学学报(自然科学版), 2015, 51(2): 213-219. DOI: 10.13209/j.0479-8023.2015.028
作者姓名:王思萌  高良才  王悦涵  李平立  汤帜
作者单位:北京大学计算机科学技术研究所, 北京 100080;
基金项目:国家自然科学基金(61202232);北京市自然科学基金(4142023)资助
摘    要:针对具有相似版面的中文表单, 提出一种简单有效的基于距离度量的表单分类方法, 该方法对表单的用户填写信息、布局信息和位置偏移分别进行距离度量, 并通过3种权重有效地降低用户填写信息的随机性、版面相似表单的布局一致性和位置抖动性对表单分类的影响。实验表明, 所提方法在多个中文表单图像库上的分类准确率达到90%以上, 比目前最新的表单分类方法有明显提高。

关 键 词:表单分类  距离度量  权重计算  表单分类  距离度量  权重计算  
收稿时间:2014-06-28

A Study on Classification of Forms with Similar Layout
WANG Simeng , GAO Liangcai , WANG Yuehan , LI Pingli , TANG Zhi. A Study on Classification of Forms with Similar Layout[J]. Acta Scientiarum Naturalium Universitatis Pekinensis, 2015, 51(2): 213-219. DOI: 10.13209/j.0479-8023.2015.028
Authors:WANG Simeng    GAO Liangcai    WANG Yuehan    LI Pingli    TANG Zhi
Affiliation:Institute of Computer Science and Technology, Peking University, Beijing 100080;
Abstract:The authors propose a simple but effective distance based method to identify forms with similar layouts by measuring the user filled-in data, preprinted data and dithering data. The proposed method utilizes three kinds of weight components to mitigate the impact of randomness of user filled-in data, consistency of similar layouts and position dithering respectively. Experimental results show that the proposed method can achieve more than 90% classification accuracy on a series of data sets, which is significantly better than the results of the state-of-the-art method.
Keywords:form classification  distance metric  weight calculation
本文献已被 CNKI 万方数据 等数据库收录!
点击此处可从《北京大学学报(自然科学版)》浏览原始摘要信息
点击此处可从《北京大学学报(自然科学版)》下载全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号