首页 | 本学科首页   官方微博 | 高级检索  
     检索      

PDF文档中的脚注识别研究
引用本文:黎斯达,高良才,汤帜,俞银燕.PDF文档中的脚注识别研究[J].北京大学学报(自然科学版),2015,51(6):1017-1021.
作者姓名:黎斯达  高良才  汤帜  俞银燕
作者单位:北京大学计算机科学技术研究所, 北京 100080
基金项目:国家自然科学基金(61202232),北京市自然科学基金(4132033)
摘    要:针对PDF 文档的脚注识别问题, 提出一种自动识别脚注及其引用, 并建立它们之间匹配关系的方法。首先针对PDF 文档提取脚注的一系列特征, 包括页面布局、字体信息、语义信息等, 然后基于文档部件风格一致性, 利用聚类技术, 处理在不同文档中相异但在同一文档中相似的特征, 从而使得识别过程能够适应不同文档类型。此外, 利用脚注与引用的匹配结果为识别过程提供反馈, 进一步提高了识别准确性。在真实文档测试集上的实验结果表明, 所提方法对于PDF 文档的脚注识别取得较高的准确率和召回率。

关 键 词:脚注  PDF  文档  文档分析与理解  
收稿时间:2014-09-20

Footnote Identification within a PDF Document
LI Sida,GAO Liangcai,TANG Zhi,YU Yinyan.Footnote Identification within a PDF Document[J].Acta Scientiarum Naturalium Universitatis Pekinensis,2015,51(6):1017-1021.
Authors:LI Sida  GAO Liangcai  TANG Zhi  YU Yinyan
Institution:Institute of Computer Science & Technology, Peking University, Beijing 100080
Abstract:A robust method of identifying and linking footnote and its reference in the text is proposed to solve the footnote recognition problem. Novel features of the footnote, including page layout, font information, lexical and linguistic features, are utilized for the task. Clustering is adopted to handle the features which vary in different kinds of documents but stable within one document so that the process of identification is adaptive with document types. In addition, this method leverages results from the matching process to provide feedback to the identification process and further improves the algorithm accuracy. The primary experiments in real document sets show that the proposed method is promising to identify footnote in a PDF document.
Keywords:footnote  PDF documents  document analysis and understanding
本文献已被 CNKI 万方数据 等数据库收录!
点击此处可从《北京大学学报(自然科学版)》浏览原始摘要信息
点击此处可从《北京大学学报(自然科学版)》下载免费的PDF全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号