首页 | 本学科首页   官方微博 | 高级检索  
     

基于优化层次聚类的文档逻辑结构抽取
引用本文:张阔,徐鹏,李涓子,王克宏. 基于优化层次聚类的文档逻辑结构抽取[J]. 清华大学学报(自然科学版), 2005, 45(4): 471-474
作者姓名:张阔  徐鹏  李涓子  王克宏
作者单位:清华大学,计算机科学与技术系,北京,100084;清华大学,计算机科学与技术系,北京,100084;清华大学,计算机科学与技术系,北京,100084;清华大学,计算机科学与技术系,北京,100084
基金项目:国家自然科学基金资助项目(60443002)
摘    要:半结构化文档的逻辑结构自动发现可以改善文档的浏览方式,提高文档内容构件的复用性,有效克服了半结构化文档难于利用的弱点。该文将文档处理对象扩展到结构松散的文档实例,提出了基于优化层次聚类的文档逻辑结构抽取算法——CEDLS。算法首先对文档逻辑结构标志性信息进行识别与特征提取,并根据逻辑结构抽取的特点对传统的层次聚类分析方法进行改进,使获得的分类结果适用于CEDLS算法的逻辑层次归纳策略。最终以上海证券所的年报为测试集进行实验,通过与传统的方法进行比较,证明了这种算法在容错性能和正确率方面的优越性。

关 键 词:层次聚类  文档逻辑结构  特征提取  半结构化
文章编号:1000-0054(2005)04-0471-04
修稿时间:2004-03-15

Optimized hierarchy clustering based extraction for logical document structures
ZHANG Kuo,XU Peng,Li Juanzi,WANG Kehong. Optimized hierarchy clustering based extraction for logical document structures[J]. Journal of Tsinghua University(Science and Technology), 2005, 45(4): 471-474
Authors:ZHANG Kuo  XU Peng  Li Juanzi  WANG Kehong
Abstract:Automatic identification of logical structures in semi-structured documents enables reading by browsing and the reuse of content components. A method developed for loosely-structured documents, CEDLS, extracts the logical structures from semi-structured documents using an optimized hierarchical clustering algorithm. The method first identifies the characteristic information and selects the features in the logical structure, and then applies an improved hierarchical clustering algorithm to extract the hierarchical logical structures. Tests on annual reports from the Shanghai Stock Exchange illustrate the precision and robustness of the method.
Keywords:hierarchy clustering  document logical structure  attribute extraction  semi-structured
本文献已被 CNKI 万方数据 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号