首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 171 毫秒
1.
针对PDF 文档的脚注识别问题, 提出一种自动识别脚注及其引用, 并建立它们之间匹配关系的方法。首先针对PDF 文档提取脚注的一系列特征, 包括页面布局、字体信息、语义信息等, 然后基于文档部件风格一致性, 利用聚类技术, 处理在不同文档中相异但在同一文档中相似的特征, 从而使得识别过程能够适应不同文档类型。此外, 利用脚注与引用的匹配结果为识别过程提供反馈, 进一步提高了识别准确性。在真实文档测试集上的实验结果表明, 所提方法对于PDF 文档的脚注识别取得较高的准确率和召回率。  相似文献   

2.
采用图像的结构化局部边缘模式特征(structured local edge pattern,SLEP)对文档图像进行分类,由于该算法精确描述了图像边缘方向邻域中的空间分布,因此相应的学习对于文档图像类型具有很强的区分能力.与基于图像复杂结构分布特征的方法或基于光学字符识别系统特征(OCR)的方法相比,基于SLEP特征的方法更简单有效.本实验通过组建文档图像数据库,利用支持向量机(SVM)作为分类器,总共对4种文档图像类型进行分类,分别为学术论文(paper),影像照片(photo),表格文件(table),幻灯影片(slide).实验结果表明,基于SLEP特征的方法在准确率、召回率等方面都明显优于所对比方法,并且即使在文档图像低分辨率的情况下,所分类结果仍然有不错表现.  相似文献   

3.
导航文档能够为用户更好地使用教育软件提供一个有效的途径,从而对教育软件的推广应用有着积极作用.针对教育软件中导航文档的主题、内容、索引及结构的设计进行了粗略的探讨,并对实现导航文档的一般步骤进行了总结.  相似文献   

4.
通过Cocoon架构,将XML文档分别转换成能够被网络浏览器识别的HTML文档.以及能被Acrobat readers识别的PDF文档和能被手机识别的WML格式文档.给出了文档格式转换的代码.  相似文献   

5.
针对当前高校教学文档管理中存在的问题,提出用数字化教学文档代替传统纸质教学文档,阐述数字化教学文档管理机制的文档分类、信息管理系统构建、制度建设和人才培养等内容。  相似文献   

6.
分析以往流式文档和固定版式文档一体化处理方法的局限, 提出一种可逆转换方法, 即将文档的转换信息记录于目标文档中, 以便用于源文档的重构。论述了可逆转换的原理、关键技术、实验结果以及技术优势。选择标文通(UOF)作为流式文档格式, CEBX作为固定版式文档格式, 利用该方法成功地实现标文通文档到CEBX文档的可逆转换, 实验结果表明, 该方法取得较好的效果。  相似文献   

7.
提出了一种自底向上和自顶向下相结合的定位英文科技文档图像中数学表达式的新方法.首先,利用整幅图像的统计数据计算出用于分类的基准参数,然后利用局部极大成分的水平投影数据进行初步行分割,再利用每行的竖直投影数据将每行的符号分成数个子区域.对每一个子区域依据其性质利用基准参数进行分类,通过对特定类别子区域的适当合并,最终得到文档图像中公式的位置.新方法可以用于处理图文混排的文档图像,能够降低文档中的图片、表格等元素对于公式定位结果的影响.  相似文献   

8.
基于优化层次聚类的文档逻辑结构抽取   总被引:1,自引:0,他引:1  
半结构化文档的逻辑结构自动发现可以改善文档的浏览方式,提高文档内容构件的复用性,有效克服了半结构化文档难于利用的弱点。该文将文档处理对象扩展到结构松散的文档实例,提出了基于优化层次聚类的文档逻辑结构抽取算法——CEDLS。算法首先对文档逻辑结构标志性信息进行识别与特征提取,并根据逻辑结构抽取的特点对传统的层次聚类分析方法进行改进,使获得的分类结果适用于CEDLS算法的逻辑层次归纳策略。最终以上海证券所的年报为测试集进行实验,通过与传统的方法进行比较,证明了这种算法在容错性能和正确率方面的优越性。  相似文献   

9.
工程项目的文档分类与编码体系   总被引:2,自引:0,他引:2  
统一的文档分类与编码体系是计算机辅助工程建设的基础.为此首先从工程管理的角度出发,建立工程项目的统一的文档分类,然后设计其相应的文档编码,在结合项目结构编码体系之后,进一步提出扩展的文档编码体系.  相似文献   

10.
针对维吾尔语Web文档的有效检索问题,提出一种基于相关反馈和文档相似度的检索词加权方法.首先,对维吾尔语文档进行预处理,获得相应的词干集.然后,当用户输入多个检索词时,执行初始检索,并基于局部相关反馈思想提取出排名靠前的N个文档.接着,利用TF-IDF算法计算检索词与反馈文档之间的词频相似度,通过余弦距离计算文档之间的相似度,并以此对检索词进行两次加权.最后,根据加权后的检索词进行文档检索.实验结果表明:该方法能够准确地检索出用户所需的文档,并将其靠前排序.  相似文献   

11.
随着XML文档的大量涌现,如何高效地像存取整个文档一样直接存取文档中任意元素已成为一个亟待解决的关键问题,另外,能够快速高效地支持XML文档更新的索引技术在商业领域也更加急需,提出了一种基于倒排表的索引,能很好地支持文档结构和内容的动态更新,给出了利用关系数据库实现该索引的方法。  相似文献   

12.
以计算机及其网络为代表的电子技术,催生了“数字图书馆”,献数字化已成潮流,电子献正逐步成为献流通主流载体,但印刷型献还将长期存在,图书馆已进人多种献载体多重收藏与管理的状态,要认识这个时期特点,认清传统献的优势和电子献应起的作用,抓住管理的重点和难点,做好献资源建设与管理,馆藏献数字化要合理布局和规划,立足本馆实际,体现本馆特色,做好数字图书馆的建设。  相似文献   

13.
科技献的分类是科技献数据库的重要组成部分.传统的献分类法几乎都是基于献内容的,这样会使一部分处于类边缘的献不能准确地分类,事实上科技献是一种半结构化的献,它们包含的很多结构信息可以用到献的分类中.利用科技献的毗邻所属的类这一信息结合科技献的内容提出了一种协调迭代的科技献分类方法,并给出了该迭代算法的收敛性证明.最后对算法及实验结果进行了分析,表明该方法比传统的分类方法性能有所提高.  相似文献   

14.
把史学理论与文献学理论结合起来,可以解决学术界关于史料分类与文献分类的龃龉问题。亦即首先把史料分成实物、文献、声像、口碑4大类,再把文献史料分为甲骨、金石、简牍、缣帛、纸张、电子多媒体6小类。  相似文献   

15.
作为一项新兴的信息检索评价指标,可读性在文档相关性、实用性以及质量评估中占据重要地位。其中,如何为用户提供相关可读的文档已成为垂直搜索领域一个亟待解决的问题。为了有效解决这个问题,提出了一种基于本体结构的可读性计算模型。该模型以用户的阅读抽象过程为背景,分别从语篇表面层次和概念层次对文本进行可读性计算,从而引入了3个可读性指标,即概念势、概念域和文档连贯性。具体地是将单个指标或者指标组合计算所得可读性得分融入传统垂直检索模型中,对文档初次检索结果进行重排。在医学领域中,用户实验结果表明基于本体概念序列信息的可读性指标相对于传统的非序列化指标可以更加有效地预测文档的真实可读性水平。系统实验结果进一步说明了基于可读性的重排序模型可以兼顾文档的相关性和可读性,提升垂直领域信息检索性能。  相似文献   

16.
采用文献计量学的研究方法,对我院1979—2003年二十四年来积累的科研论文量进行了计量分析,对我院科研论文量的年度动态变化趋势、科研成果的类型构成、科研论文的期刊类型、各系部科研论文量年度变化规律、各系部历年发表的核心期刊论文分布以及科研论文的期刊类型分布等方面进行了详细的统计分析,比较客观准确地对我院科研能力和科研水平进行评价,并在此基础上对我院科研管理工作、对促进我院科研水平的快速发展提供了一些有益的参考意见。  相似文献   

17.
由于长文档对格式规范要求非常严格,且长文档本身具备的元素种类繁多,每一种元素格式要求各不一样。另在页眉页脚方面也有其特殊性,即页眉必须是每一页内容所在章的章标题。传统的手工方式在处理简单的短幅文档时还可以应对,但在面对长文档的上述问题时就会费时费力。使用样式和域可以轻松实现对长文档的高效编辑与排版,长文档的上述那些特殊情况也会迎刃而解,同时也使文档处理得更加规范美观。  相似文献   

18.
地方文献是组成国家文献系统的两大子系统之一。它所具备的五大特点——地域性;重复使用性;相对客观性;广泛性和连续性使其既具有重要的情报价值又具有珍贵的史料价值,在地方事业的建设和发展中起着十分重要的作用。地方大学图书馆和地方公共图书馆一样要强化地方文献资源建设工作,重视地方文献的搜集和整理,并尽可能使其得到充分的开发和利用,为地方各项建设事业服务  相似文献   

19.
在分析Web内容挖掘特征的基础上,提出一种基于XML技术的Web内容挖掘模型.利用HITS算法确定权威Web页面,利用HTMLTidy工具将非XML文件经过数据清洗后转换成结构良好的XMI。文档,结合互联网上传统科技论文的自动抽取系统实例,采用文本聚类分类技术进行面向XML文档数据的数据挖掘.实验结果表明,该模型工作良好,可以自动、有效地提取网页内容.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号