期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

高良才汤帜林晓帆俞银燕房婧《北京大学学报(自然科学版)》2010,46(4):531-538

分析了目录识别研究的现状, 在总结当前技术优缺点的基础上, 提出了一种适应性和效率兼顾的目录识别方法。根据图书目录具有风格一致性的特点, 利用聚类技术发现目录装饰性内容, 生成具有自适应性的目录布局模型, 然后利用该模型生成目录条目及其层次关系。实验结果表明, 该方法在准确度和效率上均取得了较好的效果, 尤其是有效地处理了存在装饰性内容、折行和多种层次布局的复杂目录。该方法已应用于电子图书生产线, 显著提高了原电子目录制作系统的生产效率。相似文献

2.

平面几何图形检索的关键问题研究

符松平吕肖庆刘璐冯天骁李克强汤帜《北京大学学报(自然科学版)》2015,51(6):1008-1016

基于计算机辅助教学领域中平面几何图形的识别和检索研究, 提出一套可行的完整解决方案,并对手绘图美化、基本图元检测、显著性分析、位置关系描述和匹配度计算等关键问题进行分析。在深入分析几何图各级特征的同时, 提出具有较强针对性的布局关系描述和复杂图形匹配的多种算法, 使得几何图形最终得以直接用于内容检索, 弥补了基于关键字检索技术在描述查询意图方面的不足。实验结果表明, 本文提出的解决方案不仅可行, 而且具有较高的准确度。相似文献

3.

PDF文档中的脚注识别研究

黎斯达高良才汤帜俞银燕《北京大学学报(自然科学版)》2015,51(6):1017-1021

针对PDF 文档的脚注识别问题, 提出一种自动识别脚注及其引用, 并建立它们之间匹配关系的方法。首先针对PDF 文档提取脚注的一系列特征, 包括页面布局、字体信息、语义信息等, 然后基于文档部件风格一致性, 利用聚类技术, 处理在不同文档中相异但在同一文档中相似的特征, 从而使得识别过程能够适应不同文档类型。此外, 利用脚注与引用的匹配结果为识别过程提供反馈, 进一步提高了识别准确性。在真实文档测试集上的实验结果表明, 所提方法对于PDF 文档的脚注识别取得较高的准确率和召回率。相似文献

4.

一种结合有监督学习的动态主题模型 总被引：1，自引：0，他引：1

蒋卓人陈燕高良才汤帜刘晓钟《北京大学学报(自然科学版)》2015,51(2):367-376

针对传统主题模型存在的不足, 提出一种新的结合有监督学习的动态主题模型(Supervised Dynamic Topic Model, S-DTM)。该模型不仅能够随时间的变化对语言进行动态建模, 而且结合有监督学习技术, 在主题变分推理中加入标签约束, 从而建立主题与标签之间的映射关系, 提高主题的表达解释能力。通过在一个跨越25年“以自然语言处理领域的中文期刊论文为主导”的中文语料库上的实验, 证明该模型相较于静态的有监督主题模型和无监督的动态主题模型, 具有更好的语义解释概括能力, 能更准确地反映文档的主题结构, 更精确地捕捉主题?词汇概率分布的动态演化。相似文献

5.

版式电子文档表格自动检测与性能评估

房婧高良才仇睿恒汤帜《北京大学学报(自然科学版)》2013,49(1):45-53

针对版式电子文档的特点, 提出一种表格线分割符和表格文本的布局特征相结合的表格定位方法, 并且对中英文档均有效。此外, 针对缺少表格定位自动评估体系, 构建了一个初具规模的公开数据集, 由中英文版式页面等比例组成, 对其标注基准结果, 并针对移动阅读应用场景提出一套评估准则。通过与现有两个开源表格定位项目的比较, 验证了新提出的表格定位方法的有效性和评估体系的实用性, 特别是对中文数据集获得了较好的结果。相似文献

6.

XTrim: 一种基于XML Schema和微型数据块优化的XML压缩方法

仇睿恒汤帜胡薇高良才《北京大学学报(自然科学版)》2010,46(5):771-778

提出了一种基于 Schema 和微型数据块优化的XML方法(XTrim)。XTrim对 XML Schema 信息进行优化, 并提出了最小化结构信息方法, 即利用优化后的 XML Schema 信息对 XML 文档的结构进行压缩, 同时改进了分组存储策略来提高压缩率。此外, XTrim优化了微型数据块的存储, 进一步提高了压缩效果。实验数据表明, 与一些现有的方法相比,XTrim 取得了更好的压缩效果。相似文献

7.

一种自动发现、分割与标注引文元数据的方法

高良才汤帜陶欣房婧《北京大学学报(自然科学版)》2010,46(6):893-900

在总结现有的引文元数据抽取方法的基础上,针对引文的排版惯例——引文在文档内部风格一致,提出了一种新的引文元数据抽取方法。重点描述了以往研究中很少涉及的引文元数据的自动发现和分割,探讨了风格一致性在引文元数据标注中的应用。实验结果表明此方法在引文元数据发现、分割和标注方面均取得了较好的效果。相似文献

8.

一种基于星型图的汉字镜像对称检测方法

廖媛吕肖庆孙建伶汤帜王勇涛《北京大学学报(自然科学版)》2016,52(1):41-48

结合不同类型的汉字特征——尺度不变特征变换(SIFT)和轮廓信息,提出一种基于星型图的汉字镜像对称检测方法.该方法利用基础对称元素构造一个加强关系有向图来描述不同对称元素之间的加强关系,从而将检测汉字的显著对称轴问题转化为寻找具有局部最大权重的星型子图问题.实验结果表明,与现有方法相比,所提方法在汉字数据集上具有更好的检测效果. 相似文献

9.

中文电子文档的数学公式定位研究

林晓燕高良才汤帜《北京大学学报(自然科学版)》2014,50(1):17

区别于传统基于图像和西文文档的公式定位方法, 针对中文电子文档的特点, 提出一种基于机器学习和规则相结合的独立公式和内嵌公式的定位方法。设计了适合中文文档的页面分行策略和词块划分规则; 选择适合中文文档的公式特征和机器学习算法; 针对公式定位中的过分割问题, 提出行合并与词块合并等后处理手段。实验结果表明, 该方法可以有效地从中文电子文档中自动定位公式区域。此外, 构建了公开可用的中文数据集, 以促进不同数学公式定位方法间的相互比较及性能评估。相似文献

10.

基于笔端形状相似性的汉字字体识别

王晓吕肖庆汤帜《北京大学学报(自然科学版)》2013,49(1):54-60

提出一种基于笔端相似性的方法,来解决在较大规模字体集上的单字符字体识别问题.该方法首先提取汉字笔画上的特定部位——笔端,然后利用笔端形状作为汉字的字体特征,对其进行识别.实验证明,该方法不但在常用字体集合上的识别效果优于同类方法,而且在扩展后的大字体集合上也能达到较高的识别率. 相似文献