共查询到20条相似文献,搜索用时 62 毫秒
1.
袁鸿雁 《长春工程学院学报(自然科学版)》2010,11(1):108-110
由于HTML只描述数据怎样显示而不描述数据的内容,因此识别HTML表格并抽取其数据是Web信息抽取领域中重要的研究课题之一,针对现在包装器技术的不足提出了一种新的基于领域本体的HTML表格结构识别技术,为构造HTML表格信息抽取系统打下基础。 相似文献
2.
当前许多领域信息都采用表格形式展现,因此,如何从表格中抽取本体逐渐引起了人们的关注.为了提高从Web表格中抽取本体实例的准确性,提出了基于语义相似度的词汇语义类的获取方法.该方法采用了基于SVM的语义相似度计算方法,提高了判断语义相似度的准确性,克服了以前依靠句法相似度分析表格结构存在的局限性.最后,根据实验结果,对该方法的性能进行评估.实验结果显示,该方法可以有效地从Web表格中抽取本体实例. 相似文献
3.
陈兰生 《福州大学学报(自然科学版)》1998,(3):43-46
该自动生成器是通用的.用户可在屏幕上画成一任意表格,由系统存盘,以后随时调用,进行填表,数据将自动进入对应主库中.系统还提供默认值自动填充及操作提示等手段,节省劳动量. 相似文献
4.
陈松乔 《中南大学学报(自然科学版)》1986,(5)
本文讨论了在微机中西文表格自动处理技术中一些特殊功能的算法设计,分析了设计思想,提供了部份实用算法,并对某些算法的时间复杂度进行了评述。这些算法均已在本校研制的“IBM-PC/XT微型机中西文数据库管理系统”的表格自动处理软件中实现,并已应用于百多家企、事业单位的计算机管理系统中。 相似文献
5.
提出了一个表格框架自动输入系统的结构.该系统采用扫描仪输入,去除字符和噪声,抽取表格框架矢量.重点研究了系统的核心:EDL算法和TS算法及实现表格自动输入的技术.作为研究成果,已经建立一个自动输入系统,并在实际中得到了应用 相似文献
6.
【目的】表格文档作为数据信息的主要载体,如何从海量表格中准确提取关键信息也是技术难点之一。【方法】现有的端到端方法和基于预训练模型的方法在训练过程中并未有效利用表格单元格的结构信息,影响了文本在模型中的向量表示,从而影响了最终的语义信息抽取精确率。故本文针对两类方法都存在的问题,提出了进一步利用单元格结构信息来改进OCR识别效果的端到端方法和增加单元格序列预测任务的预训练方法。【结果】实验结果表明,改进后的两种方法在表格语义信息抽取任务中取得了更好的效果,F1值分别提升了0.2046和0.0176。【结论】加强了单元格结构信息在表格中的重要性, 提高了表格语义信息抽取的精确率。 相似文献
7.
本文提出了一种适用于编制通用表格打印程序的表格数据化法。给出了这种数据化法的框图和相应程序的打印例图。试用结果表明,该方法不但简单、直观、易生成和易修改,而且其相应的子程序或子模块可以和许多实用程序相连。 相似文献
8.
9.
印刷文档中表格字符的自动提取算法 总被引:4,自引:0,他引:4
在简要分析表格结构的基础上,提出了一种利用变尺度连通 特征提取表格字符的方法.为此,给出了连通区域搜索算法,定义了用于区分表格与图形的 行程位置转化函数.并介绍了实验的情况. 相似文献
10.
提出一种基于视觉内容语义相关度的图像标签自动排序方法.该方法按照标签与图像内容的语义相关程度对网络共享图像的标签进行排序.首先,算法基于贝叶斯理论给出标签与图像内容语义相关度计算的概率表述.然后,融合多种视觉特征以实现对不同语义的标签与图像内容相关度概率的准确估计,具有较高的可扩展性.实验数据采用149 915幅Flickr网站下载图像,实验结果验证了本文方法的有效性. 相似文献
11.
现有的知识获取算法所挖掘出的规则太多,不易理解;规则描述太过具体,容易造成过拟合。为此,本文提出了多粒度层次序贯三支决策模型。首先引入概念层次树将目标概念泛化,构建多层次决策表,并设计了多粒度层次序贯三支决策模型,从多视角、多层次计算3个概率区域并获取相应的泛化层次决策规则。最后,通过实验证明了模型的有效性。本模型为知识获取提供了新的视角并丰富了多粒度三支决策的研究。 相似文献
12.
针对管理型SaaS应用整体签批分层处理业务中隐私保护的需求,提出了一种无完全可信私钥生成中心(private key generator,PKG)身份签名的分层内容摘录签名(content extraction signature,CES)方案。采用分层摘录策略控制分片和签名摘录,基于身份签名克服了公钥基础设施证书管理复杂的问题,由租户和服务提供商的PKG独立生成用户私钥分量,在一定程度上克服了无完全可信PKG问题。分析表明,该方案具有用户私钥的私密性、CES的隐私性和不可伪造性,可推广应用于在线办公、在线图书销售等方面。 相似文献
13.
基于DOM树及行文本统计去噪的网页文本抽取技术 总被引:1,自引:0,他引:1
首先对网页源码文本统一编码转为UTF格式,然后把HTML网页文档转换为XML文档并解析为一棵DOM树。依据XML语言特点及噪声特征规则先对DOM树的噪声节点进行过滤删除,然后依据中文标点符号统计方法提取网页正文内容,并在此基础上利用行文本统计方法去除提取出的正文中存在的噪声信息,最后得到网页正文文本。对来自结构完全不同的主流与非主流的中英文新闻网站上的2 000篇网页进行实验,结果表明本文提出的方法具有较高的抽取准确率,并具有很好的通用性和实现简单的特点,适用于针对互联网中不同网站新闻文本信息的自动采集。 相似文献
14.
在分析不规范书写的Web网页的DOM树存在的树深度大、结点层次多、结点层次和子树间关系错误等问题的基础上,提出了一种容错的Web网页语义树构造方法,为文本分类与聚类、网络社区发现、Web主题信息的提取和基于主题的Web信息检索等技术的研究工作奠定了基础. 相似文献
15.
提出了一种基于中间语言IL(Intermediate Language)的遗产软件代码解析方法,所提方法从程序集信息解析、定位数据流,通过层次扫描方式从数据流分析程序框架的属性、类、函数、结构等软件要素,从代码语义等价地析取包括分支结构、控制结构和循环结构组成的基本结构集。实验结果表明所提方法能够有效地解析出Dot Net遗产代码的语义,可实现遗产代码的复用和集成。 相似文献
16.
叶东毅 《福州大学学报(自然科学版)》2004,32(4):448-450
研究信息表绝对属性约简与相对属性约简之间的关系,指出一个绝对属性约简通常只是包含而不一定会是相对属性约简,同时给出相对属性约简不是绝对属性约简的一个充分条件.此外还阐述了绝对属性约简与属性依赖性之间的关系. 相似文献
17.
网页正文信息抽取新方法 总被引:6,自引:0,他引:6
基于包装器的信息抽取方法只能处理一种特定的信息源,而且对网页结构的依赖性强.基于此提出了一种将中文标点符号和HTML树结构作为识别网页正文内容重要特征的网页分析方法,通过统计中文标点符号确定部分正文信息,然后根据正文信息在结构上的相似性确定其他正文信息内容.实验结果表明该方法能有效地剔除网页噪音并提取网页正文,具有较好的通用性和较高的准确性. 相似文献
18.
LI Rong CAO Shunliang LI Yuanyuan TAN Hao ZHU Yangyong ZHONG Yang LI Yixue 《自然科学进展(英文版)》2006,16(7):721-726
Semantic similarity between Gene Ontology (GO) terms is critical in resolving semantic heterogeneousness when integrating heterogeneous biological databases. Traditionally, distance based and information content based measures are two major methods. In this paper, a new method based on semantic pathway covering is proposed and an algorithm, COMBINE algorithm, is presented, which considers information contents of two given nodes and those of all nodes included in the two nodes’ pathways. Experiments show that COMBINE algorithm obtains the highest correlation index compared with those distance based and information content based algorithms. 相似文献
19.
长距离的实体间关系识别是语义关系抽取中的难点.从修辞结构理论出发,提出把语篇树与复杂句法树相结合的方法,进行了对照实验,结果表明语篇分析对于实体关系分类有一定的作用.语篇分析在关系抽取中的研究还处于起步阶段,本文的方法为以后的深入研究提供了一个基础. 相似文献
20.
针对连续型决策表,利用模糊相容关系对样例聚类产生模糊决策表,运用宽松下近似概念定义属性重要度,利用函数弹性概念定义决策属性关于条件属性的敏感度,将其作为属性重要度的权重得到加权重要度,并以此为启发式信息提出了一种连续型决策表的属性约简方法. 相似文献