共查询到19条相似文献,搜索用时 78 毫秒
1.
为了自动将数据从HTML网页中抽取出来,采取树自动机推断方式进行数据抽取.核心思想是将样本网页转化为二叉树并构建出能够接受这些网页二叉树的树自动机,利用所得到的树自动机对待抽取网页的接受和拒绝状态进行数据抽取.该方法充分利用了HTML文档内在的树状结构,设计了简单方便的样本网页标注形式.实验表明,该方法的抽取性能在查全率和F值方面优于其它的一些数据抽取方法. 相似文献
2.
屈武江 《辽宁师专学报(自然科学版)》2012,(2):45-48,68
图书著录是图书管理工作基础,针对现有的图书管理系统中著录系统的不足和今后发展的需要,结合相关实际,论述基于网页数据抽取技术的图书著录系统的技术原理、功能设计和具体实现 相似文献
3.
动态网页是Internet上重要的网页类型,它们通常是由网站的后台数据库通过某种通用的模板构成。本文在研究DOM技术与网页结构的基础上,根据动态Web页面的特点,提出了一种基于DOM的动态网页信息抽取方法,并描述了利用DOM技术实现动态网页信息抽取的算法。 相似文献
4.
一种自动化的网页数据抽取方法 总被引:1,自引:0,他引:1
数据抽取是当前网络飞速发展的背景下衍生的一类技术。简单介绍了数据抽取技术的发展和研究现状,并针对目前数据抽取技术的不足提出了一种新的数据抽取方法.能够自动化地并高准确度地从网页上抽取数据。 相似文献
5.
网页文本抽取是一种在互联网上运用广泛的数据挖掘技术。主要目的是把一个网页的主题内容抽取出来,为Web数据挖掘提供好的基础数据。本文基于网页树形结构进行改进,首先对网页进行分块,把每一块存储在树形结构当中,然后通过对所有块进行方差和阈值计算,选择出主题信息。该方法相比传统的基于正则表达式的抽取方法, 具有简单, 实用的特点, 实验结果表明, 该抽取方法准确率达到 96%以上, 有一定的实用价值。 相似文献
6.
基于分块的网页主题文本抽取 总被引:2,自引:2,他引:0
根据网页文本信息的结构和内容特征,提出一种网页主题文本信息的抽取策略,将网页文档表示为DOM标签树的形式,然后根据Web页面的结构特征进行内容块的分割,以网页的文本内容特征为依据识别链接型和主题型内容块,并提取主题型网页的文本信息块.实验结果表明:基于分块的方法有效地实现了链接型和主题型网页的分类,并准确地完成主题型网页的文本信息块的抽取任务,是一种简单、准确的网页信息抽取方法. 相似文献
7.
信息抽取任务旨在从非结构化的文本中抽取出结构化的信息,帮助将海量信息进行自动分类、提取和重构,提高信息的利用率.目前,基于深度神经网络的信息抽取技术已经成为自然语言处理领域最重要的研究主题之一,它提供了分析非结构化文本的有效手段,是实现大数据资源化、知识化和普适化的核心技术,此外进一步为更高层面的应用和任务提供了支撑.... 相似文献
8.
夏天 《广西师范大学学报(自然科学版)》2011,29(1):133-137
本文给出了一种基于扩展标记树的网页正文抽取方法,通过构建网页扩展标记树,实现对网页的清理和抽取辅助信息的完善,并设置节点坐标定位节点位置;以构成正文内容的文本节点作为正文区域标志,挑选具有最大文本覆盖范围的近邻文本节点集,并进行修正形成正文区域;通过近邻优先遍历算法,实现标题节点的定位和附加属性的抽取.实验结果表明:该... 相似文献
9.
高性能网页索引器JU_Indexer的实现 总被引:3,自引:1,他引:3
高性能网页索引器JU_Indexer用倒排索引表存储网页索引数据, 以多线程并行的方式对网页建立索引数据, 采用经过优化的检索算法实现用户的查询. 首先给出了JU_Indexer的系统框架, 然后描述了索引数据在JU_Indexer中的存储结构、 建立网页索引的算法、 以及实现用户查询的检索算法. 实验结果表明, JU_Indexer能在毫秒级的时间内完成用户的查询, 它采用的经过优化的词组检索算法缩短了词组的检索时间. 相似文献
10.
张春元 《广西师范大学学报(自然科学版)》2011,29(1):138-142
针对当前新闻网页主题内容抽取方法较少利用网页块之间关联特性这一问题,提出了一种基于条件随机场(CRFs)的新闻网页主题内容自动抽取方法.该方法首先将待抽取网页解析成DOM树,经过滤、剪枝以及压缩处理后,然后按照一定的启发式规则将DOM树切割成块并转换成为一个数据序列,再定义CRFs特征函数来提取各网页块自身状态特征和相... 相似文献
11.
随着近年来Internet的飞速发展,Deepweb已成为网络信息资源的重要组成部分,用户通过查询接口在线访问其后端的Web数据库来动态的获取其中蕴含的海量信息。由于DeepWeb资源分布在各个De印web站点,具有异构、动态、数据量大等特点,使用起来较为不便,因此,面向Deep Web的数据集成系统便应运而生。本文对Deepweb数据集成系统中的数据抽取技术进行了研究,提出了基于xml的Deepweb数据自动抽取方法,并作了详细的技术分析与研究,它能够快速有效地抽取出DeepWeb资源,具有抽取准确度高,抽取粒度细等特点。 相似文献
12.
像元纯净指数(pixel purity index, PPI)算法是最为常用的端元提取算法之一,但算法中投影向量的随机性导致多次运行的端元提取结果不一致。为此,提出一种基于数据约减和中心化的像元纯净指数端元提取方法(pixel purity index endmember extraction algorithm based on data reduction and centralization, DRC-PPI)。首先利用自动目标生成算法生成候选端元,并进行无约束最小二乘解混,将解混丰度为负的像元从原始数据中移除得到约减数据。其次,对约减数据进行数据中心化进而获得投影向量,将约减数据投影到这些向量上,然后根据样本点的像元纯净指数选择端元光谱。仿真数据和真实高光谱数据实验结果表明,DRC-PPI算法克服了PPI端元提取结果不一致性,大大减少了投影计算量,其端元提取精度总体上高于PPI算法。 相似文献
13.
提出了一种基于树形结构的Web结构化数据抽取算法.该算法基于HTML的树形层次结构,包括HTML树构造算法,数据区域挖掘算法,数据记录挖掘算法以及数据记录模式生成算法.算法引入了页面元素布局位置等信息用于清洗页面,采用层次划分思想实现页面数据区域的挖掘,并通过树匹配生成记录模式,实现最终数据项抽取.实验表明,该方法可以有效地实现Web结构化数据抽取. 相似文献
14.
目前,Web上存在很多Deep Web网站,而各个网站的数据表现形式有很大的差别.因此要集成这些网站就需要正确抽取其中的数据,并将其中表示同一实体的数据合并.该文提出了一种基于探测查询的方法来自动完成页面的数据抽取及实体识别工作,该方法通过提交查询可以在提取数据的同时确定实体的各个属性,根据实体的各个属性进行实体识别.实验表明,该方法具有较高的实体识别准确率. 相似文献
15.
基于近景摄影测量对图像滤波除噪、图像分割、特征提取等图像处理过程进行分析,并利用VB6.0为软件开发平台,实现了基于近景摄影视频采集的车辆轨迹提取功能。最后以东直路路段为例,运用软件实现了对车辆行驶轨迹的提取,并勾勒出了速度变化曲线图。 相似文献
16.
针对现有的二进制程序模糊测试中关键数据定位方法资源消耗大、误报率较高等问题,提出一种结合路径标签和数据变异的模糊测试关键数据定位方法.该方法通过静态分析对二进制程序中的危险操作进行定位;使用动态插桩跟踪程序的执行过程,获取危险操作的路径标签和参数;通过分析输入数据变异前后跟踪结果的异同从而进行关键数据定位.实验结果表明,该方法能够在较低的资源消耗下有效进行关键数据定位,误报率小于0.3%,同时查全率大于70%,精确率大于60%;可用于提高二进制程序模糊测试的漏洞挖掘能力,具有较强的实用价值. 相似文献
17.
Java XML与面向Web的智能数据抽取 总被引:4,自引:1,他引:4
采用标准Web技术——HTML,XML和Java,开发一种基于Web用Java把Web数据转换为XML的数据挖掘方法.该方法标识数据源并把它映射成XHTML,根据一定的相关关系查找数据内的引用点并进行智能数据抽取,将数据映射成XML.这种数据抽取方法比较简单,通过选择可靠的数据源以及在这些数据源中选取与内容相关但与格式无关的锚点,可以较为方便地建立一个强壮的数据抽取系统. 相似文献
18.
19.
通过分析历史状况、总结前人的研究成果,并根据电网企业运行效率的理论构建DEA模型,对我国25个省电网的企业运行轨迹进行分析.研究表明:我国大部分省份电网企业运行效率处于最优发展轨迹上,规模适度是~41"1的显著特征;少部分省份电网企业弱劣于最优发展轨迹,规模效率较低是主要原因,规模报酬递增是他们的趋势;其余省份电网企业劣于最优发展轨迹,同时表现为规模效率较低和技术效率较低,投入冗余、产出不足是最大特征.对电网企业生产效率进行监管时要考虑到各省份电网企业之间生产力分布的不均衡性及其客观原因. 相似文献