期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

李雪竹《科学技术与工程》2008,8(9):2473-2476

Web数据挖掘的研究越来越广泛,对Web数据的抽取则是研究的前提和必要的步骤.而当前Web信息大多数都是HTML格式的,存在很多缺陷.针对目前研究,简单地介绍了XML及它的特点,并且对HTMLand XML从开放性、可操作性等几个方面做了比较,显示出了XML的优越性.最后利用一个实例简述了基于XML的数据抽取过程. 相似文献

2.

Web信息抽取研究

李洋《大众科学.科学研究与实践》2007,(24)

Web信息抽取是近十年来发展起来的一门数据挖掘技术。主要介绍信息抽取的概念和任务,并给出了Web信息抽取的评价指标和信息抽取的原理,最后提出了当前Web信息抽取方法中存在的问题以及以后研究的重点。相似文献

3.

Web信息抽取技术研究

戴慧敏朱艳辉唐杰《科技信息》2013,(6):320-320

随着互联网技术的快速发展,Web信息呈现爆炸性增长,人们发现用信息检索的方法不能及时的得到想要的信息,于是出现了信息抽取,Web信息抽取是指从Web文档中自动抽取感兴趣信息的过程。本文主要介绍Web信息抽取的研究现状及抽取工具和抽取方法。相似文献

4.

Web文本信息抽取与挖掘方法 总被引：6，自引：0，他引：6

许建潮王颖楠胥桂仙《吉林工学院学报》2002,23(Z1):49-53

Web信息资源中蕴含着具有巨大潜在价值的知识。人们迫切需要能够从Web上快速、有效地发现资源和知识的工具。搜索引擎不能完全满足这一要求,为此需要开发比信息检索层次更高的新技术。文中以Web文本为研究对象,着眼于将数据挖掘技术应用于Web挖掘。兼顾中英文文本,提出了一套Web文本的特征表示、特征提取及Web页面的结构化转换方法,并将粗糙集理论应用于转换后的Web文本挖掘。相似文献

5.

基于内容冗余的Web信息抽取

陈夫桂胡文江高永兵郝斌《中国新技术新产品精选》2012,(6):32-32

提出了一种从模板网站中利用网络上的冗余内容提取结构化数据的方法。该算法从一些原始网站提取记录来填充种子数据库。然后,在每一个新的站点标识值,为了配合不同跨站点交涉的属性值,我们进行了相似性度量。同时为了过滤掉噪声,我们在那些基于模板的网站发现并应用了该属性的实际值。另外借助SOGOU和NICTCLAS中文分词等第三方接口来准确计算词频,使文字分析更适合人们常用的习惯。相似文献

6.

基于样本实例的Web信息抽取 总被引：14，自引：1，他引：13

张绍华徐林昊杨文柱薛文玲李天柱《河北大学学报(自然科学版)》2001,21(4):431-437

主要研究了基于HTML文档的信息抽取,提出了一种基于样本实例的Web信息抽取的方法.用户首先选定样本页面和预先定义模式(基于O-R模型),然后对样本页面和其中的样本记录进行标记、学习,形成信息抽取规则,并存入知识库;利用知识库对其他同类页面自动抽取所需的信息,存入数据库中.本方法可用于Web查询,也可用于信息集成的包装器. 相似文献

7.

基于DOM的Web信息抽取方法研究 总被引：1，自引：0，他引：1

李洋《大众科学.科学研究与实践》2007,(20)

以往基于DOM的Web信息抽取方法在信息抽取过程中存在如需要较多样本集、适应性较差等问题,为解决Web上的信息在抽取中存在的问题,本文提出了一种在原有基于DOM的Web信息抽取方法的基础上引入竞争分类方法进行信息抽取。相似文献

8.

基于 DOM 的 Web 信息抽取规则的构造与实现 总被引：1，自引：0，他引：1

杨敬伟杨文柱高悦《河北大学学报(自然科学版)》2007,27(2):209-212

为了实现对Web信息的查询重、构和再利用,人们采用了Web信息抽取技术.本文主要讨论基于 DOM 的 Web 信息抽取,研究如何构造抽取规则,才能提高信息抽取的准确度、提高抽取规则的适应能力,并给出了抽取规则的生成过程. 相似文献

9.

基于改进的PSO和HMM的Web信息抽取算法

王川段德全王晓东《河南师范大学学报(自然科学版)》2010,38(5)

针对传统Web信息抽取的隐马尔可夫模型对初值十分敏感和在实际应用中模型参数极易陷入局部最优的问题,提出了一种基于改进的粒子群优化算法的隐马尔可夫模型参数优化模型,用于Web信息抽取.以似然概率值作为适应度函数,使用改进的粒子群优化算法结合Baum-Welch算法对HMM模型参数进行全局优化,实现了Web页面信息的抽取.实验结果表明,该算法在精确率和时间等指标上与现有算法相比具有更好的性能. 相似文献

10.

Web的半结构化数据抽取的方法及其实现

杨晓宇《太原师范学院学报(自然科学版)》2003,2(3):36-39

Web数据存在方式的特殊性使Web数据控制变得十分复杂，把现有的Web页面转换成XML可以使那些熟悉Web最常用技术的开发人员能快速而便捷地获取他们所需的以Web方式发布的信息．描述了从目前存在的最大信息来源-万维网-抽取信息的方法和实现过程．相似文献

11.

基于树自动机的网页数据抽取

王茹宋瀚涛陆玉昌《北京理工大学学报》2004,24(9):790-793

为了自动将数据从HTML网页中抽取出来,采取树自动机推断方式进行数据抽取.核心思想是将样本网页转化为二叉树并构建出能够接受这些网页二叉树的树自动机,利用所得到的树自动机对待抽取网页的接受和拒绝状态进行数据抽取.该方法充分利用了HTML文档内在的树状结构,设计了简单方便的样本网页标注形式.实验表明,该方法的抽取性能在查全率和F值方面优于其它的一些数据抽取方法. 相似文献

12.

Web信息抽取策略及其实现方法研究 总被引：2，自引：0，他引：2

陈俊彬《科技情报开发与经济》2008,18(23):169-170

从信息抽取实现原理的角度出发,综合性地介绍了几种Web信息抽取策略,并对各种策略进行了简要的分析和评价,在此基础上提出了具体可行的实现方法以及Web信息抽取研究有待解决的关键性问题。相似文献

13.

基于贝叶斯网络的网站信息抽取模型

谭龙江《四川理工学院学报(自然科学版)》2011,24(1):58-61

历史信息、即时信息以及流言往往冲淡网站中的主题思想,导致信息隐藏等问题。为解决上述问题,提出了网站信息抽取系统的结构模型、数据结构和处理流程;该模型采用信息抽取技术,从相关网页中抽取出带有主观倾向的主题信息;采用贝叶斯网络对客户需求进行决策与预测分析。仿真测试与客户应用证明,该模型能较准确的抽取网站中的客户倾向、有较好的及时性。相似文献

14.

对Web网页的查询及信息提取 总被引：4，自引：0，他引：4

下载免费PDF全文

孙及园林锦贤《福州大学学报(自然科学版)》2000,28(3):93-97

比较Web查询与传统数据库查询的区别 ,提出一种对Web查询计算的新模型 ,基于这一模型 ,可针对网页结构和内容进行查询 ,再根据HTML的特点 ,从网页中提取数据库数据 . 相似文献

15.

基于序列比对的动态Web信息抽取算法

赵刚郭东伟李丹《吉林大学学报(理学版)》2010,48(3):421-426

基于对深网(DeepWeb)网页公共框架的定义,提出一种在信息抽取算法中增加公共框架检测阶段,采用序列比对算法提取公共框架的方法.与原始网页数据相比,去除公共框架的数据域信息对模板抽取更有利.基于真实网站的数据密集型网页集合,测试和对比了序列比对算法中参数不同取值以及公共框架检测阶段在数据量和抽取准确率等方面对信息抽取算法的影响.实验结果表明了算法的有效性. 相似文献

16.

基于HTML Parser的网页信息提取技术研究

珠杰罗潘《西藏大学学报》2010,(3):41-44

在互联网上信息量激增,迫切需要一些自动化工具帮助人们在海量信息源中迅速找到真正需要的信息。文章基于开源项目HTMLParser包,以提取中关村笔记本频道产品信息的文本信息和图片信息为例,提出了信息提取系统设计方案,给出了文字信息和图片信息提取算法。相似文献

17.

基于xml的DeepWeb信息自动抽取技术的研究

彭媛媛许建潮《科技信息》2009,(33):85-85,104

随着近年来Internet的飞速发展,Deepweb已成为网络信息资源的重要组成部分,用户通过查询接口在线访问其后端的Web数据库来动态的获取其中蕴含的海量信息。由于DeepWeb资源分布在各个De印web站点,具有异构、动态、数据量大等特点,使用起来较为不便,因此,面向Deep Web的数据集成系统便应运而生。本文对Deepweb数据集成系统中的数据抽取技术进行了研究,提出了基于xml的Deepweb数据自动抽取方法,并作了详细的技术分析与研究,它能够快速有效地抽取出DeepWeb资源,具有抽取准确度高,抽取粒度细等特点。相似文献

18.

On Structure - based Web Data Extraction: The Model, Method and Application

俞方桦戴玮陈家训《东华大学学报(英文版)》2000,(4)

相似文献

19.

基于文档结构的信息抽取规则的描述语言比较研究

张志强李天柱张波陈少飞郝亚南《河北大学学报(自然科学版)》2004,24(2):212-218

基于文档结构的信息抽取工具很多,XWrap,W4F,Lixto以及自主开发的PQagent是其中比较有代表性的几个.这几个工具采用了不同的规则描述形式,XWrap,W4F,Lixto使用的是自定义的规则描述形式,PQagent采用了通用的规范XQuery来描述规则.现将XWrap,W4F,Lixto使用的规则描述形式与PQagent采用的XQuery进行比较,说明了采用XQuery描述抽取规则的优越性. 相似文献