首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 78 毫秒
1.
提出了一种基于树形结构的Web结构化数据抽取算法.该算法基于HTML的树形层次结构,包括HTML树构造算法,数据区域挖掘算法,数据记录挖掘算法以及数据记录模式生成算法.算法引入了页面元素布局位置等信息用于清洗页面,采用层次划分思想实现页面数据区域的挖掘,并通过树匹配生成记录模式,实现最终数据项抽取.实验表明,该方法可以有效地实现Web结构化数据抽取.  相似文献   

2.
基于XML的Web数据挖掘技术   总被引:5,自引:0,他引:5  
全面分析了Web挖掘最新技术及发展方向,重点分析了Web结构挖掘、Web内容挖掘方法以及Web Log挖掘等,介绍了基于XML的Web数据挖掘的特点,提出了运用XML解决Web数据挖掘中半结构化数据的模型查询与模型抽取的方法,并通过实例说明了该方法.  相似文献   

3.
翁嘉箴 《科技资讯》2007,(20):136-136
本文分析了Web数据挖掘技术的难点,提出了基于XML的Web数据挖掘的实现过程。  相似文献   

4.
一种基于XML的Web数据挖掘技术   总被引:6,自引:0,他引:6  
阐述了一种基于XML的数据抽取技术,并示例如何将该技术应用于Web信息的挖掘,通过对实例的剖析,提出了有关技术人员如何通过该数据挖掘技术拥有一个维护成本低廉而且可靠的数据抽取系统,从而快速便捷地获取所需的信息。  相似文献   

5.
Web数据存在方式的特殊性使Web数据控制变得十分复杂,把现有的Web页面转换成XML可以使那些熟悉Web最常用技术的开发人员能快速而便捷地获取他们所需的以Web方式发布的信息.描述了从目前存在的最大信息来源-万维网-抽取信息的方法和实现过程.  相似文献   

6.
Java XML与面向Web的智能数据抽取   总被引:4,自引:1,他引:4  
采用标准Web技术——HTML,XML和Java,开发一种基于Web用Java把Web数据转换为XML的数据挖掘方法.该方法标识数据源并把它映射成XHTML,根据一定的相关关系查找数据内的引用点并进行智能数据抽取,将数据映射成XML.这种数据抽取方法比较简单,通过选择可靠的数据源以及在这些数据源中选取与内容相关但与格式无关的锚点,可以较为方便地建立一个强壮的数据抽取系统.  相似文献   

7.
HTML数据内容的抽取与集成   总被引:11,自引:0,他引:11  
在XML基础上,利用HTML Tidy可实现轻量级的Web数据挖掘和转换。转换过程主要解决的是HTML文档及其集合要表达的模式信息的分离。转换步骤是利用HTML Tidy提供的标准类库,净化HTML文档,借助DOM生成树对HTML元素结构做进一步分析,最后通过XSL、XPATH等自动提取转换。  相似文献   

8.
本文分析了Web数据挖掘技术的难点,提出了基于XML的Web数据挖掘的实现过程.  相似文献   

9.
作为互联网的新技术,XML的应用非常广泛,利用XML技术实现Web数据挖掘,可以根据用户的不同需求,将现有的Web页面中符合用户的有用信息抽取出来。本文综合HTML、XML技术,采用Java语言编程.具体实现了对股票信息的文本抽取。通过追踪某股票不同时刻的价格,实现了对指定股票的报价查询,根据设定自动地从Web上查找股票价格的信息,并通过浏览器呈现给用户。  相似文献   

10.
本文分析了Web数据挖掘技术的难点,提出了基于XML的Web数据挖掘的实现过程。  相似文献   

11.
为了自动将数据从HTML网页中抽取出来,采取树自动机推断方式进行数据抽取.核心思想是将样本网页转化为二叉树并构建出能够接受这些网页二叉树的树自动机,利用所得到的树自动机对待抽取网页的接受和拒绝状态进行数据抽取.该方法充分利用了HTML文档内在的树状结构,设计了简单方便的样本网页标注形式.实验表明,该方法的抽取性能在查全率和F值方面优于其它的一些数据抽取方法.  相似文献   

12.
基于HTML Parser的网页信息提取技术研究   总被引:1,自引:0,他引:1  
在互联网上信息量激增,迫切需要一些自动化工具帮助人们在海量信息源中迅速找到真正需要的信息。文章基于开源项目HTMLParser包,以提取中关村笔记本频道产品信息的文本信息和图片信息为例,提出了信息提取系统设计方案,给出了文字信息和图片信息提取算法。  相似文献   

13.
14.
基于样本实例的Web信息抽取   总被引:14,自引:1,他引:13  
主要研究了基于HTML文档的信息抽取,提出了一种基于样本实例的Web信息抽取的方法.用户首先选定样本页面和预先定义模式(基于O-R模型),然后对样本页面和其中的样本记录进行标记、学习,形成信息抽取规则,并存入知识库;利用知识库对其他同类页面自动抽取所需的信息,存入数据库中.本方法可用于Web查询,也可用于信息集成的包装器.  相似文献   

15.
Web信息抽取技术研究进展   总被引:14,自引:0,他引:14  
Web信息抽取技术是当今的一个研究热点.目前出现了基于不同原理的多种信息抽取技术,它们具有不同的性能.本文根据信息抽取的原理,对现有的信息抽取技术进行了分类,结合典型的系统,在语义的附加方式、模式的定义方式、规则的表现形式、语义项的定位方式、对象的定位方式等几方面进行了分析和比较,在此基础上提出了待研究的问题.  相似文献   

16.
在互联网上信息量激增,迫切需要一些自动化工具帮助人们在海量信息源中迅速找到真正需要的信息。文章基于开源项目HTMLParser包,以提取中关村笔记本频道产品信息的文本信息和图片信息为例,提出了信息提取系统设计方案,给出了文字信息和图片信息提取算法。  相似文献   

17.
在分析Web文本挖掘关键技术的基础上,以Web内容挖掘的实现方法为研究重点,提出了Web内容挖掘系统的模型,并对其各个处理步骤进行了详细分析。  相似文献   

18.
通过分析普通框架网页在制作和使用过程中的利弊,提出了合理且巧妙使用内联框架的解决方法,使得设计出来的网页既有普通框架网页的优势,又较好地克服了普通框架网页的不足,并且还使网站的性能和专业化程度都得到了较大的提高,在实际应用中具有较强的可操作性.  相似文献   

19.
阐述了一种基于XML的数据抽取技术 ,并示例如何将该技术应用于Web信息的挖掘 ,通过对实例的剖析 ,提出了有关技术人员如何通过该数据挖掘技术拥有一个维护成本低廉而且可靠的数据抽取系统 ,从而快速便捷地获取所需的信息  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号