首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
提出了一种基于树形结构的Web结构化数据抽取算法.该算法基于HTML的树形层次结构,包括HTML树构造算法,数据区域挖掘算法,数据记录挖掘算法以及数据记录模式生成算法.算法引入了页面元素布局位置等信息用于清洗页面,采用层次划分思想实现页面数据区域的挖掘,并通过树匹配生成记录模式,实现最终数据项抽取.实验表明,该方法可以有效地实现Web结构化数据抽取.  相似文献   

2.
Web挖掘技术   总被引:7,自引:1,他引:7  
万维网的出现使计算机拥有海量的信息资源 ,而其中蕴含的知识却未能得到充分利用。为此 ,Web挖掘技术成为一项重要研究课题。文中对Web挖掘分类、与Web挖掘相关的各种技术以及Web挖掘应用加以阐述。最后提出了一个综合Web挖掘原型系统SWMS。  相似文献   

3.
为了自动将数据从HTML网页中抽取出来,采取树自动机推断方式进行数据抽取.核心思想是将样本网页转化为二叉树并构建出能够接受这些网页二叉树的树自动机,利用所得到的树自动机对待抽取网页的接受和拒绝状态进行数据抽取.该方法充分利用了HTML文档内在的树状结构,设计了简单方便的样本网页标注形式.实验表明,该方法的抽取性能在查全率和F值方面优于其它的一些数据抽取方法.  相似文献   

4.
HTML数据内容的抽取与集成   总被引:11,自引:0,他引:11  
在XML基础上,利用HTML Tidy可实现轻量级的Web数据挖掘和转换。转换过程主要解决的是HTML文档及其集合要表达的模式信息的分离。转换步骤是利用HTML Tidy提供的标准类库,净化HTML文档,借助DOM生成树对HTML元素结构做进一步分析,最后通过XSL、XPATH等自动提取转换。  相似文献   

5.
基于XML的Web数据挖掘   总被引:4,自引:0,他引:4  
介绍了数据挖掘、Web数据挖掘以及XML的基础知识,阐述了将XML技术应用于Web数据挖掘,构建基于XML的Web数据挖掘系统结构.  相似文献   

6.
基于Web的数据挖掘是一种结合了数据挖掘和互联网系统的热门研究课题.随着互联网的高速发展,Web挖掘由于其独特的优点,在Web交易中扮演了越来越重要的角色.运用Web挖掘对Web交易服务器的日志文件和客户交易信息进行挖掘,有助于企业了解客户的访问行为,挖掘潜在客户群和开展有针对性的服务.对Web挖掘技术进行综述,并介绍了该技术在Web交易中的几个应用.  相似文献   

7.
基于XML的Web数据挖掘技术   总被引:5,自引:0,他引:5  
全面分析了Web挖掘最新技术及发展方向,重点分析了Web结构挖掘、Web内容挖掘方法以及Web Log挖掘等,介绍了基于XML的Web数据挖掘的特点,提出了运用XML解决Web数据挖掘中半结构化数据的模型查询与模型抽取的方法,并通过实例说明了该方法.  相似文献   

8.
Web数据挖掘是将数据挖掘技术和理论应用于对互联网资源挖掘的一门新兴研究领域.XML能够为web数据挖掘提供半结构化的数据模型,解决了Web挖掘中的数据源问题.分析了Web数据挖掘的特点,并将XML技术引入Web数据挖掘领域中,进而在此基础之上介绍了一种数据挖掘的模型.  相似文献   

9.
目的:解决Web数据挖掘中的半结构化数据模型和半结构化数据模型的抽取问题.方法:运用XML作为元标志语言所提供的描述结构化资料的格式来使复杂的Web数据挖掘简单化.结果与结论:可以加强对非结构化数据如文本数据、图形图像据、多媒体数据的挖掘.  相似文献   

10.
在分析现有的Web访问挖掘数据预处理模型和会话识别算法的基础上,提出了一种改进的Web访问挖掘数据预处理模型并对基于时间和引用的启发式会话识别算法进行了改进。实验证明,改进的Web访问挖掘数据预处理模型和会话识别算法非常适合于当前搜索引擎广泛使用下的Web访问挖掘数据预处理。  相似文献   

11.
Java XML与面向Web的智能数据抽取   总被引:4,自引:1,他引:4  
采用标准Web技术——HTML,XML和Java,开发一种基于Web用Java把Web数据转换为XML的数据挖掘方法.该方法标识数据源并把它映射成XHTML,根据一定的相关关系查找数据内的引用点并进行智能数据抽取,将数据映射成XML.这种数据抽取方法比较简单,通过选择可靠的数据源以及在这些数据源中选取与内容相关但与格式无关的锚点,可以较为方便地建立一个强壮的数据抽取系统.  相似文献   

12.
Web内容抽取及其数据管理方法   总被引:13,自引:0,他引:13  
随着Internet及其相关技术的飞速发展,WWW已成为最大的信息集散地,无论对企业还是个人,Web逐渐成为最主要的信息来源,然而由于网站数量过多以及由此带来的信息泛滥,使得有用信息的获取越来越困难,搜索引擎只能提供信息的查找范围,而具体的内容还是要靠详细搜查,而且网页信息都是非结构化或半结构化的,无法直接利用分析工具进行分析,所以有必要提供一种网页内容自动抽取及使网页数据结构化的方法,来简化信息获取的过程和方便信息分析处理。  相似文献   

13.
WEB数据挖掘研究与探讨   总被引:2,自引:0,他引:2  
随着WWW迅猛发展,WWW上的信息量不断增加,如何在这些信息中找到用户真正需要的内容,成了数据组织和web相关领域的专家学者关注的焦点.为了解决这个问题,把数据挖掘的理论和技术应用于WWW,出现了一个新的研究领域-Web数据挖掘.主要介绍了Web数据挖掘的原理、应用、实现以及它的最近发展情况.  相似文献   

14.
Web信息抽取技术研究进展   总被引:14,自引:0,他引:14  
Web信息抽取技术是当今的一个研究热点.目前出现了基于不同原理的多种信息抽取技术,它们具有不同的性能.本文根据信息抽取的原理,对现有的信息抽取技术进行了分类,结合典型的系统,在语义的附加方式、模式的定义方式、规则的表现形式、语义项的定位方式、对象的定位方式等几方面进行了分析和比较,在此基础上提出了待研究的问题.  相似文献   

15.
基于Web的数据挖掘方法的研究及实现   总被引:3,自引:0,他引:3  
Web上有海量的数据信息,数据挖掘是从大量的数据中发现隐含的规律性内容,充分利用有用数据,废弃无用数据,解决数据的应用质量问题。通过对Web的数据挖掘和XML特点进行分析,讨论了使用XML实现基于Web的数据挖掘方法,提出了一种结合HTML、XML、JAVA的新型数据挖掘技术。  相似文献   

16.
首先描述了数据开采,及Web数据挖掘,最后提出了Web数据挖掘的发展方向和趋势。  相似文献   

17.
陈红丽 《科学技术与工程》2012,12(8):1928-1930,1935
数据预处理在Web日志挖掘过程中起着至关重要的作用,直接影响日志挖掘的质量和结果。 文中分析了数据预处理的主要过程,并用站点首页结合动态时间阈值的方法对会话识别进行了改进。实验结果表明, 改进后的会话识别方法能更有效的识别出用户的真实会话。  相似文献   

18.
提出了一种重构网站结构的方法,并将此方法应用于Web日志挖掘的数据预处理中.实验表明,本方法能够更好地还原用户访问情景,为Web日志挖掘提供有效数据。  相似文献   

19.
基于样本实例的Web信息抽取   总被引:14,自引:1,他引:13  
主要研究了基于HTML文档的信息抽取,提出了一种基于样本实例的Web信息抽取的方法.用户首先选定样本页面和预先定义模式(基于O-R模型),然后对样本页面和其中的样本记录进行标记、学习,形成信息抽取规则,并存入知识库;利用知识库对其他同类页面自动抽取所需的信息,存入数据库中.本方法可用于Web查询,也可用于信息集成的包装器.  相似文献   

20.
Web数据挖掘是目前信息技术中的研究热点,它是现代科学技术相互渗透与融合的必然结果。讨论Web数据挖掘技术中各种类型的Web数据挖掘的基本过程以及它们所使用的一些相关技术,分析Web数据挖掘的特点及面临的挑战.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号