首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到15条相似文献,搜索用时 109 毫秒
1.
基于web日志挖掘的数据预处理研究   总被引:2,自引:0,他引:2  
曹明  闪四清 《科技资讯》2007,1(4):103-105
Web日志信息的预处理是Web日志挖掘任务中的重要阶段,也是工作量较大的一部分.Web服务器上的数据是半结构化的,而且含有大量和挖掘无关的记录和冗余项.这就需要对其进行处理以得到适合挖掘的数据事务(Transaction)形式.Web日志预处理就是通过一系列的清洗、集成、转换等来得到合适的待挖掘数据.本文重点介绍了数据清理、用户识别、会话识别、路径补充、事务识别等过程.  相似文献   

2.
Web日志挖掘中数据预处理技术研究   总被引:2,自引:0,他引:2  
Web日志挖掘的基本思想是将数据挖掘技术应用于Web日志数据源。在数据挖掘研究领域中,数据预处理起着至关重要的作用。Web日志挖掘的数据源最主要的是Web日志,根据Web日志的特点,在预处理过程中的会话识别阶段给出一种基于过滤框架网页与页面访问时间阈值相结合的会话识别方法,实验数据验证说明该方法可以显著地提高Web日志挖掘结果的兴趣性。  相似文献   

3.
许艳丹 《中国西部科技》2011,10(4):28-29,15
会话识别是Web日志挖掘的关键步骤,会话识别的质量直接影响后续挖掘的准确性。本文分析了Web日志挖掘的数据预处理过程中的三种会话识别算法,最终选用时间阈值法对安徽国防科技职业学院服务器日志文件进行会话识别。  相似文献   

4.
陈红丽 《科学技术与工程》2012,12(8):1928-1930,1935
数据预处理在Web日志挖掘过程中起着至关重要的作用,直接影响日志挖掘的质量和结果。 文中分析了数据预处理的主要过程,并用站点首页结合动态时间阈值的方法对会话识别进行了改进。实验结果表明, 改进后的会话识别方法能更有效的识别出用户的真实会话。  相似文献   

5.
Web日志挖掘中的数据预处理技术   总被引:5,自引:0,他引:5  
用户访问网站,Web日志中会记录下大量的用户访问信息,通过挖掘这些日志数据可以获得相关页面、相似用户群体和用户访问模式等信息,Web日志挖掘对于优化网站结构、提供个性化服务和构建智能化网站具有重要作用.数据预处理是保证Web日志挖掘质量的重要基础,预处理主要包括数据清洗、用户识别、会话识别、路径补充和结果评价等工作.概述了数据预处理技术,重点介绍了目前常用的会话划分算法和评价标准,并实现了一个数据预处理系统.  相似文献   

6.
Web使用记录挖掘是采用数据挖掘技术对Web服务器上日志文件中的数据进行挖掘,以发现用户访问Web的方式及页面间存在的某种关联,从而可以为网站设计、提供网络个性化服务及其他电子商务活动提供决策依据.事务识别是Web使用记录挖掘前的一种数据预处理技术,本文介绍事务识别的基本方法,并给出一个最大前向引用序列事务识别新方法.  相似文献   

7.
Web使用挖掘是当前的一个热点研究方向,数据预处理是Web使用挖掘过程中的一个重要阶段。讨论了数据预处理技术中网络拓扑结构用户识别算法和会话识别启发算法的主要应用,并就其将来发展方向作了简单预测。  相似文献   

8.
日志挖掘是Web数据挖掘的一个重要研究领域.本文首先介绍了Web日志挖掘的方法,然后将Web日志挖掘方法运用于一个学校的网站中,结合Apriori算法对预处理之后的数据进行挖掘,获取页面之间的关联关系,对网站结构的优化提供一定的依据.  相似文献   

9.
基于Web日志的数据挖掘过程   总被引:1,自引:0,他引:1  
因特网的飞速发展带来了巨大的信息量,如何使用Web日志挖掘技术实现网站优化是目前研究的热门.通过介绍Web日志挖掘的概念,阐述了Web日志挖掘的过程:数据收集、数据预处理、模式识别、实际应用,说明了如何实现网站的优化,提高用户的访问率和访问速度.  相似文献   

10.
Web日志挖掘技术应用研究   总被引:11,自引:2,他引:9  
随着Internet的迅速发展,Web在人们的日常生活和工作中的地位日益显著.Web日志挖掘就是通过对Web日志记录的挖掘,发现用户访问的Web页面的浏览模式,从而进一步分析和研究Web日志记录中的规律,改进Web站点的性能和组织结构,提供个性化服务.本文首先分析了Web日志的分布和特点,再对Web日志挖掘中的两个阶段即数据预处理和日志挖掘算法做了详细介绍,最后对Web日志挖掘技术做了展望.  相似文献   

11.
一个简单的Web日志挖掘系统   总被引:22,自引:0,他引:22  
在分析Web日志挖掘的困难及对策的基础上,给出了一个简单的Web日志挖掘系统(SWLMS)的体系结构,具体介绍了SWLMS中日志的预处理过程,包括数据净倾、用户识别、会话识别、路径补充的主要任务及其实现,并着重介绍了预处理之后的序列模式识别过程和算法,包括最大向前路径的识别和频繁遍历路径的发现,并给出了实验结果。  相似文献   

12.
W eb日志挖掘是将数据挖掘技术应用到W eb服务器的日志中,发现web用户的行为模式.在介绍了典型的数据预处理技术的基础之上,指出Fram e页面降低了挖掘结果的兴趣性,并提出相应的解决方法-Fram e页面过滤算法消除其影响.通过实验数据对该算法进行验证,说明Fram e页面过滤算法可以显著地提高W eb日志挖掘结果的兴趣性.  相似文献   

13.
Web使用挖掘中数据预处理的研究   总被引:1,自引:1,他引:0  
对Web使用挖掘中数据预处理阶段所采用的技术做了全面的研究,主要包括数据的来源及清理、用户识别、会话识别、路径补充等步骤及其所采用的技术.在现有Web使用挖掘数据预处理的步骤上提出改进,即在路径补充后,利用最大向前序列法(MFR,Max Forward Reference)进行二次会话识别,克服了原有会话识别中最大向前序列法的缺点.最后给出示例及其结果.  相似文献   

14.
Web日志分析中数据预处理的设计与实现   总被引:2,自引:0,他引:2  
Web日志数据预处理是Web日志分析的重要步骤,是通过Web日志数据获取有价值信息的基础和前提。本文介绍了对商务部主办的《中俄经贸合作网》大量Web日志数据进行预处理时所采用的算法和处理过程,即先将已知IP地址与物理地址的对应关系保存在HashMap中,然后综合运用折半与顺序查找算法,可显著减少查询次数,提高查询效率。实验结果证明这种方法具有好的应用效果,能极大改善数据预处理软件的性能。  相似文献   

15.
结合实例对商务网站Web日志数据进行挖掘研究,介绍将Web数据转变为数据仓库数据的过程和数据挖掘的方法,文章的最后讲述了可视化数据挖掘技术在表现挖掘结果中的应用.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号