首页 | 本学科首页   官方微博 | 高级检索  
     检索      

Web日志挖掘中的数据预处理技术
引用本文:侯亚丽,袁方.Web日志挖掘中的数据预处理技术[J].河北大学学报(自然科学版),2005,25(2):202-206.
作者姓名:侯亚丽  袁方
作者单位:河北大学,数学与计算机学院,河北,保定,071002
摘    要:用户访问网站,Web日志中会记录下大量的用户访问信息,通过挖掘这些日志数据可以获得相关页面、相似用户群体和用户访问模式等信息,Web日志挖掘对于优化网站结构、提供个性化服务和构建智能化网站具有重要作用.数据预处理是保证Web日志挖掘质量的重要基础,预处理主要包括数据清洗、用户识别、会话识别、路径补充和结果评价等工作.概述了数据预处理技术,重点介绍了目前常用的会话划分算法和评价标准,并实现了一个数据预处理系统.

关 键 词:Web日志挖掘  数据预处理  会话划分  会话评价
文章编号:1000-1565(2005)02-0202-05
修稿时间:2004年10月28

Data Preparation for Web Log Mining
HOU Ya-li,YUAN Fang.Data Preparation for Web Log Mining[J].Journal of Hebei University (Natural Science Edition),2005,25(2):202-206.
Authors:HOU Ya-li  YUAN Fang
Abstract:Web usage mining techniques is to extract valuble information from Web logs,which record user behaviour.Analyzing and exploring regularities in this behaviour can improve site structure,provide personalized service and build intellegent Web site.As is true for the typical data mining goals, the issues of data quality and pre-processing are very important, it mainly involves data cleaning, user identification, session identification and path completion, at last we can measure the accuracy of the sessionizing result. This paper gives a brief overview of data preparation, describes some sessionizing heuristics and their measuring in detail, and a system of data preparation.
Keywords:Weblog mining  data preparation  sessionizing  measuring of sessionzing
本文献已被 CNKI 万方数据 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号