首页 | 本学科首页   官方微博 | 高级检索  
     检索      

Web日志预处理中会话识别的优化
引用本文:朱晋华,陈俊杰.Web日志预处理中会话识别的优化[J].太原理工大学学报,2008,39(2):111-114,122.
作者姓名:朱晋华  陈俊杰
作者单位:太原理工大学,计算机与软件学院,山西,太原,030024
基金项目:国家自然科学基金 , 山西省自然科学基金
摘    要:针对目前的各种会话识别方法,提出了一种优化的会话切分方法.该方法基于对用户下载时间、对页面的平均阅读时间及页面的链入、链出数等几个参数的综合,得到每个用户页面的访问时间阈值,根据该阈值来切分用户会话,得到会话侯选集合;然后,根据用户对页面内容的兴趣度、浏览特性等来删除会话中的链接页面和不感兴趣的页面,生成一种最终有效的访问页面序列,从而为以后的模式发现提供良好的数据.实验结果表明,相对于所有用户使用单一先验阈值和使用统计方法结合页面内容确定阈值的方法,笔者提出的方法能更准确地确定页面访问时间阈值,得到更为合理有效的会话集合.

关 键 词:日志挖掘  会话切分  阈值  兴趣度  日志预处理  会话识别  优化  Web  Log  Mining  Identification  Session  Method  定阈值  合页  统计方法  使用  结果  实验  数据  模式发现  面序列  删除  特性  浏览  兴趣度
文章编号:1007-9432(2008)02-0111-04
收稿时间:2007-07-11
修稿时间:2007年7月11日

Research on Method for Session Identification in Web Log Mining
ZHU Jin-hua,CHEN Jun-jie.Research on Method for Session Identification in Web Log Mining[J].Journal of Taiyuan University of Technology,2008,39(2):111-114,122.
Authors:ZHU Jin-hua  CHEN Jun-jie
Abstract:Multi-parameters based dynamic threshold improvement of session identification was carried out.The parameters contains Web page,downloading time etc,and an individual threshold for different users can produced.In this method,the Web log was divided into session by the new threshold.According to user's interesting degree to pages,those unimportant pages can be deleted and the final session come into being.Thus exact data source is provided for user access pattern.The experiments prove that this method can decide the access time threshold more accurately and reasonably,compared to the traditional method that defines a uniform threshold for all Web pages and the other method that defines different threshold for each Web page,this method can define accurately access time threshold and gain valid assemble.
Keywords:Web log mining  session identification  threshold  interesting degree
本文献已被 CNKI 维普 万方数据 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号