首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 46 毫秒
1.
许艳丹 《中国西部科技》2011,10(4):28-29,15
会话识别是Web日志挖掘的关键步骤,会话识别的质量直接影响后续挖掘的准确性。本文分析了Web日志挖掘的数据预处理过程中的三种会话识别算法,最终选用时间阈值法对安徽国防科技职业学院服务器日志文件进行会话识别。  相似文献   

2.
在常用的计算时间阈值识别方法的基础上,提出了一种改进的基于 URL 页面类型、页面信息量和访问时间的平均阈值识别方法.针对不同的页面类型采用不同的阈值计算方法设置时间阈值,相对于已有的对所有用户页面使用单一的先验阈值和现有动态阈值计算,该方法能够更真实地反映用户会话的情况,且识别的准确率有了较大提高.  相似文献   

3.
Web日志挖掘是Web使用挖掘一个最重要研究领域,数据预处理是Web日志挖掘中的关键技术之一。论述了数据预处理各主要步骤的方法和技术,重点研究了用户识别和会话识别。  相似文献   

4.
本文针对Web日志挖掘问题的困难和现状,提出了一种Web日志预处理结果的框架页面筛选技术(Frame Page Filtering Technology以下简称FPFT)。传统的日志预处理技术并不能将框架页面(Frame Page以下简称FP)和子框架页面(Subset Frame Page以下简称SFP)作为一个整体考虑,结果导致FP和SFP大量出现在挖掘结果中,使得挖掘结果的兴趣性降低。为了消除FP和SFP带来的负面作用,本文提出日志预处理阶段的FPFT技术,以消除FP对挖掘算法的影响,发现用户真正感兴趣的挖掘结果。  相似文献   

5.
陈红丽 《科学技术与工程》2012,12(8):1928-1930,1935
数据预处理在Web日志挖掘过程中起着至关重要的作用,直接影响日志挖掘的质量和结果。 文中分析了数据预处理的主要过程,并用站点首页结合动态时间阈值的方法对会话识别进行了改进。实验结果表明, 改进后的会话识别方法能更有效的识别出用户的真实会话。  相似文献   

6.
基于Web日志的数据挖掘过程   总被引:1,自引:0,他引:1  
因特网的飞速发展带来了巨大的信息量,如何使用Web日志挖掘技术实现网站优化是目前研究的热门.通过介绍Web日志挖掘的概念,阐述了Web日志挖掘的过程:数据收集、数据预处理、模式识别、实际应用,说明了如何实现网站的优化,提高用户的访问率和访问速度.  相似文献   

7.
Web日志挖掘中的数据预处理技术   总被引:5,自引:0,他引:5  
用户访问网站,Web日志中会记录下大量的用户访问信息,通过挖掘这些日志数据可以获得相关页面、相似用户群体和用户访问模式等信息,Web日志挖掘对于优化网站结构、提供个性化服务和构建智能化网站具有重要作用.数据预处理是保证Web日志挖掘质量的重要基础,预处理主要包括数据清洗、用户识别、会话识别、路径补充和结果评价等工作.概述了数据预处理技术,重点介绍了目前常用的会话划分算法和评价标准,并实现了一个数据预处理系统.  相似文献   

8.
Web日志挖掘技术应用研究   总被引:9,自引:2,他引:9  
随着Internet的迅速发展,Web在人们的日常生活和工作中的地位日益显著.Web日志挖掘就是通过对Web日志记录的挖掘,发现用户访问的Web页面的浏览模式,从而进一步分析和研究Web日志记录中的规律,改进Web站点的性能和组织结构,提供个性化服务.本文首先分析了Web日志的分布和特点,再对Web日志挖掘中的两个阶段即数据预处理和日志挖掘算法做了详细介绍,最后对Web日志挖掘技术做了展望.  相似文献   

9.
基于web日志挖掘的数据预处理研究   总被引:2,自引:0,他引:2  
曹明  闪四清 《科技资讯》2007,1(4):103-105
Web日志信息的预处理是Web日志挖掘任务中的重要阶段,也是工作量较大的一部分.Web服务器上的数据是半结构化的,而且含有大量和挖掘无关的记录和冗余项.这就需要对其进行处理以得到适合挖掘的数据事务(Transaction)形式.Web日志预处理就是通过一系列的清洗、集成、转换等来得到合适的待挖掘数据.本文重点介绍了数据清理、用户识别、会话识别、路径补充、事务识别等过程.  相似文献   

10.
基于URL语义分析的Web用户会话识别方法   总被引:1,自引:0,他引:1  
由于现有基于时间和引用的经典会话识别方法在复杂Web使用模式挖掘中存在局限性,提出了一个基于URL语义分析的用户会话识别新方法.这个方法借助Web目录服务,将Web日志中的每一条URL记录赋予一定的语义信息,并给出一些测度指标对URL之间的语义相似度进行评价.对静态和流动两类Web日志情况进行分析,分别给出了语义奇异值...  相似文献   

11.
通过对传统web会话识别方法分析和比较,改进了目前最常用的基于时间阈值会话识别方法,提出了一种基于动态阈值会话识别方法,该算法采用动态计算会话中请求记录间的平均时间间隔和动态计算会话中页面的平均大小相结合的方法,根据用户和网页的特点动态调整阈值,相对于传统单一的先验阈值,该方法可以根据不同的用户访问不同的页面生成动态的阈值,充分运用用户和网页信息.经过实验验证,该方法可以识别出更多的用户会话,且识别会话的准确率和查全率也比传统算法更高.  相似文献   

12.
网络日志挖掘中基于时间间隔的会话切分   总被引:10,自引:0,他引:10  
针对网络日志挖掘中的会话切分问题,提出了一种基于时间间隔的方法。该方法在相邻页面访问时间间隔超出某阈值时切分会话,针对特定IP的阈值根据其频率矢量来定义。实验表明:代理服务器IP和单用户IP的频率矢量具有不同特性,代理服务器IP的频率矢量具有Power-law的特点,而单用户IP的频率矢量具有Gauss分布的特点,在此基础上提出一种基于Gauss假设的方法来设定不同单用户IP的阈值。与传统的对所有IP地址使用单一的先验阈值进行切分的方法相比,该方法更为合理有效。  相似文献   

13.
指出了数据预处理在Web使用挖掘中的重要性,详细分析了Web使用挖掘数据预处理过程,在每个数据预处理的每个阶段给出了一些规则并针对这些规则设计和实现了相应的预处理算法.实验结果证明这些算法是有效的.  相似文献   

14.
对Web使用挖掘中数据预处理阶段所采用的技术做了全面的研究,主要包括数据的来源及清理、用户识别、会话识别、路径补充等步骤及其所采用的技术.在现有Web使用挖掘数据预处理的步骤上提出改进,即在路径补充后,利用最大向前序列法(MFR,Max Forward Reference)进行二次会话识别,克服了原有会话识别中最大向前序列法的缺点.最后给出示例及其结果.  相似文献   

15.
基于DPI和会话关联技术的QQ语音业务识别模型和算法   总被引:3,自引:0,他引:3  
针对互联网即时通信软件-腾讯QQ的语音会话特征进行了深入的分析,研究如何基于DPI净荷深度检测和会话关联技术来有效识别QQ语音业务,并设计出QQ语音业务的识别模型和算法,原型系统在10G电信IP骨干网中得到了充分验证。  相似文献   

16.
Web使用挖掘中的一种改进的会话识别方法   总被引:19,自引:0,他引:19  
针对Web日志挖掘中的会话识别问题,提出了一种改进的基于时间间隔的识别方法.该方法通过使用访问时间间隔超出某个阈值来识别会话.统计结果表明页面的访问时间呈正态分布,改进的方法在此基础之上为页面设置访问时间阈值,并根据页面内容及站点结构确定的页面重要程度对该阈值进行调整.实验结果表明,相对于传统的对所有用户页面使用单一的先验阈值进行会话识别的方法,该方法能更准确地确定页面访问时间阈值,为合理有效。  相似文献   

17.
在介绍用途数据挖掘预处理过程的基础上,结合站点的拓扑结构,详细分析了页面视图的识别过程,给出了站点结构的形式化表述和页面视图识别的算法,为Web用途挖掘找到了合适的挖掘粒度。最后总结了结构数据对用途挖掘的作用。  相似文献   

18.
Web使用挖掘分析访问者日志,可以发现很多潜在的规律。利用会话之间的依赖关系,给出会话的依赖特征和数值度量,利用会话的动态特性给出会话动态聚类分析的算法和应用,并和模糊聚类算法方法进行比较研究。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号