共查询到17条相似文献,搜索用时 281 毫秒
1.
基于web日志挖掘的数据预处理研究 总被引:2,自引:0,他引:2
Web日志信息的预处理是Web日志挖掘任务中的重要阶段,也是工作量较大的一部分.Web服务器上的数据是半结构化的,而且含有大量和挖掘无关的记录和冗余项.这就需要对其进行处理以得到适合挖掘的数据事务(Transaction)形式.Web日志预处理就是通过一系列的清洗、集成、转换等来得到合适的待挖掘数据.本文重点介绍了数据清理、用户识别、会话识别、路径补充、事务识别等过程. 相似文献
2.
Web日志挖掘是Web使用挖掘一个最重要研究领域,数据预处理是Web日志挖掘中的关键技术之一。论述了数据预处理各主要步骤的方法和技术,重点研究了用户识别和会话识别。 相似文献
3.
Web日志挖掘中数据预处理技术研究 总被引:2,自引:0,他引:2
Web日志挖掘的基本思想是将数据挖掘技术应用于Web日志数据源。在数据挖掘研究领域中,数据预处理起着至关重要的作用。Web日志挖掘的数据源最主要的是Web日志,根据Web日志的特点,在预处理过程中的会话识别阶段给出一种基于过滤框架网页与页面访问时间阈值相结合的会话识别方法,实验数据验证说明该方法可以显著地提高Web日志挖掘结果的兴趣性。 相似文献
4.
会话识别是Web日志挖掘的关键步骤,会话识别的质量直接影响后续挖掘的准确性。本文分析了Web日志挖掘的数据预处理过程中的三种会话识别算法,最终选用时间阈值法对安徽国防科技职业学院服务器日志文件进行会话识别。 相似文献
5.
数据预处理在Web日志挖掘过程中起着至关重要的作用,直接影响日志挖掘的质量和结果。 文中分析了数据预处理的主要过程,并用站点首页结合动态时间阈值的方法对会话识别进行了改进。实验结果表明, 改进后的会话识别方法能更有效的识别出用户的真实会话。 相似文献
6.
在分析现有的Web访问挖掘数据预处理模型和会话识别算法的基础上,提出了一种改进的Web访问挖掘数据预处理模型并对基于时间和引用的启发式会话识别算法进行了改进。实验证明,改进的Web访问挖掘数据预处理模型和会话识别算法非常适合于当前搜索引擎广泛使用下的Web访问挖掘数据预处理。 相似文献
7.
分析了用户访问Web站点的浏览日志,度量用户的浏览行为.实验从实际获得的Web日志着手,进行Web日志的挖掘,提取用户浏览Web的行为特性数据.通过时间阈值进行会话的划分,选取合适的数据预处理,归一化后生成数据模式向量,引入人工神经网络中的自组织特征映射(SOM)模型,对用户访问倾向聚类,对用户浏览的偏爱度进行度量,为Web站点的进化提供依据. 相似文献
8.
Web使用挖掘是当前的一个热点研究方向,数据预处理是Web使用挖掘过程中的一个重要阶段。讨论了数据预处理技术中网络拓扑结构用户识别算法和会话识别启发算法的主要应用,并就其将来发展方向作了简单预测。 相似文献
9.
Web使用记录挖掘是采用数据挖掘技术对Web服务器上日志文件中的数据进行挖掘,以发现用户访问Web的方式及页面间存在的某种关联,从而可以为网站设计、提供网络个性化服务及其他电子商务活动提供决策依据.事务识别是Web使用记录挖掘前的一种数据预处理技术,本文介绍事务识别的基本方法,并给出一个最大前向引用序列事务识别新方法. 相似文献
10.
提出了一种重构网站结构的方法,并将此方法应用于Web日志挖掘的数据预处理中.实验表明,本方法能够更好地还原用户访问情景,为Web日志挖掘提供有效数据。 相似文献
11.
一个简单的Web日志挖掘系统 总被引:22,自引:0,他引:22
在分析Web日志挖掘的困难及对策的基础上,给出了一个简单的Web日志挖掘系统(SWLMS)的体系结构,具体介绍了SWLMS中日志的预处理过程,包括数据净倾、用户识别、会话识别、路径补充的主要任务及其实现,并着重介绍了预处理之后的序列模式识别过程和算法,包括最大向前路径的识别和频繁遍历路径的发现,并给出了实验结果。 相似文献
12.
Web使用挖掘中数据预处理的研究 总被引:1,自引:1,他引:0
对Web使用挖掘中数据预处理阶段所采用的技术做了全面的研究,主要包括数据的来源及清理、用户识别、会话识别、路径补充等步骤及其所采用的技术.在现有Web使用挖掘数据预处理的步骤上提出改进,即在路径补充后,利用最大向前序列法(MFR,Max Forward Reference)进行二次会话识别,克服了原有会话识别中最大向前序列法的缺点.最后给出示例及其结果. 相似文献
13.
基于蚁群算法的用户导航模式挖掘的研究 总被引:1,自引:0,他引:1
Web使用挖掘是将数据挖掘技术应用于Web日志数据,从而发现用户行为模式的过程;在电子商务的发展进程中,Web使用挖掘的重要性与日俱增;用户导航模式的挖掘是Web使用挖掘的一个重要研究领域,是优化Web站点框架设计的根本方法;该文首先介绍了用户导航模式挖掘的现状,然后探讨了蚁群算法用于用户导航模式挖掘的可行性,最后对应用的步骤提出了构想。 相似文献
14.
通过分析Web日志记录来发现用户访问行为等,进而识别电子商务中的潜在客户,提高网络信息服务的质量,优化站点结构以及得到对于个性化系统有用的信息.提出一个Web使用挖掘系统的设计方案,包括系统的体系结构、功能结构及每个功能点的详细设计.为Web使用系统开发人员提供有价值的参考信息. 相似文献
15.
Web日志挖掘及AprioriAll算法的改进 总被引:2,自引:0,他引:2
阐述了利用数据挖掘技术对Web日志进行挖掘的可能性及其重要作用.通过用户维的引入,对已有的Apri-oriAll算法进行了改进,改进后的算法降低了原算法的时空复杂度,特别是在新算法中可以对Web日志数据按用户维进行切片,消除了原算法中的I/O相关性.这不仅使对Web日志数据进行的挖掘活动可以分散地进行,而且使多机连网分布式挖掘成为可能,同时还可以实现对Web日志的增量挖掘和动态挖掘.此外,该改进算法的特殊意义还在于它不仅可以将所有用户看作一个整体进行挖掘,而且还可以对不同的用户个体的行为进行独立地挖掘,使挖掘出的结果能够满足对用户个性化使用的需求. 相似文献
16.
从Web数据中挖掘频繁访问模式 总被引:7,自引:0,他引:7
提出了一种新的用户浏览行为模型,通过在Web日志挖掘中引入页面信息量参数,以Web页面文件大小与用户浏览时间的比值作为对页面关心程度的度量,将页面引用划分为导航目的与内容目的两种类型。在此基础上定义并实现了对应的内容事务识别方法。实际数据的挖掘结果证明了模型的适用性。 相似文献
17.
Web日志挖掘技术应用研究 总被引:9,自引:2,他引:9
吕佳 《重庆师范大学学报(自然科学版)》2006,23(4):39-44
随着Internet的迅速发展,Web在人们的日常生活和工作中的地位日益显著.Web日志挖掘就是通过对Web日志记录的挖掘,发现用户访问的Web页面的浏览模式,从而进一步分析和研究Web日志记录中的规律,改进Web站点的性能和组织结构,提供个性化服务.本文首先分析了Web日志的分布和特点,再对Web日志挖掘中的两个阶段即数据预处理和日志挖掘算法做了详细介绍,最后对Web日志挖掘技术做了展望. 相似文献