共查询到20条相似文献,搜索用时 62 毫秒
1.
Web日志挖掘技术应用研究 总被引:9,自引:2,他引:9
吕佳 《重庆师范大学学报(自然科学版)》2006,23(4):39-44
随着Internet的迅速发展,Web在人们的日常生活和工作中的地位日益显著.Web日志挖掘就是通过对Web日志记录的挖掘,发现用户访问的Web页面的浏览模式,从而进一步分析和研究Web日志记录中的规律,改进Web站点的性能和组织结构,提供个性化服务.本文首先分析了Web日志的分布和特点,再对Web日志挖掘中的两个阶段即数据预处理和日志挖掘算法做了详细介绍,最后对Web日志挖掘技术做了展望. 相似文献
2.
本文对数据挖掘技术在Web日志文件中的挖掘应用进行了探讨,并对Web日志挖掘的意义、步骤、数据、准备以及算法进行了归纳,旨在帮助网站管理者更好的管理Web站点,用户更能方便的从Web站点获得服务,提高Web的使用效率. 相似文献
3.
4.
经典关联规则挖掘在Web日志挖掘应用中已经比较成熟。在此基础上,针对某些商业网站的商品板块间存在层次关系,将多层次关联规则挖掘引入Web日志挖掘,能够在细节程度更低的层次或不同的细节层次间深入、全面地提供用户浏览商品过程中的频繁访问路径和频繁访问页组,以优化网站链接,为访问网站的用户提供更能满足需求的服务。本文以淘宝网女装/女士精品销售版块的链接页面为例进行验证说明。 相似文献
5.
现有的Web日志频繁访问路径挖掘算法往往不能在追求时间效率的同时准确挖掘出符合用户浏览顺序的频繁路径.提出了有效挖掘Web日志中频繁访问路径的算法,将事务数据库转换为Web访问路径树,根据支持度进行剪枝构造最长前缀频繁子路径树,然后进行频繁路径挖掘,实验证实了此方法的有效性,并分析了支持度设置对频繁路径生成的影响. 相似文献
6.
经典关联规则挖掘在Web日志挖掘应用中已经比较成熟。在此基础上,针对某些商业网站的商品板块间存在层次关系,将多层次关联规则挖掘引入Web日志挖掘,能够在细节程度更低的层次或不同的细节层次间深入、全面地提供用户浏览商品过程中的频繁访问路径和频繁访问页组,以优化网站链接,为访问网站的用户提供更能满足需求的服务。本文以淘宝网女装/女士精品销售版块的链接页面为例进行验证说明。 相似文献
7.
提出了一种基于粗糙集的Web日志挖掘模型,该模型采用粗糙集的方法对原始数据进行约简,然后应用粗糙集理论对数据进行定性分析和约简.最后结合一个Web日志实例验证了方法的可行性和有效性. 相似文献
8.
一个简单的Web日志挖掘系统 总被引:22,自引:0,他引:22
在分析Web日志挖掘的困难及对策的基础上,给出了一个简单的Web日志挖掘系统(SWLMS)的体系结构,具体介绍了SWLMS中日志的预处理过程,包括数据净倾、用户识别、会话识别、路径补充的主要任务及其实现,并着重介绍了预处理之后的序列模式识别过程和算法,包括最大向前路径的识别和频繁遍历路径的发现,并给出了实验结果。 相似文献
9.
吕宗健 《山东师范大学学报(自然科学版)》2007,22(1):23-24
利用基于图结构Web日志挖掘获得的规则和用户访问模式,使Web站点的结构及站点内的页面进行自身的调整和改善,从而实现站点组织结构的优化. 相似文献
10.
在电子商务环境下,提出一种基于Web日志抽取用户兴趣模式的混合挖掘模型MMA(mixed mining algorithm),该模型克服了单纯挖掘浏览模式或关联规则的不足,综合考虑用户的浏览和购买行为,能够有效捕获用户兴趣,获得潜在的商机,并为用户提供个性化的服务. 相似文献
11.
12.
Web文本聚类是文本挖掘的重要组成部分。该文章分析了Web文本挖掘的方法,通过比较现有的几种聚类算法之后,着重研究了一个基于DBSCAN的聚类算法.以及它在文本挖掘中的具体实现过程。 相似文献
13.
一种基于客户端的用户浏览行为的采集方法 总被引:1,自引:0,他引:1
吴琪 《长春师范学院学报》2005,24(4):60-62
Web使用挖掘技术通过挖掘并分析用户对Web站点的访问模式,在帮助Web站点调整结构,确定产品的市场战略,提高商业活动的效率等方面存在广泛的应用前景.如何得到准确的用户浏览行为信息,是Web访问挖掘研究的一个重点.本文主要对在客户端获取准确的用户浏览行为信息的过程进行了研究. 相似文献
14.
吴琪 《长春师范学院学报》2005,(9)
Web使用挖掘技术通过挖掘并分析用户对Web站点的访问模式,在帮助Web站点调整结构,确定产品的市场战略,提高商业活动的效率等方面存在广泛的应用前景。如何得到准确的用户浏览行为信息,是Web访问挖掘研究的一个重点。本文主要对在客户端获取准确的用户浏览行为信息的过程进行了研究。 相似文献
15.
网络日志挖掘中基于时间间隔的会话切分 总被引:10,自引:0,他引:10
针对网络日志挖掘中的会话切分问题,提出了一种基于时间间隔的方法。该方法在相邻页面访问时间间隔超出某阈值时切分会话,针对特定IP的阈值根据其频率矢量来定义。实验表明:代理服务器IP和单用户IP的频率矢量具有不同特性,代理服务器IP的频率矢量具有Power-law的特点,而单用户IP的频率矢量具有Gauss分布的特点,在此基础上提出一种基于Gauss假设的方法来设定不同单用户IP的阈值。与传统的对所有IP地址使用单一的先验阈值进行切分的方法相比,该方法更为合理有效。 相似文献
16.
日志挖掘是Web数据挖掘的一个重要研究领域.本文首先介绍了Web日志挖掘的方法,然后将Web日志挖掘方法运用于一个学校的网站中,结合Apriori算法对预处理之后的数据进行挖掘,获取页面之间的关联关系,对网站结构的优化提供一定的依据. 相似文献
17.
本文研究结合网站结构和页面内容以辅助Web使用挖掘,提高推荐服务质量。并在相关理论与研究的基础上,给出一种关于推荐因子的综合计算方法,经推荐质量分析,该方法具有较好的推荐优化能力。 相似文献
18.
Web日志挖掘及AprioriAll算法的改进 总被引:2,自引:0,他引:2
阐述了利用数据挖掘技术对Web日志进行挖掘的可能性及其重要作用.通过用户维的引入,对已有的Apri-oriAll算法进行了改进,改进后的算法降低了原算法的时空复杂度,特别是在新算法中可以对Web日志数据按用户维进行切片,消除了原算法中的I/O相关性.这不仅使对Web日志数据进行的挖掘活动可以分散地进行,而且使多机连网分布式挖掘成为可能,同时还可以实现对Web日志的增量挖掘和动态挖掘.此外,该改进算法的特殊意义还在于它不仅可以将所有用户看作一个整体进行挖掘,而且还可以对不同的用户个体的行为进行独立地挖掘,使挖掘出的结果能够满足对用户个性化使用的需求. 相似文献
19.
利用Apriori算法对Deep Web网站中最大频繁关联关系网页进行识别,并对非最大频繁项网页进行剪枝,再遍历Deep Web网站网页,从而获取所有最大频繁关联关系网页。对某房地产Deep Web网站的实验结果验证了该算法的可行性和有效性。 相似文献
20.
在非结构化数据挖掘结构模型——发现特征子空间模型(DFSSM)——的运行机制下,提出了一种新的Web文本聚类算法——基于DFSSM的Web文本聚类(WTCDFSSM)算法.该算法具有自稳定性,无须外界给出评价函数;能够识别概念空间中最有意义的特征,抗噪声能力强.结合现代远程教育网应用背景实现了WTCDFSSM聚类算法.结果表明:该算法可以对各类远程教育站点上收集的文本资料信息自动进行聚类挖掘;采用网格结构模型,帮助人们进行文本信息导航;从海量文本信息源中快速有效地获取重要的知识. 相似文献