首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 140 毫秒
1.
Web日志挖掘中的数据预处理技术   总被引:5,自引:0,他引:5  
用户访问网站,Web日志中会记录下大量的用户访问信息,通过挖掘这些日志数据可以获得相关页面、相似用户群体和用户访问模式等信息,Web日志挖掘对于优化网站结构、提供个性化服务和构建智能化网站具有重要作用.数据预处理是保证Web日志挖掘质量的重要基础,预处理主要包括数据清洗、用户识别、会话识别、路径补充和结果评价等工作.概述了数据预处理技术,重点介绍了目前常用的会话划分算法和评价标准,并实现了一个数据预处理系统.  相似文献   

2.
许艳丹 《中国西部科技》2011,10(4):28-29,15
会话识别是Web日志挖掘的关键步骤,会话识别的质量直接影响后续挖掘的准确性。本文分析了Web日志挖掘的数据预处理过程中的三种会话识别算法,最终选用时间阈值法对安徽国防科技职业学院服务器日志文件进行会话识别。  相似文献   

3.
Web使用挖掘是当前的一个热点研究方向,数据预处理是Web使用挖掘过程中的一个重要阶段。讨论了数据预处理技术中网络拓扑结构用户识别算法和会话识别启发算法的主要应用,并就其将来发展方向作了简单预测。  相似文献   

4.
Web日志挖掘中数据预处理技术研究   总被引:2,自引:0,他引:2  
Web日志挖掘的基本思想是将数据挖掘技术应用于Web日志数据源。在数据挖掘研究领域中,数据预处理起着至关重要的作用。Web日志挖掘的数据源最主要的是Web日志,根据Web日志的特点,在预处理过程中的会话识别阶段给出一种基于过滤框架网页与页面访问时间阈值相结合的会话识别方法,实验数据验证说明该方法可以显著地提高Web日志挖掘结果的兴趣性。  相似文献   

5.
陈红丽 《科学技术与工程》2012,12(8):1928-1930,1935
数据预处理在Web日志挖掘过程中起着至关重要的作用,直接影响日志挖掘的质量和结果。 文中分析了数据预处理的主要过程,并用站点首页结合动态时间阈值的方法对会话识别进行了改进。实验结果表明, 改进后的会话识别方法能更有效的识别出用户的真实会话。  相似文献   

6.
Web日志挖掘是Web使用挖掘一个最重要研究领域,数据预处理是Web日志挖掘中的关键技术之一。论述了数据预处理各主要步骤的方法和技术,重点研究了用户识别和会话识别。  相似文献   

7.
Web使用挖掘中数据预处理的研究   总被引:1,自引:1,他引:0  
对Web使用挖掘中数据预处理阶段所采用的技术做了全面的研究,主要包括数据的来源及清理、用户识别、会话识别、路径补充等步骤及其所采用的技术.在现有Web使用挖掘数据预处理的步骤上提出改进,即在路径补充后,利用最大向前序列法(MFR,Max Forward Reference)进行二次会话识别,克服了原有会话识别中最大向前序列法的缺点.最后给出示例及其结果.  相似文献   

8.
数据预处理是Web使用挖掘的第一阶段,完整的数据预处理过程包括数据净化、用户识别、会话识别、事务识别和路径补充五个环节.在每个环节中,首先给出了详细的过程定义,接着给出了每个环节的数据处理方法或算法,最后指出了未来研究方向.  相似文献   

9.
贾瑛 《科技信息》2011,(21):I0065-I0066
本问介绍了Web使用挖掘的概念,探讨了数据预处理的流程:数据清洗、用户识别、会话识别、路径补充、事务识别,并分析了每个阶段的目的、方法及结果,给出了每个步骤的实现算法。  相似文献   

10.
Web使用挖掘是将数据挖掘和WWW这两个领域中的多种技术和方法结合起来的热门研究课题。Web使用挖掘中,数据预处理是基础、挖掘访问模式是核心、模式分析与显示是目的。在数据预处理阶段,结合时间启发方式和引用启发方式提出了时间引用启发方式的会话构造方法。该方法不仅利用了用户会话的时间特性,而且考虑了用户的浏览特性。  相似文献   

11.
在WUM(Web Usage Mining)中挖掘序列模式的背景下,提出了一种基于server session约束的序列模式增长挖掘算法.首先,为了更好地从网站服务器日志文件中挖掘模式和发现知识,提出了一种基于server session的服务器日志文件格式.同时,引入基于server session的约束概念,利用其能够减少初始序列模式和候选项集大小的特点来减少每次扫描后缀数据库的规模,再从预处理后的日志文件中挖掘WUM的频繁访问路径的序列模式.最后通过实验证明了算法的有效性和优越性.  相似文献   

12.
通过对传统web会话识别方法分析和比较,改进了目前最常用的基于时间阈值会话识别方法,提出了一种基于动态阈值会话识别方法,该算法采用动态计算会话中请求记录间的平均时间间隔和动态计算会话中页面的平均大小相结合的方法,根据用户和网页的特点动态调整阈值,相对于传统单一的先验阈值,该方法可以根据不同的用户访问不同的页面生成动态的阈值,充分运用用户和网页信息.经过实验验证,该方法可以识别出更多的用户会话,且识别会话的准确率和查全率也比传统算法更高.  相似文献   

13.
为了提取一个类标区别于其他类标的本质特征,增强类标数据集的可解释性,提出了一种面向主属性值的类标特征分析方法.该方法首先建立了一种直观的面向主属性值的类标特征模型,然后设计了对应的类标特征抽取算法,最后给出了一种基于类标特征分析的分类算法.实验结果表明:所建立的类标特征模型能够直观、有效地描述类标数据集中各类标的特征,给出的类标特征抽取算法有较高的执行性能,提出的分类算法在针对类标较少的数据集时有较高的分类准确率.  相似文献   

14.
夏龄 《科学技术与工程》2012,12(35):9545-9551
数据挖掘并行算法,应该以不牺牲挖掘效率和挖掘质量为前提。通过对数据挖掘原理和并行化的深入研究,在考虑到挖掘效率,负载平衡,运行环境,节点状态等多方面因素的基础上,提出了一种新的基于动态调度的数据挖掘并行算法。该算法以规模较小的子数据集为并行挖掘单元,各个并行单元之间采用全局通讯模式—Master-Worker模式来进行互相通信。降低了并行挖掘的通信成本,提高了挖掘的效率,缩短了挖掘的时间。同时该算法对不断变化的节点状态适应能力强。最后,实验结果验证了该算法的有效性以及在大数据集挖掘应用中的优越性。该算法不但保证了挖掘结果的正确性,而且具有较高的加速比。  相似文献   

15.
提出一种基于用户历史浏览情况对未来相关网页进行预取的算法.该算法能自适应调整用于生成会话的参数,并使用Session-tree结构完成对相关页面的预取.在实现中考虑到用户在特定事件和时间下的历史浏览行为,使用奖励因子和快速排序策略以提高效率.试验分析结果表明,基于自适应会话调整及群体共同兴趣剖像的预取算法能较好地完成对相关页面的预取.  相似文献   

16.
李作春  周秀梅  覃泽 《科技咨询导报》2009,(28):236-237,239
针对存在的关联规则挖掘算法不能有效地在异质数据集中进行,本文首先使用领域本体方法处理数据集中的异质现象,然后提出了一种有效的XML异质数据集关联规则挖掘算法,实验结果表明该算法在挖掘速度和挖掘时在对内存的占用方面都优于现有的算法。  相似文献   

17.
Web挖掘的体系研究   总被引:6,自引:0,他引:6  
互联网的出现极大地丰富了人们的信息,但也困扰人们从中获取有用的知识。Web挖掘的应用为解决此问题指明了方向。该文从Web内容挖掘、Web结构挖掘和使用记录挖掘3个方面论述了Web挖掘的内容及相关技术的研究现状和发展方向。Web内容挖掘包括信息提取和信息检索,Web信息提取的主要过程包括向量表示、特征提取、特征缩减和文本挖掘;对于信息检索,文章从搜索引擎的原理、分类以及最新的发展技术方面对其进行了论述;而对于结构挖掘和使用记录挖掘,文章主要论述了其算法和过程。  相似文献   

18.
关联规则是数据挖掘中的一个重要研究方向.经典的Apriori算法是一种最有影响的挖掘布尔型关联规则频繁项集的算法,但其并不适合挖掘近年来兴起的多维数据模型.在改进Apriori算法的基础上,提出了一种"二次剪枝"的算法,此算法适用于挖掘多维关联规则,并且在一定程度上提高了算法效率.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号