首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
Web日志挖掘技术应用研究   总被引:11,自引:2,他引:9  
随着Internet的迅速发展,Web在人们的日常生活和工作中的地位日益显著.Web日志挖掘就是通过对Web日志记录的挖掘,发现用户访问的Web页面的浏览模式,从而进一步分析和研究Web日志记录中的规律,改进Web站点的性能和组织结构,提供个性化服务.本文首先分析了Web日志的分布和特点,再对Web日志挖掘中的两个阶段即数据预处理和日志挖掘算法做了详细介绍,最后对Web日志挖掘技术做了展望.  相似文献   

2.
Web日志挖掘中的数据预处理技术   总被引:5,自引:0,他引:5  
用户访问网站,Web日志中会记录下大量的用户访问信息,通过挖掘这些日志数据可以获得相关页面、相似用户群体和用户访问模式等信息,Web日志挖掘对于优化网站结构、提供个性化服务和构建智能化网站具有重要作用.数据预处理是保证Web日志挖掘质量的重要基础,预处理主要包括数据清洗、用户识别、会话识别、路径补充和结果评价等工作.概述了数据预处理技术,重点介绍了目前常用的会话划分算法和评价标准,并实现了一个数据预处理系统.  相似文献   

3.
在电子商务网站中,根据客户的访问日志挖掘出有价值的信息,划分客户群体和发现潜在的客户,使网站可以提供个性化信息服务.Web日志挖掘是数据挖掘在Web页面上的应用,给出Web日志挖掘的步骤和方法,对Web日志挖掘工具进行分析,并应用到电子商务网站中,取得较好的效果.  相似文献   

4.
Web日志挖掘旨在使用数据挖掘技术从Web服务器日志文件中挖掘出有用的规律和模式,以此改进网站结构以及实现Web个性化服务。本文提出基于免疫聚类的Web日志挖掘算法,利用人工免疫系统的基本原理来进行用户聚类分析,从而发现相似客户群体、挖掘潜在客户。免疫聚类通过模拟免疫系统体液免疫应答的基本过程,提取出数据的基本特征,以此概括数据的分布特征,从而实现Web日志数据的无监督自组织聚类。通过在真实数据集上的实验证明了该算法的可行性和有效性。  相似文献   

5.
探讨围绕知识发现领域中较为宏观、较为重大的问题。首先,根据复杂类型数据(包括Web数据、多媒体数据、空间数据、时间序列数据等)所具有的非线性动力学性质和特征,采用模式(定义为Hilbert空间中的矢量)来定量地表征复杂类型数据的多变性及具有的不确定状态和行为,并用模式的变化来刻画其整体知识发现过程的发展和演变规律;其次,以知识发现系统内在机理的研究为基础,构造了复杂类型数据知识发现系统的总体结构模型——发现特征子空间模型DFSSM;最后,用基于Web的文本挖掘系统和基于图像信息(气象云图)的知识发现系统作为实例进行了验证,结果表明DFSSM方法对于非结构化的文本数据及图像数据类型的知识发现过程具有指导性作用。因此,该结构模型具有较好的实用性与普适性,有望拓展到其他复杂类型数据的知识发现过程中。  相似文献   

6.
本文针对Web日志挖掘问题的困难和现状,提出了一种Web日志预处理结果的框架页面筛选技术(Frame Page Filtering Technology以下简称FPFT)。传统的日志预处理技术并不能将框架页面(Frame Page以下简称FP)和子框架页面(Subset Frame Page以下简称SFP)作为一个整体考虑,结果导致FP和SFP大量出现在挖掘结果中,使得挖掘结果的兴趣性降低。为了消除FP和SFP带来的负面作用,本文提出日志预处理阶段的FPFT技术,以消除FP对挖掘算法的影响,发现用户真正感兴趣的挖掘结果。  相似文献   

7.
Web使用记录挖掘是采用数据挖掘技术对Web服务器上日志文件中的数据进行挖掘,以发现用户访问Web的方式及页面间存在的某种关联,从而可以为网站设计、提供网络个性化服务及其他电子商务活动提供决策依据.事务识别是Web使用记录挖掘前的一种数据预处理技术,本文介绍事务识别的基本方法,并给出一个最大前向引用序列事务识别新方法.  相似文献   

8.
基于web日志挖掘的数据预处理研究   总被引:2,自引:0,他引:2  
曹明  闪四清 《科技资讯》2007,1(4):103-105
Web日志信息的预处理是Web日志挖掘任务中的重要阶段,也是工作量较大的一部分.Web服务器上的数据是半结构化的,而且含有大量和挖掘无关的记录和冗余项.这就需要对其进行处理以得到适合挖掘的数据事务(Transaction)形式.Web日志预处理就是通过一系列的清洗、集成、转换等来得到合适的待挖掘数据.本文重点介绍了数据清理、用户识别、会话识别、路径补充、事务识别等过程.  相似文献   

9.
传统的关联规则挖掘技术是从包含一组事务记录的数据库中发现一些事务项目间关系的信息。本文的工作,是致力于将关联规则的概念引入到Web日志挖掘系统中,将用户的访问路径以关联规则的形式表现出来,其目的在于从用户访问超文本系统的行为中发现用户的访问模式。将超文本系统看成是一种有向加权图,经过对可信度和支持度的重新定义,使之适合于用来表示用户的访问路径,并引出复合关联规则挖掘算法。  相似文献   

10.
基于蚁群算法的用户导航模式挖掘的研究   总被引:1,自引:0,他引:1  
Web使用挖掘是将数据挖掘技术应用于Web日志数据,从而发现用户行为模式的过程;在电子商务的发展进程中,Web使用挖掘的重要性与日俱增;用户导航模式的挖掘是Web使用挖掘的一个重要研究领域,是优化Web站点框架设计的根本方法;该文首先介绍了用户导航模式挖掘的现状,然后探讨了蚁群算法用于用户导航模式挖掘的可行性,最后对应用的步骤提出了构想。  相似文献   

11.
Internet飞速发展在带给人们很多方便的同时,也出现了一个新问题,即如何从大量的Web日志数据中快速而方便的找到所需要的信息,Web日志挖掘是其关键技术之一.本文使用了RACE算法及使用长度分析实现了Web序列模式的日志挖掘,并进行了实例分析.  相似文献   

12.
基于Web使用挖掘的个性化站点研究   总被引:1,自引:0,他引:1  
针对用户特性向用户提供服务的个性化Web站点已经成为Web技术的研究热点.将数据挖掘技术应用于Web日志记录,来发现用户访问Web页面的模式,形成了Web使用挖掘.通过建立与更新用户模式库,个性化Web站点为用户的访问提供推荐.研究了Web使用挖掘技术,并对个性化Web站点的建立进行了探讨.  相似文献   

13.
Web用户访问模式挖掘   总被引:3,自引:0,他引:3  
随着网站内容的不断丰富和访问量的增加,网站结构变得越来越复杂,导致信息获取和推送都比较困难.将数据挖掘技术应用于用户访问模式,形成了Web访问模式挖掘.Web访问模式挖掘是从Web访问日志中挖掘有用的用户访问信息,据此可以形成关联规则、序列模式、聚类模式和分类模式等4类信息,这对于优化站点结构、为不同类别的用户提供个性化服务,有效地实现信息获取和信息推送是非常必要的.Web访问模式挖掘是目前数据挖掘领域的一个重要研究课题,结合研究工作,从概念、方法、任务、过程、应用及面临的挑战等方面对其进行了较详细的评述.  相似文献   

14.
基于Web的数据挖掘应用模式研究   总被引:8,自引:0,他引:8  
如何对Web上的海量信息进行高效的应用 ,使之能做到信息处理的智能化、个性化、自动化 ,是当今数据挖掘技术的最重要的应用。本文从分析Web上数据信息的特点入手 ,研究面向Web的数据挖掘需解决的主要问题 ,提出了一种基于Web数据挖掘的应用模式框架 ,并着重从功能的角度介绍了Web数据挖掘的演进过程。  相似文献   

15.
Web日志挖掘是Web使用挖掘一个最重要研究领域,数据预处理是Web日志挖掘中的关键技术之一。论述了数据预处理各主要步骤的方法和技术,重点研究了用户识别和会话识别。  相似文献   

16.
基于Web日志的数据挖掘过程   总被引:1,自引:0,他引:1  
因特网的飞速发展带来了巨大的信息量,如何使用Web日志挖掘技术实现网站优化是目前研究的热门.通过介绍Web日志挖掘的概念,阐述了Web日志挖掘的过程:数据收集、数据预处理、模式识别、实际应用,说明了如何实现网站的优化,提高用户的访问率和访问速度.  相似文献   

17.
数据中台是一种利用数据技术为客户提供高效服务的模式.日志是数据中台记录系统运行状态的一种方式,它可以为故障诊断、性能优化、系统安全等任务提供支持,分析日志中的信息对中台日常运维具有重要意义.日志解析是日志挖掘的重要步骤,它将非结构化的日志文本转换为结构化的数据.综述了日志解析算法和评估方法,分析了工业界和学术界的解决方案,总结了日志解析算法的主要类别和特点,比较了不同算法在不同数据集上的性能和效果.发现日志解析算法缺乏统一的标准和数据集,导致结果难以对比和验证.针对这种情况,对未来的研究方向提出建议,应关注建立统一的评估指标和日志数据集,促进工业界和学术界的交流,以提高日志解析算法的适用性和可靠性,对日志解析领域的研究具有参考价值.  相似文献   

18.
为了降低Web日志频繁序列模式挖掘误差,提出基于支持向量机的Web日志频繁序列模式挖掘方法.构建Web日志频繁序列模式检测序列,采用自相关特征分布式融合方法进行序列重组,提取序列模式的统计特征量,对其特征分布值进行信息融合.建立Web日志频繁序列模式融合式调度模型,采用支持向量机分析方法进行Web日志频繁序列模式挖掘的...  相似文献   

19.
介绍了Web日志挖掘过程,对Web日志挖掘结果对改进电子商务的作用进行了分析,从应用的角度将Web日志挖掘技术与电子商务结合进行探讨。  相似文献   

20.
从Web上异质的、非结构化的数据中发现有用的知识或者模式是目前数据挖掘研究中的一个重要内容。Web挖掘就是从Web文档和Web活动中抽取感兴趣的、潜在的有用模式和隐藏的信息。介绍了Web挖掘基本情况,在此基础上对基于Web的文本挖掘进行了分析研究,给出了一个基于Web的文本挖掘的结构模型图。重点介绍了网页聚类算法,实现了远程教学的按需学习和因材施教的要求。提出了一个基于Web挖掘的智能化、个性化的现代远程教育系统结构模型。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号