共查询到20条相似文献,搜索用时 15 毫秒
1.
Web日志挖掘技术应用研究 总被引:9,自引:2,他引:9
吕佳 《重庆师范大学学报(自然科学版)》2006,23(4):39-44
随着Internet的迅速发展,Web在人们的日常生活和工作中的地位日益显著.Web日志挖掘就是通过对Web日志记录的挖掘,发现用户访问的Web页面的浏览模式,从而进一步分析和研究Web日志记录中的规律,改进Web站点的性能和组织结构,提供个性化服务.本文首先分析了Web日志的分布和特点,再对Web日志挖掘中的两个阶段即数据预处理和日志挖掘算法做了详细介绍,最后对Web日志挖掘技术做了展望. 相似文献
2.
会话识别是Web日志挖掘的关键步骤,会话识别的质量直接影响后续挖掘的准确性。本文分析了Web日志挖掘的数据预处理过程中的三种会话识别算法,最终选用时间阈值法对安徽国防科技职业学院服务器日志文件进行会话识别。 相似文献
3.
Web日志挖掘中的数据预处理技术 总被引:5,自引:0,他引:5
用户访问网站,Web日志中会记录下大量的用户访问信息,通过挖掘这些日志数据可以获得相关页面、相似用户群体和用户访问模式等信息,Web日志挖掘对于优化网站结构、提供个性化服务和构建智能化网站具有重要作用.数据预处理是保证Web日志挖掘质量的重要基础,预处理主要包括数据清洗、用户识别、会话识别、路径补充和结果评价等工作.概述了数据预处理技术,重点介绍了目前常用的会话划分算法和评价标准,并实现了一个数据预处理系统. 相似文献
4.
基于Web日志的数据挖掘过程 总被引:1,自引:0,他引:1
因特网的飞速发展带来了巨大的信息量,如何使用Web日志挖掘技术实现网站优化是目前研究的热门.通过介绍Web日志挖掘的概念,阐述了Web日志挖掘的过程:数据收集、数据预处理、模式识别、实际应用,说明了如何实现网站的优化,提高用户的访问率和访问速度. 相似文献
5.
针对采集自客户端的Web数据,提出了一种基于部分监督学习的数据预处理方法.首先分析了数据清理的主要任务和样本数据的基本特征,然后采用基于部分监督学习的方法完成数据清理工作.该方法有两个核心步骤:(1)基于规则的学习完成正例标注,即获得训练集中的正例;(2)建立SVM分类器完成测试集中的正例标注. 相似文献
6.
数据预处理在Web日志挖掘过程中起着至关重要的作用,直接影响日志挖掘的质量和结果。 文中分析了数据预处理的主要过程,并用站点首页结合动态时间阈值的方法对会话识别进行了改进。实验结果表明, 改进后的会话识别方法能更有效的识别出用户的真实会话。 相似文献
7.
随着我国教育信息化的持续发展与推进,各类学校已经积累了大量有价值的数据.由于过程中缺乏信息化总体建设规划,导致数据孤岛和数据碎片化现象严重、数据管理体系不完善、数据标准不统一等问题,造成数据价值不能有效利用.构建高校数据中台是当前急需解决的任务,数据中台具有聚合和治理各类数据的优势,并且能够将数据服务化,为用户提供高质... 相似文献
8.
近年来,随着信息技术快速发展,数据中台发展成为前端应用与后端数据之间的桥梁,为快速构建业务和服务、快速响应系统应用需求变化、解决业务和数据重复问题带来了有力支撑。在数据处理领域,数据中台为协作优化、效能提升、数据应用和共享提供了极其重要的能力复用平台。文章通过对市场监管工作中运用数据中台的目标和前景进行分析,探讨数据中台在市场监管中的价值体系。 相似文献
9.
10.
11.
本文针对Web日志挖掘问题的困难和现状,提出了一种Web日志预处理结果的框架页面筛选技术(Frame Page Filtering Technology以下简称FPFT)。传统的日志预处理技术并不能将框架页面(Frame Page以下简称FP)和子框架页面(Subset Frame Page以下简称SFP)作为一个整体考虑,结果导致FP和SFP大量出现在挖掘结果中,使得挖掘结果的兴趣性降低。为了消除FP和SFP带来的负面作用,本文提出日志预处理阶段的FPFT技术,以消除FP对挖掘算法的影响,发现用户真正感兴趣的挖掘结果。 相似文献
12.
Web日志挖掘是Web使用挖掘一个最重要研究领域,数据预处理是Web日志挖掘中的关键技术之一。论述了数据预处理各主要步骤的方法和技术,重点研究了用户识别和会话识别。 相似文献
13.
Web日志分析中数据预处理的设计与实现 总被引:2,自引:0,他引:2
Web日志数据预处理是Web日志分析的重要步骤,是通过Web日志数据获取有价值信息的基础和前提。本文介绍了对商务部主办的《中俄经贸合作网》大量Web日志数据进行预处理时所采用的算法和处理过程,即先将已知IP地址与物理地址的对应关系保存在HashMap中,然后综合运用折半与顺序查找算法,可显著减少查询次数,提高查询效率。实验结果证明这种方法具有好的应用效果,能极大改善数据预处理软件的性能。 相似文献
14.
基于web日志挖掘的数据预处理研究 总被引:2,自引:0,他引:2
Web日志信息的预处理是Web日志挖掘任务中的重要阶段,也是工作量较大的一部分.Web服务器上的数据是半结构化的,而且含有大量和挖掘无关的记录和冗余项.这就需要对其进行处理以得到适合挖掘的数据事务(Transaction)形式.Web日志预处理就是通过一系列的清洗、集成、转换等来得到合适的待挖掘数据.本文重点介绍了数据清理、用户识别、会话识别、路径补充、事务识别等过程. 相似文献
15.
一种基于引用日志文件的启发式会话识别算法 总被引:1,自引:0,他引:1
为了将服务器日志分割为多个独一无二的用户的一次访问序列,提出了一种基于引用日志文件的启发式会话识别算法,并给予很好的算法实现. 相似文献
16.
深入研究了数据挖掘中的模糊FCM算法,基于其缺点提出了一种改进的模糊均值聚类算法。并验证改进的FCM算法是有效并且是高效的。最后运用改进的FCM算法进行Web日志挖掘分析。 相似文献
17.
提出了一种重构网站结构的方法,并将此方法应用于Web日志挖掘的数据预处理中.实验表明,本方法能够更好地还原用户访问情景,为Web日志挖掘提供有效数据。 相似文献
18.
本文对数据挖掘技术在Web日志文件中的挖掘应用进行了探讨,并对Web日志挖掘的意义、步骤、数据、准备以及算法进行了归纳,旨在帮助网站管理者更好的管理Web站点,用户更能方便的从Web站点获得服务,提高Web的使用效率. 相似文献
19.
Web日志挖掘是Web数据挖掘中非常重要的一个研究领域和研究方向,首先介绍了Web日志挖掘的过程,然后介绍了关联规则及关联规则算法——FP-growth算法,最后将关联规则中的FP-growth算法应用在网上书店系统中,实现对客户数据的关联规则挖掘。 相似文献
20.
张德洪 《太原师范学院学报(自然科学版)》2010,9(4)
文章提出了在用户访问兴趣基础上的个性化推荐算法,适用于个人网页的建议.由于该方法侧重于考虑到用户的访问兴趣,它不需要用户注册信息和文件的概述,使网页的建议不会打扰用户. 相似文献