首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到17条相似文献,搜索用时 62 毫秒
1.
基于协作过滤的Web日志数据预处理研究   总被引:2,自引:0,他引:2  
协作过滤是当今应用较为成功的个性化服务技术,Web日志可以为个性化服务技术提供重要的数据源,只要对日志数据进行高效预处理,就能提高协作过滤算法有效性和个性化服务质量。结合实际日志数据的处理,给出了基于协作过滤的Web日志数据预处理过程结构图和一种可行的数据预处理方法,该方法不仅可以提供更加干净、规则的数据源,而且在用户兴趣度量方面,弥补了以往诸多兴趣度量方法的不足,为协作过滤算法提供了更加准确的数据支持。  相似文献   

2.
Web日志挖掘是Web使用挖掘一个最重要研究领域,数据预处理是Web日志挖掘中的关键技术之一。论述了数据预处理各主要步骤的方法和技术,重点研究了用户识别和会话识别。  相似文献   

3.
基于日志定制的Web使用数据挖掘预处理研究   总被引:4,自引:0,他引:4  
Web使用数据挖掘是为网站经营管理和结构调整提供决策支持的主要手段,其中的数据预处理工作关系到挖掘的质量。本文首先针对各类数据分别定义其数据模型;然后根据服务器托管网站的实际工作环境,针对现有预处理工具仅仅局限于固定的日志格式的不足,提出了定制日志的思想,并结合前面定义的数据模型,详细描述了一个预处理工具原型WUMPA。  相似文献   

4.
Web日志分析中数据预处理的设计与实现   总被引:2,自引:0,他引:2  
Web日志数据预处理是Web日志分析的重要步骤,是通过Web日志数据获取有价值信息的基础和前提。本文介绍了对商务部主办的《中俄经贸合作网》大量Web日志数据进行预处理时所采用的算法和处理过程,即先将已知IP地址与物理地址的对应关系保存在HashMap中,然后综合运用折半与顺序查找算法,可显著减少查询次数,提高查询效率。实验结果证明这种方法具有好的应用效果,能极大改善数据预处理软件的性能。  相似文献   

5.
本文针对Web日志挖掘问题的困难和现状,提出了一种Web日志预处理结果的框架页面筛选技术(Frame Page Filtering Technology以下简称FPFT)。传统的日志预处理技术并不能将框架页面(Frame Page以下简称FP)和子框架页面(Subset Frame Page以下简称SFP)作为一个整体考虑,结果导致FP和SFP大量出现在挖掘结果中,使得挖掘结果的兴趣性降低。为了消除FP和SFP带来的负面作用,本文提出日志预处理阶段的FPFT技术,以消除FP对挖掘算法的影响,发现用户真正感兴趣的挖掘结果。  相似文献   

6.
许艳丹 《中国西部科技》2011,10(4):28-29,15
会话识别是Web日志挖掘的关键步骤,会话识别的质量直接影响后续挖掘的准确性。本文分析了Web日志挖掘的数据预处理过程中的三种会话识别算法,最终选用时间阈值法对安徽国防科技职业学院服务器日志文件进行会话识别。  相似文献   

7.
Web日志挖掘中的数据预处理技术   总被引:5,自引:0,他引:5  
用户访问网站,Web日志中会记录下大量的用户访问信息,通过挖掘这些日志数据可以获得相关页面、相似用户群体和用户访问模式等信息,Web日志挖掘对于优化网站结构、提供个性化服务和构建智能化网站具有重要作用.数据预处理是保证Web日志挖掘质量的重要基础,预处理主要包括数据清洗、用户识别、会话识别、路径补充和结果评价等工作.概述了数据预处理技术,重点介绍了目前常用的会话划分算法和评价标准,并实现了一个数据预处理系统.  相似文献   

8.
提出使用XML文件的方法存储不同Web日志的格式,采用一个通用的方法分析原始的Web日志,并对日志做预处理、产生Web日志挖掘系统所需的数据,从而使Web日志挖掘更快速和准确。  相似文献   

9.
陈红丽 《科学技术与工程》2012,12(8):1928-1930,1935
数据预处理在Web日志挖掘过程中起着至关重要的作用,直接影响日志挖掘的质量和结果。 文中分析了数据预处理的主要过程,并用站点首页结合动态时间阈值的方法对会话识别进行了改进。实验结果表明, 改进后的会话识别方法能更有效的识别出用户的真实会话。  相似文献   

10.
Web日志挖掘技术应用研究   总被引:9,自引:2,他引:9  
随着Internet的迅速发展,Web在人们的日常生活和工作中的地位日益显著.Web日志挖掘就是通过对Web日志记录的挖掘,发现用户访问的Web页面的浏览模式,从而进一步分析和研究Web日志记录中的规律,改进Web站点的性能和组织结构,提供个性化服务.本文首先分析了Web日志的分布和特点,再对Web日志挖掘中的两个阶段即数据预处理和日志挖掘算法做了详细介绍,最后对Web日志挖掘技术做了展望.  相似文献   

11.
随着网络技术的发展、网络上信息量的不断增多以及电子商务的普及,协作过滤得到了广泛的应用。在对协作过滤信息推荐技术基本思想、算法分类等相关内容概述的基础上,总结了其当前存在的3个方面的主要问题:冷启动、数据高维稀疏、以及算法的可伸缩性,同时分析了当前国际、国内的研究进展情况,对主要的方法、技术等进行了扼要的概述与总结。对推荐算法中相似性度量方法、预测评分的策略、推荐质量的度量标准、未来可能的研究方向等分别进行了论述。  相似文献   

12.
对协同过滤算法中用户相似性计算方面进行优化,在计算用户相似性的公式中添加用户兴趣偏差度作为权重,以提高相似性计算的准确性.通过实验对改进的算法进行了验证,结果表明改进的算法提高了推荐系统的准确度.  相似文献   

13.
针对传统协同过滤算法存在的数据稀疏性和推荐范围问题,提出一种混合协同过滤推荐方法.该方法将两种传统算法结合,并综合考虑了项目标签属性等信息.首先利用基于项目的协同过滤算法生成预测评分,并替换原始用户-项目评分矩阵中的零值.其次利用基于用户的协同过滤算法计算填充后矩阵的用户相似度,以及预测评分并产生最终推荐.最后基于MovieLens数据集实验证明,该方法能够有效提高推荐精度,扩大推荐范围.  相似文献   

14.
通过分析现有的协作过滤技术,提出了基于矩阵聚类的协作过滤算法,把矩阵聚类算法和协作过滤相结合,自动划分原始用户———资源评分矩阵,依据划分后的子数据矩阵生成推荐结果.实验结果表明,提出的基于矩阵聚类的协作过滤算法优于传统协作过滤算法,减少了近邻搜索范围,提高了算法的推荐精度.  相似文献   

15.
张俐 《科学技术与工程》2019,19(16):174-179
相似度计算模型是协同过滤技术的核心,相似度模型的好坏直接关系到近邻用户推荐的准确性。通过用户项目评分数据集局部相似性与全局相关性分析,提出相似性度量改进模型,而改进后模型用MovieLens100K数据集实验验证,通过均方根误差、平均绝对误差和召回率三个实验结果分析。该算法可有效地提高推荐预测评分和推荐项目的准确率。  相似文献   

16.
基于内存的协作过滤算法主要利用用户对某站点项目的评分,计算2个用户之间的相似性,但该方法可扩展性差.基于模型的协作过滤算法通过训练数据预先计算出预测模型,弥补了上述方法的不足,但该模型没有考虑到个体的差异而限制了推荐的性能.在总结现有2种算法特点的基础上,提出一种新颖的协作过滤框架,它先从训练集中产生聚类,并以此为基础进行邻居预选择,再在预选择的邻居集合上使用基于内存的协作过滤算法.实验结果表明,该方法不仅提高了计算的效率,而且也提高了推荐的质量.  相似文献   

17.
协同过滤算法研究正面临两大挑战:一是提高推荐系统的质量,尤其是高维稀疏数据系统的推荐质量;二是提高算法的可伸缩性。为了解决该问题,笔者提出了一个基于用户近邻和项目近邻的协同过滤改进算法。为了提高系统在线推荐性能,该算法分2步:1)线下的相似度计算和近邻计算;2)在线预测。通过对N个用户近邻和N个项目近邻的有效结合,该算法在线计算的空间复杂度为O(N)且具有较好的可伸缩性。实验表明,与经典的Pearson协同过滤算法相比,该算法不仅提高了推荐性能,而且也适用于高维稀疏数据系统。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号