首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 109 毫秒
1.
Web日志挖掘中数据预处理技术研究   总被引:2,自引:0,他引:2  
Web日志挖掘的基本思想是将数据挖掘技术应用于Web日志数据源。在数据挖掘研究领域中,数据预处理起着至关重要的作用。Web日志挖掘的数据源最主要的是Web日志,根据Web日志的特点,在预处理过程中的会话识别阶段给出一种基于过滤框架网页与页面访问时间阈值相结合的会话识别方法,实验数据验证说明该方法可以显著地提高Web日志挖掘结果的兴趣性。  相似文献   

2.
本文针对Web日志挖掘问题的困难和现状,提出了一种Web日志预处理结果的框架页面筛选技术(Frame Page Filtering Technology以下简称FPFT)。传统的日志预处理技术并不能将框架页面(Frame Page以下简称FP)和子框架页面(Subset Frame Page以下简称SFP)作为一个整体考虑,结果导致FP和SFP大量出现在挖掘结果中,使得挖掘结果的兴趣性降低。为了消除FP和SFP带来的负面作用,本文提出日志预处理阶段的FPFT技术,以消除FP对挖掘算法的影响,发现用户真正感兴趣的挖掘结果。  相似文献   

3.
如何对网上用户分类是W eb挖掘领域应用最多的任务之一,本文尝试将关联分类方法应用到W eb用户分类模式的挖掘.我们首先对服务器日志文件进行预处理,形成一个访问事务集;然后对该事务集进行数据挖掘,找出所有满足最小信任度和支持度的类别关联规则;最后,我们用这些类别关联规则去预测用户的兴趣.实验证明此方法是有效的.  相似文献   

4.
日志挖掘是Web数据挖掘的一个重要研究领域.本文首先介绍了Web日志挖掘的方法,然后将Web日志挖掘方法运用于一个学校的网站中,结合Apriori算法对预处理之后的数据进行挖掘,获取页面之间的关联关系,对网站结构的优化提供一定的依据.  相似文献   

5.
Web日志挖掘技术应用研究   总被引:9,自引:2,他引:9  
随着Internet的迅速发展,Web在人们的日常生活和工作中的地位日益显著.Web日志挖掘就是通过对Web日志记录的挖掘,发现用户访问的Web页面的浏览模式,从而进一步分析和研究Web日志记录中的规律,改进Web站点的性能和组织结构,提供个性化服务.本文首先分析了Web日志的分布和特点,再对Web日志挖掘中的两个阶段即数据预处理和日志挖掘算法做了详细介绍,最后对Web日志挖掘技术做了展望.  相似文献   

6.
协作过滤是当今应用较为成功的个性化服务技术,Web日志可以为个性化服务技术提供重要的数据源,只要对日志数据进行高效预处理,就能提高协作过滤算法有效性和个性化服务质量。结合实际日志数据的处理,给出了基于协作过滤的Web日志数据预处理过程结构图和一种可行的数据预处理方法,该方法不仅可以提供更加干净、规则的数据源,而且在用户兴趣度量方面,弥补了以往诸多兴趣度量方法的不足,为协作过滤算法提供了更加准确的数据支持。  相似文献   

7.
基于协作过滤的Web日志数据预处理研究   总被引:2,自引:0,他引:2  
协作过滤是当今应用较为成功的个性化服务技术,Web日志可以为个性化服务技术提供重要的数据源,只要对日志数据进行高效预处理,就能提高协作过滤算法有效性和个性化服务质量。结合实际日志数据的处理,给出了基于协作过滤的Web日志数据预处理过程结构图和一种可行的数据预处理方法,该方法不仅可以提供更加干净、规则的数据源,而且在用户兴趣度量方面,弥补了以往诸多兴趣度量方法的不足,为协作过滤算法提供了更加准确的数据支持。  相似文献   

8.
在分析、总结现代远程教育特征和W eb挖掘技术的基础上,讨论了W eb使用挖掘在个性化远程教育中应用,并提出一个基于W eb使用挖掘的个性化远程教育模型.  相似文献   

9.
目的针对传统W eb信息检索模型的不足,提出一种基于语义的W eb信息检索模型。方法模糊相关技术、Ontology及W eb挖掘技术。结果建立了一种五元组的语义信息检索模型,并给出了该模型的关键实现算法。结论利用此模型实现的信息检索系统进行信息检索时具有更高的准确率和查全率。  相似文献   

10.
提出运用数据挖掘技术,通过对教学网站的W eb日志进行挖掘,得到学生使用教学网站的模式。并根据挖掘得到的模式和规则,改进教学网站的建设,提高教学网站的使用价值。  相似文献   

11.
提出了推荐模型中的关联规则挖掘方法的改进,给出了自定义的页面权值的定义,并改进了基于关联图的关联规则挖掘算法,将页面权值应用于关联规则的挖掘中。此算法是利用Web日志中经过预处理后得到的数据进行规则挖掘,将处理后的数据应用正态分布函数来得到页面权值。用页面权值重新计算支持度,最后将得到的支持度应用于改进的规则挖掘算法中,形成一种基于权值的关联图的关联规则算法。  相似文献   

12.
A new method for Web users fuzzy clustering based on analysis of user interest characteristic is proposed in this article. The method first defines page fuzzy categories according to the links on the index page of the site. then computes fuzzy degree of cross page through aggregating on data of Web tog. After that, by using fuzzy comprehensive evaluation method, the method constructs user interest vectors according to page viewing times and frequency of hits. and derives the fuzzy similarity matrix from the interest vectors for the Web users. Finally. it gets the clustering result through the fuzzy clustering method. The experimental results show the effectiveness of the method.  相似文献   

13.
 为充分利用移动搜索和政府网站的特点, 发挥Hadoop 处理大数据的优势, 设计开发了日志挖掘和个性化定制系统。利用Flume 和HDFS 实现了海量日志的汇总和存储, 为日志挖掘提供了数据源和调用接口;采用MapReduce 实现了对日志的高效分析, 利用搜索结果网页的标签和导航, 建立了网页向量空间模型和用户兴趣模型;根据用户兴趣模型, 使用聚类分析中的K-means算法将有相似兴趣的用户组成兴趣组;通过计算搜索结果网页到用户所在兴趣组的距离, 判断用户对该网页是否感兴趣, 据此调整搜索结果的排序, 实现个性化搜索和推送功能。  相似文献   

14.
随着移动计算的发展,通过手持设备存取Web将越来越普遍。手持设备的限制和多样性要求同一Web页面具有不同的表现形式,因此需要对Web页面进行选择、拆分等自适应操作以满足手持设备能力的限制。为了提高自适应页面的质量,提出一个两阶段页面拆分算法。该算法在保证自适应页面正确性的基础上,提出量化评估函数以保证每个小页面的语义连贯性和最优的资源利用率,从而增加页面的可用性。该算法已应用于多个样本页面,结果表明拆分结果具有较好的可用性。  相似文献   

15.
针对传统单纯聚类算法实现网页推荐精确度欠缺的问题, 提出一种基于Web日志挖掘的个性化网页推荐模型, 并实现了相应的网页推荐算法, 算法结合聚类分析和关联规则挖掘, 能有效实现网页推荐. 实验结果表明, 在保障网页页面推荐覆盖率的条件下, 该方法有较高的精确度、 有效性和实用性.  相似文献   

16.
基于兴趣相似性的Web用户聚类   总被引:8,自引:0,他引:8  
按照访问兴趣对用户进行聚类分析是Web挖掘的一项重要内容. 在用户访问兴趣度量中综合考虑网页内容和浏览路径因素;在聚类分析中,依据访问兴趣定义提出新的相似度计算方法. 利用传递闭包法对用户进行聚类. 算法可以提高用户聚类的准确性,试验结果验证此算法是有效的.  相似文献   

17.
基于Web的新闻文本分类技术的研究   总被引:1,自引:0,他引:1  
从Web新闻网页中挖掘出有用的知识是当前研究的热点问题,将Web新闻网页进行解析,在此基础上进行Web新闻文本分类处理,可在一定程度上解决此问题.针对Web新闻网页的结构特点,提出了基于Web的新闻文本分类系统的实现框架.实验结果表明,基于KNN算法的分类系统具有较好的分类效果.  相似文献   

18.
通过观察网站呈现网页的规律及网页本身的结构特点,提出基于URL类型及网页链接变化规律的入口页面识别算法,优先抓取入口页面.在实际应用中,取得了较好的更新效果.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号