首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 125 毫秒
1.
陈红丽 《科学技术与工程》2012,12(8):1928-1930,1935
数据预处理在Web日志挖掘过程中起着至关重要的作用,直接影响日志挖掘的质量和结果。 文中分析了数据预处理的主要过程,并用站点首页结合动态时间阈值的方法对会话识别进行了改进。实验结果表明, 改进后的会话识别方法能更有效的识别出用户的真实会话。  相似文献   

2.
基于模糊聚类的网站用户分类   总被引:3,自引:0,他引:3  
文章给出了模糊聚类在网站用户分析中的应用。首先对web日志挖掘作了系统的介绍,包括对服务器上日志结构的分析和对数据预处理过程的描述,然后讨论了用户模糊聚类的算法,并用实例证明了模糊聚类在web用户聚类应用中的可行性。为web站点的个性化服务提供了基础。  相似文献   

3.
互联网技术的迅速发展,使得web承载的信息量呈现出爆炸式增长的趋势,因此web日志的数据量也越来愈大.如何存储、处理大规模数据就成了新的挑战.云计算技术的出现,为这类问题的解决提供了一种思路.云计算将数据通过网络分布到集群的各个计算节点上,从而完成大规模数据的存储和运算.Hadoop是一个用于构建云计算平台的流行的开源...  相似文献   

4.
web日志挖掘是web挖掘中的一个重要的分支,通过web日志挖掘可以获得用户的访问模式和用户感兴趣的信息及关注的内容,从而为用户提供个性化的服务。另外通过对大量的web日志文件进行分析,可以获取大部分用户同时感兴趣的信息和内容,从而获得关联度高的网页,以便更好地优化和改善网站的布局。  相似文献   

5.
web日志挖掘是web挖掘中的一个重要的分支,通过web日志挖掘可以获得用户的访问模式和用户感兴趣的信息及关注的内容,从而为用户提供个性化的服务。另外通过对大量的web日志文件进行分析,可以获取大部分用户同时感兴趣的信息和内容,从而获得关联度高的网页,以便更好地优化和改善网站的布局。  相似文献   

6.
W eb日志挖掘是将数据挖掘技术应用到W eb服务器的日志中,发现web用户的行为模式.在介绍了典型的数据预处理技术的基础之上,指出Fram e页面降低了挖掘结果的兴趣性,并提出相应的解决方法-Fram e页面过滤算法消除其影响.通过实验数据对该算法进行验证,说明Fram e页面过滤算法可以显著地提高W eb日志挖掘结果的兴趣性.  相似文献   

7.
Web数据挖掘研究   总被引:2,自引:0,他引:2  
web数据挖掘是数据挖掘技术与web的结合,介绍了web数据数据的概念、web数据挖掘的分类以及web数据挖掘的应用问题。  相似文献   

8.
鉴于电子商务网站推荐系统的需要,将用户兴趣分为长期兴趣和短暂兴趣,并提出一种基于长期兴趣和短暂兴趣的用户偏好表示法.利用web服务器数据库的数据,采用无监督学习方法,对用户注册信息进行挖掘,提取出用户长期兴趣.基于向量映射,对web服务器日志上的用户使用记录数据和内容数据进行分析,提取用户短暂兴趣.通过用户反馈信息修正"粗糙"用户偏好文档,使得用户偏好文档更新得以实现.最后,应用了实证案例验证了该方法的合理性和有效性.  相似文献   

9.
Web日志分析中数据预处理的设计与实现   总被引:2,自引:0,他引:2  
Web日志数据预处理是Web日志分析的重要步骤,是通过Web日志数据获取有价值信息的基础和前提。本文介绍了对商务部主办的《中俄经贸合作网》大量Web日志数据进行预处理时所采用的算法和处理过程,即先将已知IP地址与物理地址的对应关系保存在HashMap中,然后综合运用折半与顺序查找算法,可显著减少查询次数,提高查询效率。实验结果证明这种方法具有好的应用效果,能极大改善数据预处理软件的性能。  相似文献   

10.
数字校园web应用安全问题研究   总被引:1,自引:0,他引:1  
B/S技术已经成为数字校园的主流技术,同时web应用也给数字校园的信息安全带来了新的挑战.文章分析了web应用常见的安全威胁,提出了数字校园web应用安全防护模型,最后对两种目前比较成熟的web应用安全评测技术进行了介绍.  相似文献   

11.
现有的Web日志频繁访问路径挖掘算法往往不能在追求时间效率的同时准确挖掘出符合用户浏览顺序的频繁路径.提出了有效挖掘Web日志中频繁访问路径的算法,将事务数据库转换为Web访问路径树,根据支持度进行剪枝构造最长前缀频繁子路径树,然后进行频繁路径挖掘,实验证实了此方法的有效性,并分析了支持度设置对频繁路径生成的影响.  相似文献   

12.
Internet的发展给传统的数据挖掘领域提出了很多新的研究课题.Web挖掘技术就是传统的数据挖掘技术与计算机网络技术的结合.Web使用记录挖掘是从日志文件中挖掘出有用的信息,这些信息可以帮助站点设计者设计站点和服务,有益于商业网站开展有针对性的电子商务活动.介绍了Web挖掘的概念和分类,说明了Web使用记录挖掘的过程和意义,并指出了Web使用记录挖掘的研究趋势.  相似文献   

13.
To satisfy the rapid growth of cloud technologies, a large number of web applications have been developed and deployed, and these applications are being run in clouds. Due to the scalability provided by clouds, a single web application may be concurrently visited by several millions or billions of users. Thus, the testing and performance evaluations of these applications are increasingly important. User model based evaluations can significantly reduce the manual work required, and can enable us to determine the performance of applications under real runtime environments. Hence, it has become one of the most popular evaluation methods in both industry and academia. Significant efforts have focused on building different kinds of models using mining web access logs, such as Markov models and Customer Behavior Model Graph (CBMG). This paper proposes a new kind of model, named the User Representation Model Graph (URMG), which is built based on CBMG. It uses an algorithm to refine CBMG and optimizes the evaluations execution process. Based on this model, an automatic testing and evaluation system for web applications is designed, implemented, and deployed in our test cloud, which is able to execute all of the analysis and testing operations using only web access logs. In our system, the error rate caused by random access to applications in the execution phase is also reduced, and the results show that the error rate of the evaluation that depends on URMG is 50% less than that which depends on CBMG.  相似文献   

14.
Web日志挖掘中数据预处理技术研究   总被引:2,自引:0,他引:2  
Web日志挖掘的基本思想是将数据挖掘技术应用于Web日志数据源。在数据挖掘研究领域中,数据预处理起着至关重要的作用。Web日志挖掘的数据源最主要的是Web日志,根据Web日志的特点,在预处理过程中的会话识别阶段给出一种基于过滤框架网页与页面访问时间阈值相结合的会话识别方法,实验数据验证说明该方法可以显著地提高Web日志挖掘结果的兴趣性。  相似文献   

15.
基于Web挖掘的用户个性化服务研究   总被引:1,自引:0,他引:1  
随着WWW的广泛应用及相应的Web技术的出现.使数据挖掘的研究进入了一个新的阶段。Web日志挖掘就是运用数据挖掘的思想来对服务器日志进行分析处理,解决网络用户的个性化服务问题。论文主要论述了一个更新的频繁路径集的Web挖掘算法在网络用户个性化服务中的应用。  相似文献   

16.
数据预处理是Web使用挖掘的第一阶段,完整的数据预处理过程包括数据净化、用户识别、会话识别、事务识别和路径补充五个环节.在每个环节中,首先给出了详细的过程定义,接着给出了每个环节的数据处理方法或算法,最后指出了未来研究方向.  相似文献   

17.
基于Web的数据挖掘应用模式研究   总被引:8,自引:0,他引:8  
如何对Web上的海量信息进行高效的应用 ,使之能做到信息处理的智能化、个性化、自动化 ,是当今数据挖掘技术的最重要的应用。本文从分析Web上数据信息的特点入手 ,研究面向Web的数据挖掘需解决的主要问题 ,提出了一种基于Web数据挖掘的应用模式框架 ,并着重从功能的角度介绍了Web数据挖掘的演进过程。  相似文献   

18.
指出了数据预处理在Web使用挖掘中的重要性,详细分析了Web使用挖掘数据预处理过程,在每个数据预处理的每个阶段给出了一些规则并针对这些规则设计和实现了相应的预处理算法.实验结果证明这些算法是有效的.  相似文献   

19.
基于FLAAT模糊的WEB挖掘算法   总被引:1,自引:0,他引:1  
为了挖掘出较完全的兴趣模式,提出一种新的结构类型——FLAAT,它可发现那些被忽略的用户浏览偏爱路径。同时引进模糊集来处理停留在网页上的时间,以形成语义术语使挖掘出的用户浏览偏爱路径更自然、更易理解。实验表明,该算法能准确地反映用户的浏览兴趣,且系统的可扩展性较好。  相似文献   

20.
基于Hadoop的校园网视频流量访问偏好分析   总被引:1,自引:0,他引:1  
针对传统视频用户访问日志的偏好分析方法存在数据客观性差和用户关联分析困难等问题,在传统偏好分析方法的基础上,面向互联网数据原始流量,提出一种基于主流大数据平台技术Hadoop的校园网视频用户访问偏好分析方案。该方案利用网络爬虫和深度包检测技术,对视频访问内容进行精细化识别,进而研究了校园网视频流量的访问偏好,并对比了MySQL和Hive的查询效率。结果表明,文化层次的差异导致了视频用户群体的不同需求,低成本硬件环境下对大数据的处理Hive更显健壮性。另外,该方案能稳定可靠地实现对校园网视频流量访问的偏好分析,捕捉用户网络舆情,制订定向营销方案并提供个性化视频推荐服务。经现网测试验证,设计的视频访问偏好分析方案达到了预期的效果。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号