首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
在WUM(Web Usage Mining)中挖掘序列模式的背景下,提出了一种基于server session约束的序列模式增长挖掘算法.首先,为了更好地从网站服务器日志文件中挖掘模式和发现知识,提出了一种基于server session的服务器日志文件格式.同时,引入基于server session的约束概念,利用其能够减少初始序列模式和候选项集大小的特点来减少每次扫描后缀数据库的规模,再从预处理后的日志文件中挖掘WUM的频繁访问路径的序列模式.最后通过实验证明了算法的有效性和优越性.  相似文献   

2.
Web用户访问模式挖掘   总被引:3,自引:0,他引:3  
随着网站内容的不断丰富和访问量的增加,网站结构变得越来越复杂,导致信息获取和推送都比较困难.将数据挖掘技术应用于用户访问模式,形成了Web访问模式挖掘.Web访问模式挖掘是从Web访问日志中挖掘有用的用户访问信息,据此可以形成关联规则、序列模式、聚类模式和分类模式等4类信息,这对于优化站点结构、为不同类别的用户提供个性化服务,有效地实现信息获取和信息推送是非常必要的.Web访问模式挖掘是目前数据挖掘领域的一个重要研究课题,结合研究工作,从概念、方法、任务、过程、应用及面临的挑战等方面对其进行了较详细的评述.  相似文献   

3.
Web日志挖掘改进网站结构的研究   总被引:1,自引:0,他引:1  
Web日志挖掘是目前Web挖掘研究的一个热点课题.针对Web日志挖掘中存在的问题,研究和分析了一个基于网站访问矩阵的路径挖掘算法.在此基础上设计和实现了一个Web日志挖掘系统(WLMS),通过发现用户访问的最优路径和网站访问的统计结果,改进网站性能和组织结构,提高用户查找信息的质量和效率.  相似文献   

4.
介绍了Web挖掘模式在电子商务中的四大应用方向,建立面向电子商务的Web挖掘应用系统模型,并提出一种改进站点设计的算法,实践证明,通过该方法可以改进网站的设计和布局,方便用户访问站点,为用户提供方便、快捷的服务,实现为客户的个性化服务。  相似文献   

5.
考虑到Web访问数据的动态特性,给出了一个从Web访问日志历史演变中挖掘频繁波动的Web访问模式的方法.首先采用无序树结构表示用户历史访问页面序列集合,然后给出了频繁波动Web访问模式的详细定义以及挖掘算法描述,最后,根据数据集中访问序列的大小和数量变化对于算法扩展性和性能的影响进行了实验.结果表明,该算法具备良好扩展性的同时,能够比较高效地提取出频繁波动的Web访问模式.  相似文献   

6.
大型网站为了提高访问效率,通常建立多个镜像站点,这导致获取网站全局的用户访问模式知识变得困难.该文提出一种分布式Web日志挖掘模型DWLMS,并以路径分析技术为例,提出了基于DWLMS的局部频繁路的更新算法LFP和全局频繁路径的更新算法GFP,解决了Web访问信息的异地存储、实时增长、分布式算法通讯量等因素给模式分析过程带来的困难.对提出的算法进行了实现和实际日志数据的测试,结果证明了算法的有效性.  相似文献   

7.
邹丽霞 《河南科学》2010,28(9):1125-1129
对传统的关联规则挖掘算法FP-Growth方法进行改进,提出FP-Mine算法,并应用该算法对Web日志进行挖掘,探寻用户访问站点页面之间的关联规则,来帮助管理员改善站点的设计和企业改进市场商务决策.实验结果证明FP-Mine算法在生成频繁项集及关联规则的过程中,只需存储i-size和(i+1)-size频繁项集的节点的Freq-Set-Tree,且立即在其之上生成规则,所以缩短规则生成的时间,提高规则生成效率,同时释放i-size项集的节点,有效地节省内存空间.  相似文献   

8.
Web日志挖掘中的数据预处理技术   总被引:5,自引:0,他引:5  
用户访问网站,Web日志中会记录下大量的用户访问信息,通过挖掘这些日志数据可以获得相关页面、相似用户群体和用户访问模式等信息,Web日志挖掘对于优化网站结构、提供个性化服务和构建智能化网站具有重要作用.数据预处理是保证Web日志挖掘质量的重要基础,预处理主要包括数据清洗、用户识别、会话识别、路径补充和结果评价等工作.概述了数据预处理技术,重点介绍了目前常用的会话划分算法和评价标准,并实现了一个数据预处理系统.  相似文献   

9.
基于改进FP-树挖掘最大频繁模式   总被引:4,自引:1,他引:3  
由于挖掘密集型数据的频繁模式完全集非常困难 ,因而改进了传统的FP -树结构并提出了一种基于改进FP -树的最大频繁模式挖掘算法IFP -MAX ;通过引入后缀子树的概念 ,在挖掘过程中不用生成最大频繁模式候选集 ,大大提高了算法的时空效率。实验表明 ,IFP -MAX的挖掘速度比Miafia和GenMax快得多  相似文献   

10.
提出一种基于改进后缀树与交互聚类思想相结合的算法ISTC算法, 通过改造传统后缀树结构实现了对文档标题和摘要的层次化聚类, 同时用交互聚类的方式替代了传统的递归算法. ISTC算法具有语言无关性, 不仅适用于基于单词的西方文字, 而且可以在不引入词典分词技术的情况下有效地处理基于单字的中文字符. 在此算法基础上, 设计并实现了基于改进后缀树算法的交互聚类引擎, 在不同的网络环境下对其 进行了系统测试, 并与其他元搜索引擎进行了对比. 实验结果表明, 使用改进后缀树算法进 行实时交互式聚类是可行的.  相似文献   

11.
频繁项目集挖掘用于发现项目之间的关联规则.为了高效求解面向大数据的频繁项目集,本文提出一种新的基于FP_Growth的频繁项目集并行挖掘算法NPFP_Growth(New Parallel algorithm based on FP_Growth),该算法对频繁模式树的存储结构进行改进,基于Map/Reduce并行计算模型,利用HDFS实现数据存储,在各自计算节点上构造局部频繁模式树,求解该局部频繁模式树中每个分支的最长全局频繁项目集;对于全局非频繁项目集,计算其支持数,发送至相应计算节点进行支持度统计,从而以较为简单的算法实现频繁项目集并行挖掘.实验表明,NPFP_Growth算法具有较高的计算效率和良好的可伸缩性.  相似文献   

12.
一种从Web日志中挖掘访问模式的新算法   总被引:5,自引:0,他引:5  
提出了一种用于从Web日志中高效挖掘Web访问模式的新算法.设计了一个新的数据结构WAS树(Web Access Sequence树)来记录Web访问序列和它的计数,避免冗长的支持度计算;开发出一个高效的递归算法,从WAS树中枚举出所有的访问模式,最后对算法的性能进行了分析并给出试验数据加以佐证.这个算法的特点是不需要产生候选模式而直接挖掘出所有的访问模式。  相似文献   

13.
基于广义后缀树的事件序列频繁情节挖掘算法   总被引:1,自引:0,他引:1  
为了有效地挖掘事件序列频繁情节,提出了一种广义后缀树结构发现和存储频繁情节. 此结构利用广义后缀概念并且树中只包含频繁情节结点,用频繁情节发生列表逐层构建的方法提高了建树效率. 该方法充分利用了事件序列的有序特点,可用于发现各类频繁情节. 实验结果表明该算法性能优于Apriori-like频繁情节发现算法.  相似文献   

14.
分布式全局频繁项目集的快速挖掘方法   总被引:8,自引:1,他引:8  
针对传统的分布式全局频繁项目集挖掘算法存在大量的候选项目集,且求全局频繁项目集的网络通信代价过高等问题,提出了一种分布式数据库的全局频繁项目集快速挖掘算法(FDMA).该算法改进了频繁模式树(FP-树)的结构,将双向FP-树改为单向,每个节点只保留指向父结点的指针,减少了指针数,由此可节省1/3的树空间;同时通过传送用3个很小的数组表示的被约束子树,在此挖掘全局频繁项目集的过程中不再生成大量候选项目集或条件FP-树,从而减小了网络通信量,提高了挖掘效率.实验表明,所提算法的挖掘速度比传统的分布式数据库数据挖掘算法至少提高了1倍之多,随着数据库规模的增大,它的扩展性将更好.  相似文献   

15.
为在Web日志数据中挖掘关联规则以指导信息无障碍网站的设计与开发, 针对大量用户对网站页面URL(Uniform Resoure Locator)的访问频率等信息, 通过Apriori算法实
现数据挖掘, 以寻找用户访问页面之间的关联规则。根据3次点击原则及网站结构设计的特点, 对Apriori 算法网页超链接挖掘的过程进行了改进, 频繁项集最多只需找出所有3
-项集即可。算法实现过程表明, 该方法可有效降低算法的时间复杂度, 能通过对关联规则的分析确定用户感兴趣的网页类型, 找出用户所访问网页之间的链接关系。  相似文献   

16.
现有的Web日志频繁访问路径挖掘算法往往不能在追求时间效率的同时准确挖掘出符合用户浏览顺序的频繁路径.提出了有效挖掘Web日志中频繁访问路径的算法,将事务数据库转换为Web访问路径树,根据支持度进行剪枝构造最长前缀频繁子路径树,然后进行频繁路径挖掘,实验证实了此方法的有效性,并分析了支持度设置对频繁路径生成的影响.  相似文献   

17.
用户在一个网站的访问行为反映了用户特定的兴趣,本文提出了一种用户访问模式的聚类算法.利用传统的Leader算法只扫描数据集一遍的优点,以及粗糙理论在处理含有不确定信息问题上的优势,给出了结合粗糙理论的改进Leader算法对用户存取模式进行聚类方法.通过一系列的实验分析,结果表明,该算法在可承受的计算时间内可对web日志中的用户存取模式进行有效聚类.聚类结果可应用于山西师范大学网站,对相应用户进行分析,给出个性化的服务等.  相似文献   

18.
在分析类Apriori算法存在效率瓶颈的基础上,提出了一个高效改进算法——基于分类树的关联规则挖掘算法.该算法只需要两次访问数据库,把数据库中的数据利用分类树来存储,减少了访问数据库的次数;并且由分类树的全部或部分来求得频繁项目集,减少了求频繁项目集的比较次数.此算法通过结合Apriori和FP—tree两种算法来提高挖掘效率,降低了挖掘算法的时间复杂度和空间复杂度.通过多次试验证明该算法比Apriori及其改良算法的挖掘效率高2到8倍.  相似文献   

19.
Web数据挖掘应用于电子商务系统,已成为数据挖掘热点研究.Web服务器日志中保存了大量的用户访问电子商务系统的记录,运用数据挖掘技术对数据进行处理和分析,构造频繁访问路径挖掘算法,获取用户的购物特性和习惯,达到向每个用户推荐产品的目的,进一步指导电子商务网站建设.  相似文献   

20.
针对无线体域网数据云存储的安全问题,设计了基于区块链的访问控制框架,框架通过区块链技术与数字签名相结合控制用户的访问请求;通过区块存储访问请求及其数字签名,利用改进的Raft算法保证节点间的区块链一致.其次,设计了有序数组和Merkle树相结合的方式存储数据,哈希表和Merkle树相结合的方式存储数据的访问请求;再次,提出针对无线体域网数据的完整性验证方案.最后,对区块链的一致性、数据完整性验证方案进行实验.结果表明,提出的框架能使各用户节点协同对访问请求进行控制,并且均能验证数据的完整性.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号