首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 921 毫秒
1.
基于协作过滤的Web日志数据预处理研究   总被引:2,自引:0,他引:2  
协作过滤是当今应用较为成功的个性化服务技术,Web日志可以为个性化服务技术提供重要的数据源,只要对日志数据进行高效预处理,就能提高协作过滤算法有效性和个性化服务质量。结合实际日志数据的处理,给出了基于协作过滤的Web日志数据预处理过程结构图和一种可行的数据预处理方法,该方法不仅可以提供更加干净、规则的数据源,而且在用户兴趣度量方面,弥补了以往诸多兴趣度量方法的不足,为协作过滤算法提供了更加准确的数据支持。  相似文献   

2.
Web日志挖掘技术应用研究   总被引:11,自引:2,他引:9  
随着Internet的迅速发展,Web在人们的日常生活和工作中的地位日益显著.Web日志挖掘就是通过对Web日志记录的挖掘,发现用户访问的Web页面的浏览模式,从而进一步分析和研究Web日志记录中的规律,改进Web站点的性能和组织结构,提供个性化服务.本文首先分析了Web日志的分布和特点,再对Web日志挖掘中的两个阶段即数据预处理和日志挖掘算法做了详细介绍,最后对Web日志挖掘技术做了展望.  相似文献   

3.
为解决审计日志信息利用不充分的问题,通过改进FP-Growth方法研究了审计日志关联规则,提出了基于相互关联规则的KAFP-Growth算法。将现有的审计日志与先进的数据挖掘分析技术结合,在详细研究Apriori算法、PCY算法和FP-Growth算法后,引入了重要属性的概念,对审计日志中的重要属性进行约束,减小了频繁项集,提高了计算性能。实验结果验证KAFP-Growth算法有效提高了审计日志的关联分析效率,相较于FP-Growth算法,在最小支持度相同的情况下,改进算法运行时间速度提升了49.3%,随着数据集规模的增大,改进算法运行时间可提升60%以上。  相似文献   

4.
介绍了一种针对非结构化信息数据库的恢复技术,初步设计了针对非结构化信息数据库的容错、故障恢复机制,设想采用非缓冲型日志设计,逻辑日志和物理日志相结合的形式,记录所有对数据库所作的操作及改变,降低日志记录的冗余以及对日志操作的复杂性,结合备份策略来提供各种故障的恢复服务.  相似文献   

5.
基于协作过滤的Web日志数据预处理研究   总被引:1,自引:1,他引:0  
协作过滤是当今应用较为成功的个性化服务技术,Web日志可以为个性化服务技术提供重要的数据源,只要对日志数据进行高效预处理,就能提高协作过滤算法有效性和个性化服务质量。结合实际日志数据的处理,给出了基于协作过滤的Web日志数据预处理过程结构图和一种可行的数据预处理方法,该方法不仅可以提供更加干净、规则的数据源,而且在用户兴趣度量方面,弥补了以往诸多兴趣度量方法的不足,为协作过滤算法提供了更加准确的数据支持。  相似文献   

6.
网站日志记录了用户的浏览行为,通过挖掘网站日志,可以分析用户行为,为优化网站结构提供有价值的数据.但是很多虚拟主机网站没有日志记录功能,这给日志挖掘带来了极大的不便.本文介绍一种生成日志的方法,并利用关联规则算法对其进行日志挖掘,发现用户的访问模式,帮助网站改进页面结构.  相似文献   

7.
Web日志挖掘及AprioriAll算法的改进   总被引:2,自引:0,他引:2  
阐述了利用数据挖掘技术对Web日志进行挖掘的可能性及其重要作用.通过用户维的引入,对已有的Apri-oriAll算法进行了改进,改进后的算法降低了原算法的时空复杂度,特别是在新算法中可以对Web日志数据按用户维进行切片,消除了原算法中的I/O相关性.这不仅使对Web日志数据进行的挖掘活动可以分散地进行,而且使多机连网分布式挖掘成为可能,同时还可以实现对Web日志的增量挖掘和动态挖掘.此外,该改进算法的特殊意义还在于它不仅可以将所有用户看作一个整体进行挖掘,而且还可以对不同的用户个体的行为进行独立地挖掘,使挖掘出的结果能够满足对用户个性化使用的需求.  相似文献   

8.
Web日志分析中数据预处理的设计与实现   总被引:2,自引:0,他引:2  
Web日志数据预处理是Web日志分析的重要步骤,是通过Web日志数据获取有价值信息的基础和前提。本文介绍了对商务部主办的《中俄经贸合作网》大量Web日志数据进行预处理时所采用的算法和处理过程,即先将已知IP地址与物理地址的对应关系保存在HashMap中,然后综合运用折半与顺序查找算法,可显著减少查询次数,提高查询效率。实验结果证明这种方法具有好的应用效果,能极大改善数据预处理软件的性能。  相似文献   

9.
提出一种基于云模型和粒子群优化算法相结合的数据特征选择算法,实现了特征属性的有效约简,降低了特征属性的冗余性,有助于提高日志数据的评估速度.实验结果表明,提出的FSA - CP算法在选择准确率和算法收敛性等方面具有一定优势.  相似文献   

10.
网站日志记录了用户的浏览行为,通过挖掘网站日志,可以分析用户行为,为优化网站结构提供有价值的数据.但是很多虚拟主机网站没有日志记录功能,这给日志挖掘带来了极大的不便.本文介绍一种生成日志的方法,并利用关联规则算法对其进行日志挖掘,发现用户的访问模式,帮助网站改进页面结构.  相似文献   

11.
系统日志被用作系统异常检测的主要数据源.现有的日志异常检测方法主要利用从历史日志中提取的日志事件数据构建检测模型,即假设日志数据随时间的推移其分布规律具有稳定性.然而,在实践中,日志数据往往包含以前未出现过的事件或序列.这种不稳定性有两种来源:1)日志发生了概念漂移;2)日志处理过程中引入了噪声.为缓解日志中出现的不稳定问题,设计了基于置信度协同多种算法的异常检测模型EBCAD(Ensemble-Based Conformal Anomaly Detection).首先,用统计量p值度量日志之间的不一致性,选择多个合适的集成算法作为不一致性度量函数计算不一致性得分进行协同检测;然后,设计了基于置信度的更新机制来缓解日志不稳定问题,将新日志的不一致性得分添加到已有得分集,更新日志异常检测的经验;最后,根据协同检测得到的置信度与预设置信水平大小来判断不稳定日志是否异常.实验结果表明,在HDFS日志数据集中,当不稳定数据注入率从5%增加到20%时,EBCAD模型的F1值仅从0.996降低到0.985;在BGL_100K日志数据集中,当不稳定数据注入率从5%增加到20%时,EBCAD的F1值仅从0.71降低到0.613.证明EBCAD在不稳定日志中可以有效检测到异常.  相似文献   

12.
日志挖掘是Web数据挖掘的一个重要研究领域.本文首先介绍了Web日志挖掘的方法,然后将Web日志挖掘方法运用于一个学校的网站中,结合Apriori算法对预处理之后的数据进行挖掘,获取页面之间的关联关系,对网站结构的优化提供一定的依据.  相似文献   

13.
高端容错计算机性能评测中,故障库的建立对故障模型、故障传播的研究有着非常重要的意义。该文设计并实现了1个高端容错计算机故障日志分析系统,旨在对日志文件进行故障的抽取和格式化后,构建故障库,并在此基础上运用数据挖掘技术进行关联分析,使系统能够解析尽可能多类型的日志文件。给出了日志分析系统的架构、工作流程及具体实现,并利用该系统对CMU的公共计算机故障集进行统计分析,在其故障库基础上引入极值理论,建立故障分布模型。利用该日志分析系统可建立对高端容错计算机的故障库,从而为相关评测指标的计算、故障模型的建立等提供有效的数据依据。  相似文献   

14.
迄今为止,基于日志的异常检测研究已经取得了很多进展,然而,在现实条件下仍旧存在两个挑战:(1) 是日志数据通常以“数据孤岛”形式储存在不同的服务器上,单一公司或组织的日志数据中异常样本量不足,且异常模式较为固定,很难通过这些数据训练出一个准确率高的检测模型. 为了解决这个问题,将不同来源的日志数据整合成更大的数据集可以提高模型训练的效果但可能会在数据传输过程中产生日志数据泄露问题;(2) 是不同应用系统类型的日志数据通常在结构和语法上存在差异,简单地整合并用于训练模型效果不佳. 基于以上原因,本文提出一种基于联邦迁移学习的日志异常检测模型训练框架LogFTL,该框架利用基于匹配平均的联邦学习算法,在保证客户端数据隐私安全的前提下于服务器聚合客户端的模型参数形成全局模型,再将全局模型分发给客户端并基于客户端的本地数据进行迁移学习,优化客户端本地模型针对自身常见异常行为的检测能力. 经过实验表明,本文提出的LogFTL框架在联邦学习场景下效果超过了传统的日志异常检测方法,同时也证明了该框架中迁移学习的效果.  相似文献   

15.
日志数据记录着丰富的信息,具有较高的实用价值,但在当今大数据时代环境下,数据量的陡增为日志数据的处理带来了挑战.为了有效地解决海量日志数据处理面临的瓶颈问题,本文整合Hadoop和Storm分布式框架,构建一种融合了实时计算与离线计算的分布式日志实时处理系统.系统架构由数据服务层、业务逻辑层和Web展示层组成,数据服务层使用Flume实时采集日志数据,并分别采用Kafka与HBase完成实时日志流数据的缓冲和系统数据的持久化存储;业务逻辑层利用Storm对实时日志流数据进行实时分析,并使用Hadoop的计算引擎MapReduce结合数据挖掘技术完成对海量历史日志数据的离线分析,离线分析的结果为实时分析提供支持、参考;Web展示层负责日志数据及其分析结果的展示.实验结果表明,系统能有效地解决日志数据的采集存储、实时日志流数据的实时分析和历史日志数据的离线分析等问题,并成功地融合了Hadoop与Storm各自的优势,为日志数据的采集和分析系统的构建提供新的技术参考.  相似文献   

16.
传统决策树在中小型数据集的预测分类上表现优秀,但在大数据集的处理上仍然存在效率低下、准确率较低等问题.为了适应大数据集环境,国内外学术界和工业界提出了将决策树与分布式处理平台相结合的分布式决策树算法,面向大数据处理的Hadoop和Spark分布式计算系统的出现,为研究分布式决策树算法提供了新的契机.为此,面向以基于大数...  相似文献   

17.
一种从Web日志中挖掘访问模式的新算法   总被引:5,自引:0,他引:5  
提出了一种用于从Web日志中高效挖掘Web访问模式的新算法.设计了一个新的数据结构WAS树(Web Access Sequence树)来记录Web访问序列和它的计数,避免冗长的支持度计算;开发出一个高效的递归算法,从WAS树中枚举出所有的访问模式,最后对算法的性能进行了分析并给出试验数据加以佐证.这个算法的特点是不需要产生候选模式而直接挖掘出所有的访问模式。  相似文献   

18.
基于web日志挖掘的数据预处理研究   总被引:2,自引:0,他引:2  
曹明  闪四清 《科技资讯》2007,1(4):103-105
Web日志信息的预处理是Web日志挖掘任务中的重要阶段,也是工作量较大的一部分.Web服务器上的数据是半结构化的,而且含有大量和挖掘无关的记录和冗余项.这就需要对其进行处理以得到适合挖掘的数据事务(Transaction)形式.Web日志预处理就是通过一系列的清洗、集成、转换等来得到合适的待挖掘数据.本文重点介绍了数据清理、用户识别、会话识别、路径补充、事务识别等过程.  相似文献   

19.
基于执行日志的Web服务QoS获取机制   总被引:1,自引:0,他引:1  
为了有效地解决Web服务QoS数据的获取问题,从统计学角度出发,提出了一种基于执行日志的Web服务QoS获取方法.该方法首先根据要获取的Web服务QoS属性集,分析执行日志所需记载的内容并记载日志;然后基于执行日志生成Web服务的QoS点数据集,其中考虑了基于实际执行所采集的QoS点数据所具有的采集量小、数据分布不均匀等问题,并给出了相应的解决方法;在此基础上完成对Web服务QoS数据的查询与预测.实验表明,所提出的Web服务QoS数据的获取方法是准确可行的.  相似文献   

20.
基于Windows日志的安全审计技术研究   总被引:1,自引:0,他引:1  
事件日志记录着操作系统或应用程序中重要的事件。通过对日志进行分析,发现所需事件信息和规律是安全审计的根本目的。文章讨论了对Windows系统日志文件进行集中式统一管理,采用API钩子技术实现Windows下的审计数据的获取,并通过对Windows日志的分析给出了一种基于主机日志分析的安全审计通用模型。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号