首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 31 毫秒
1.
每所高校校园网内成百上千的网站每天产生的Web访问日志量级都以千万计.利用大数据技术对这些海量、实时的数据进行集中搜集和长期存储,并通过后期大数据分析来挖掘这些日志的价值,无论从管理运维角度,还是从信息安全视角都具有实际意义.本文以上海交通大学为例,介绍了利用Hadoop大数据平台,存储并分析校园网内数千网站日志的系统设计和实现.  相似文献   

2.
日志数据记录着丰富的信息,具有较高的实用价值,但在当今大数据时代环境下,数据量的陡增为日志数据的处理带来了挑战.为了有效地解决海量日志数据处理面临的瓶颈问题,本文整合Hadoop和Storm分布式框架,构建一种融合了实时计算与离线计算的分布式日志实时处理系统.系统架构由数据服务层、业务逻辑层和Web展示层组成,数据服务层使用Flume实时采集日志数据,并分别采用Kafka与HBase完成实时日志流数据的缓冲和系统数据的持久化存储;业务逻辑层利用Storm对实时日志流数据进行实时分析,并使用Hadoop的计算引擎MapReduce结合数据挖掘技术完成对海量历史日志数据的离线分析,离线分析的结果为实时分析提供支持、参考;Web展示层负责日志数据及其分析结果的展示.实验结果表明,系统能有效地解决日志数据的采集存储、实时日志流数据的实时分析和历史日志数据的离线分析等问题,并成功地融合了Hadoop与Storm各自的优势,为日志数据的采集和分析系统的构建提供新的技术参考.  相似文献   

3.
设计了一种在大型园区环境下对互联网异常网站进行筛查的系统,系统在.NET框架下开发运行,基于分布式计算的模式部署,采用HDFS和SQL Server存储数据。分布在多个子区域的探针根据多设备日志的排序数据进行异常网站的筛查,核心服务部分进行故障汇总分析、任务分发推送和知识库归档等操作。该系统具有一定的故障分析能力,可以根据已有知识库形成故障分析指导,通过调用预定义脚本启用备用设备或线路。系统运行结果表明,设计科学有效,能够给大型企事业单位的网络运维和管理提供参考依据。  相似文献   

4.
Web日志挖掘改进网站结构的研究   总被引:1,自引:0,他引:1  
Web日志挖掘是目前Web挖掘研究的一个热点课题.针对Web日志挖掘中存在的问题,研究和分析了一个基于网站访问矩阵的路径挖掘算法.在此基础上设计和实现了一个Web日志挖掘系统(WLMS),通过发现用户访问的最优路径和网站访问的统计结果,改进网站性能和组织结构,提高用户查找信息的质量和效率.  相似文献   

5.
Web日志挖掘中的数据预处理技术   总被引:5,自引:0,他引:5  
用户访问网站,Web日志中会记录下大量的用户访问信息,通过挖掘这些日志数据可以获得相关页面、相似用户群体和用户访问模式等信息,Web日志挖掘对于优化网站结构、提供个性化服务和构建智能化网站具有重要作用.数据预处理是保证Web日志挖掘质量的重要基础,预处理主要包括数据清洗、用户识别、会话识别、路径补充和结果评价等工作.概述了数据预处理技术,重点介绍了目前常用的会话划分算法和评价标准,并实现了一个数据预处理系统.  相似文献   

6.
随着互联网使用者的快速增长,网络安全问题也不断增多.传统的基于日志的入侵检测系统在处理海量信息时存在着实时性不足,认知负担过重等缺点.本文提出了一种基于Flume的网络安全日志可视化方法,利用Flume处理日志信息的高效性,实时收集网络安全日志,结合数据可视化方法,挖掘隐藏的网络异常信息.与传统的基于数据库存储的安全分析相比,提高了数据处理的实时性,能够更直观的展现网络网络异常.  相似文献   

7.
为了解决网络设备类型划分粒度粗,导致网络流量无法准确分类的问题,提出了一种基于Spark日志集成与FCM-DNN的流量分析算法。首先,该方法使用Spark集成会话日志以获取可分析的结构化数据;然后对同一网站的行为数据进行聚类,提取网站的多类簇特征集合,以解决单个会话连接特征维度较少、特征相似且不平衡的问题;最后,构建DNN网络,将统一化后的聚类特征与原始特征结合进行训练,并从聚类分组长度和损失函数等多个方面进行算法优化。仿真实验结果表明,对于特征较少的会话日志数据,该算法有效提高了网站分类的准确性,同时在保留学生上网特征的前提下将日志压缩了700倍,从而节省了存储开销。  相似文献   

8.
为了数字化校园各系统与网站间信息的互通,同时保障所有网站服务的稳定与安全,分析了旧型网站的优缺点,并结合现有网站群技术、云计算理论和网络系统安全理念,制定了网站群系统规划建设及维护全过程标准体系.据此建立的网站群系统最终在试运行期间未出现旧系统常见故障,它与数字化校园各系统的信息无缝互通,抵御了多次网络攻击,在访问高峰时段保持较低延迟,并留存了各类日志数据.  相似文献   

9.
 为充分利用移动搜索和政府网站的特点, 发挥Hadoop 处理大数据的优势, 设计开发了日志挖掘和个性化定制系统。利用Flume 和HDFS 实现了海量日志的汇总和存储, 为日志挖掘提供了数据源和调用接口;采用MapReduce 实现了对日志的高效分析, 利用搜索结果网页的标签和导航, 建立了网页向量空间模型和用户兴趣模型;根据用户兴趣模型, 使用聚类分析中的K-means算法将有相似兴趣的用户组成兴趣组;通过计算搜索结果网页到用户所在兴趣组的距离, 判断用户对该网页是否感兴趣, 据此调整搜索结果的排序, 实现个性化搜索和推送功能。  相似文献   

10.
针对Web的日志记录进行分析,建立一个Web日志挖掘系统.网络管理人员根据Web日志的分析结果改进网站的设计,实现网站的有效管理以保证网络的安全.  相似文献   

11.
提出使用XML文件的方法存储不同Web日志的格式,采用一个通用的方法分析原始的Web日志,并对日志做预处理、产生Web日志挖掘系统所需的数据,从而使Web日志挖掘更快速和准确。  相似文献   

12.
针对各级精品课程应用和共享的需求出发,首先对动态网站设计理念进行了讨论,接着对目前大多数网站存在的问题进行了分析,然后提出了《基于.NET的精品课程综合应用系统》的总体结构设计。系统利用CSS+DIV技术,提高了网页的下载速度,实现了页面的合理布局和显示。采用记录日志的方法,对用户的相关信息进行必要的记录,实现快速查询非法操作用户和实现了对分布于校内的精品课程信息和数据进行统一编辑、发布和检索。  相似文献   

13.
网站日志记录了用户的浏览行为,通过挖掘网站日志,可以分析用户行为,为优化网站结构提供有价值的数据.但是很多虚拟主机网站没有日志记录功能,这给日志挖掘带来了极大的不便.本文介绍一种生成日志的方法,并利用关联规则算法对其进行日志挖掘,发现用户的访问模式,帮助网站改进页面结构.  相似文献   

14.
网站日志记录了用户的浏览行为,通过挖掘网站日志,可以分析用户行为,为优化网站结构提供有价值的数据.但是很多虚拟主机网站没有日志记录功能,这给日志挖掘带来了极大的不便.本文介绍一种生成日志的方法,并利用关联规则算法对其进行日志挖掘,发现用户的访问模式,帮助网站改进页面结构.  相似文献   

15.
基于聚类的智能网页推荐系统研究   总被引:1,自引:0,他引:1  
设计了一种智能网页推荐系统的架构,其中包括数据预处理、聚类分析和网页推荐3个子系统,可以根据网站的访问日志来对用户进行自动分类,进而对网站的新用户在线提供网页推荐。提出了路径间距离的计算方法,进而研究了聚类子系统的结构,并通过对微软网站中用户访问日志的仿真实验,说明了所述方法的有效性。  相似文献   

16.
针对现阶段云平台应用日志运维效率低的问题,研究一种基于ELKB架构的日志管理方案。该方案可实现对日志数据的高效采集和统一存储,并提供日志查询和可视化分析的功能。详细阐述日志的采集和存储方案,提出优化采集器Filebeat基础参数的方法,日志存储过程部署Elasticsearch集群模式,并总结Elasticsearch集群节点的性能提高方法,以此为基础搭建日志可视化管理系统。实验结果表明:参数优化后的Filebeat进行日志采集时,内存占用率与默认配置相比降低47%;Elasticsearch集群模式在进行关键字查询时的数据吞吐率高于单机服务器250req/s,且集群节点的段合并优化有效降低了日志的索引内存占用率,内存优化百分比介于11.9%和22.1%之间。可见日志管理系统部署方式灵活,有效提高了日志采集和检索效率,为云平台日志管理提供了可行的方案。  相似文献   

17.
传统结构的区块链在保证系统去中心化需求的同时占用了大量存储空间,且吞吐量无法得到提升.为了更加高效、安全地存储海量数据,提出了一种区块链结合数据库的架构,它可以提高系统整体的吞吐量.此外,区块链适用于云存储环境下日志型数据的存储,如视频日志、音频日志、图像日志等日志型数据,但不适合常规内容频繁更新的使用场景,如数据库应用场景.基于此,提出了一种数据可信保障方法,通过验证事务日志是否发生改变推导出数据是否被恶意篡改.采用Hyperledger Fabric结合MySQL的实例,通过实验说明该方法可验证频繁更新的数据库数据是被正常更新还是被异常篡改,并且可恢复数据库的安全.  相似文献   

18.
本文基于Android平台在eclipses环境下设计扣实现了一个加密手机日志薄功能系统.着重阐述了从用户获取数据存储到数据库,以及从数据库中查看和修改存储的日志数据,在程序中的具体实现过程.向用户展示了一个完整的手机功能开发的项目.并在文章的最后对Android操作系统的发展前景做出了展望.  相似文献   

19.
数字化校园发展迅速,同时带来了海量的网络信息.本文针对校园网信息传播及其监控的有效性问题,设计并实现了基于Web日志分析的校园网受众分析系统,通过挖掘Web日志中的相关数据并进行统计、分析、综合,得到了特定信息在特定时期内的传播范围及其用户分布情况,同时基于访问量特征提出了校园网信息的3种基本类型.本文还结合实际校园网的运行数据进行了实验和相应的分析,显示出所建立模型的合理性和有效性.  相似文献   

20.
通过分析和提取数据库服务器上的网站描述文件和网站日志文件,获得浏览用户的浏览行为模式,分析了网页间的相关性,从而构建模拟网页个性化推荐系统,使网站的页面设计更具个性化,节省搜索网页的时间。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号