首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 46 毫秒
1.
校园网内信息资源日益丰富,为了有效管理海量的数字资源,需要数据的分布式存储策略.本文设计的数字资源库采用存储区域网络(SAN)架构构建存储系统,具有高性能、高可靠、易管理、可扩展性强等优点.系统实现了数字信息资源的有效共享与利用,可为教学和科研提供更好的服务.  相似文献   

2.
随着互联网的快速发展,其信息量和相关服务也随之快速增长.如何从海量的信息中快速、准确地抓取所需要的信息变得越来越重要,因此负责互联网信息收集工作的网络爬虫将面临着巨大的机遇和挑战.目前国内外一些大型搜索引擎只给用户提供不可制定的搜索服务,而单机的网络爬虫又难当重任,因此可定制性强、信息采集速度快和规模大的分布式网络爬虫便应运而生.通过对原有Scrapy框架的学习和研究,将Scrapy和Redis结合改进原有的爬虫框架,设计并实现了一个基于Scrapy框架下的分布式网络爬虫系统,然后将从安居客、58同城、搜房等网站抓取的二手房信息存入MongoDB中,便于对数据进行进一步的处理和分析.结果表明基于Scrapy框架下的分布式网络爬虫系统同单机网络爬虫系统相比效率更高且更稳定.  相似文献   

3.
教学资源平台是实验教学示范中心建设的重要内容,是管理网络资源和数据交互的基层场所,通过该平台可以充分发挥示范中心的作用。教学资源平台建设的主要内容包括教学网络化管理系统、仪器设备管理系统、网络教学资源、开放实验室管理、师生交流和信息发布等,平台架构分网络资源库子平台、资源管理子平台、网络实验教学子平台三个层次。资源库的建设是一个系统工程、动态工程,需要教师、学生和管理人员一起来参与、完善。  相似文献   

4.
针对云文件数据在使用期后不及时删除易导致非授权访问及隐私数据泄露等问题,结合DHT(分布式哈希表)网络实时更新的特性,提出了一种AES与国密SM2混合加密的云文件数据安全自毁方案。首先数据所有端用AES对称加密算法加密待上传文件得到文件密文,然后对文件密文随机抽样,再将密文索引与AES密钥封装成封装体(PAC),其次将PAC用私钥进行国密SM2非对称加密成封装体密文(EP),最后将EP传至DHT网络,并将不完整密文与抽样密文上传至云端。数据使用端下载使用数据的操作是上传操作的逆操作。数据生命到期时可通过DHT网络自主更新实现定期删除EP,密文的覆写删除是通过调用HDFS的接口上传随机数据实现。通过密钥和云端密文的删除实现云数据的安全自毁。实验结果表明方案的整体性能表现良好。  相似文献   

5.
数据资源建设是高校信息化建设的重要组成部分,构建大数据管理服务平台将为高校大数据应用分析场景建设,提供数据、管理、服务、技术等多层面的有效支撑。以DAMA数据管理服务体系方法论作为理论依据,以教育部发布的《JYT1002_教育管理基础信息》、《JYT1003_教育行政管理信息》、《JYT1006_高等学校管理信息》等标准文件内容作为参考,结合高校数据特点,在传统高校数据共享平台相关技术的基础上将Hadoop框架体系、Spark技术、Elasticsearch数据引擎技术等大数据技术进行深度融合,提出一种数据统一存储、统一管理、统一处理、统一服务的一站式的大数据服务平台的建设思路,为高校大数据平台建设提供一个参考依据。  相似文献   

6.
随着大数据技术的日趋成熟,利用大数据技术实现对海量的网络舆情数据进行采集、分析和展示,对网络舆情信息感知度得到了很大的提升,可以准确地了解网络舆情的发展态势,把握群众的情绪,对舆情事件做出高效、正确的决策。利用分布式爬虫技术来抓取数据,文本分析技术进行数据预处理和数据清洗,对数据仓库的舆情信息进行处理、分析,实现了舆情的监测、舆情的分析和舆情报告。通过大数据技术挖掘网络舆情事件,能够快速准确地感知舆情信息,可以有效提升网络舆情的管控和预防能力。  相似文献   

7.
王海燕  周思方 《江西科学》2015,33(1):122-125
资源检索是网络学习领域中一个值得关注的问题,基于内容的检索模型是资源检索研究方面的热点。SWF格式的资源是网络学习资源库中重要格式之一,通过对SWF文件结构的分析,提出了一个提取SWF文件中文本信息的方法,利用C#语言开发一个SWF文件文本信息提取系统。SWF文件文本信息的提取的实现为建立基于内容的SWF文件检索模型奠定了基础。  相似文献   

8.
大数据数字媒体时代带来很多新技术,包含数据挖掘技术、数据分析、分布式存储、扩展存储和云计算等,为大数据的运用和发展提供有效的技术保障。大数据时代下的精准招商需要对各个参与企业的运营状况、经营范围、发展趋势、资产结构等要素进行分析对比、评判,努力根据区域产业发展和企业投资需求的切入点,找出跟该阶段招商引资最匹配的企业。网络爬虫技术是按照特定招商需求,自行抓取相对应URL内容的技术,本文利用基于Python语言的Scrapy框架中对异步处理出色的Twisted架构,对采集招商企业数据会更加稳定、准确和快捷。  相似文献   

9.
基于数据网格的教育资源服务系统的实现   总被引:4,自引:0,他引:4  
研究应用网格技术来构建一个分布式网络教学资源服务系统,以便更好地共享和利用上海教育资源库,即实现了基于数据网格的教育资源服务系统(ERSDG).首先介绍了Globus Toolkit工具包,阐述了ERSDG系统的架构和功能,提出了资源文件命名规范和资源节点分类,再分别从数据同步、资源访问服务和监控管理等方面论述了该系统的实现,最后从同步数据性能测试、用户访问和系统监控情况等方面分析了该系统性能.  相似文献   

10.
随着互联网发布的各种数据在急剧增长,人们正常进入网站精确获取信息的速度较慢而且信息量较小,按照一定的规则编写的计算机指令——网络爬虫应运而生,它可以在较短的时间内从网络上自动抓取大量数据信息。该文研究的是基于Scrapy框架的一种招聘信息主题网络爬虫的设计与实现。主题网络爬虫只搜索与主题信息有关的资源数据,用来服务于高校毕业生群体,作为就业前收集招聘信息的辅助手段。  相似文献   

11.
针对高炉炉况诊断和操作决策人工智能系统中出现的上传数据丢失问题,采用计算机网络和数据丢失恢复技术,对集中采集的传感器数据传送到操作站,再上传到服务器中的数据进行检索搜寻,查找“丢失”的数据,然后从产生数据丢失的操作站的原始数据文件中搜寻丢失的数据,将搜寻到的数据重新上传至服务器,完成“丢失”数据的自动恢复.  相似文献   

12.
大数据时代高校数字教学资源整合策略   总被引:1,自引:0,他引:1  
该文分析了高校数字教学资源整合的意义以及整合资源的来源,进而提出在大数据环境下资源整合的策略:高校数字教学资源必须运用云计算等先进的网络技术,来解决整合过程中遇到的安全性、硬件资源等难题;还要通过提高资源库建设、管理部门工作人员的知识、服务水平,大力宣传校内资源库的优势等措施,来提高数字教学资源的利用效率。  相似文献   

13.
为提高市政设施巡检过程中信息上报的准确性和实时性,提出了基于Android 平台的市政系统。通过对Android 设备的摄像头调用和GPS( Global Positioning System) 、Network 定位模块的加载,采集了图像和定位信息,并结合其他工程信息将数据打包上传至后台服务器中,保存到数据库。另外通过浏览器访问Web 网页实现后台数据信息的管理、任务派发等。测试结果显示,该系统能有效获取图像和定位信息,快速准确地上传数据和简化后台工作流程,具有一定的实用价值。  相似文献   

14.
网络舆情已经成为反映当今社会舆情重要组成部分,具有传播速度快、信息多元化等特点.建立舆情检测系统能够对大规模网络数据进行采集、挖掘和分析,对网络舆情热点话题进行及时的发现和追踪,为各单位和组织应对舆情危机提供科学、系统的支持.通过对网络爬虫搜索策略、大规模URL去重、页面识别等技术的研究和改进,实现一个高效、快捷的网络爬虫系统.  相似文献   

15.
公安信息资源综合数据集市建设有利于对各类公安业务信息进行整合,为情报分析研判提供良好的数据基础。而数据集市建设成功的关键在于架构设计,通过源数据准备、数据同步管理、数据清洗管理、数据整合和聚类分析五个环节的有机衔接以及对每一个环节内容的科学设计,可以形成一种高效、合理的数据集市建设架构,从而有力保证公安信息资源综合数据集市建设的成功。  相似文献   

16.
在开展长白山生态数据智能分析时,需要爬取大量的网络数据,这些数据大概率会出现缺失、重复、异常、噪声等情况,因此需要对爬取到的数据进行必要的清洗的功能.设计了一种爬虫,并实现了数据清洗的功能,实验证明,100万条数据的爬取用时<30 min.  相似文献   

17.
一、项目建设背景 以前,佛山市电子政务内外网网络是物理隔离的,这就造成大量信息需要重复上传,严重影响了工作效率。同时,各部门的网站系统均由各部门自行构建,技术实现和管理形式不统一,无法实现数据资源的共享,严重阻碍了我市电子政务建设的发展。 根据中办[2004]17号文件"副省级以下城市的政务内外网应用由以前的物理隔离模式改为物理连通、逻辑隔离的  相似文献   

18.
河北省科技创新大数据公共平台是以海量数据资源为基础,基于数据仓库与数据挖掘技术构建,面向管理部门开展决策服务,面向社会公众开展信息服务的网络信息平台。但是,在构建数据仓库的过程中,存在各种各样的数据质量问题,最终产生各种错误的分析结果,所以,在进入数据仓库前,必须对数据进行清洗,从而保证进入数据仓库的数据质量。根据河北省科技攻关项目科技大数据标准化处理与应用系统,提出科技创新大数据清洗框架,在框架的基础上,定义清洗规则,改进清洗算法,在真实数据集上进行实验,解决了进入数据仓库的数据质量问题,从而保证了数据在数据仓库中的一致性和正确性,为后期的分析和处理提供了坚实的数据基础。  相似文献   

19.
网络爬虫是全文搜索引擎系统的核心模块,它实现对站内信息的检索和特定Web信息的搜索。然而,万维网规模越来越巨大,产生了专业爬虫。主要研究了怎样建立一个有效的专用爬虫,它可以自动发现和下载用户感兴趣的页面。包括的内容:超文本分类器、提取器、爬虫的基本功能、数据存储及核心算法。  相似文献   

20.
提出了一种基于移动代理的图像搜索引擎(MAISE,Mobile Agent based Image Search Engine)的爬虫系统,系统中爬虫代理运行在远程Web服务器上,它将集中在服务器端的任务如:特征提取、建立索引等分散到远程的Web服务器上并行运行,而且代理个数是可控的,最后将少量的数据回传到服务器端,这不仅提高了效率而且减小了网络传输量.最后对MAISE爬虫系统进行了测试,实验结果表明,MAISE爬虫的网络数据传输量和爬行时间等指标上均优于传统爬虫.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号