首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 171 毫秒
1.
本文针对单机网络爬虫获取Web空间数据在抓取覆盖率和抓取效率上均受到一定程度的限制,难以保证所抓取数据的及时性以及全面性问题,研究了基于分布式网络爬虫的Web空间数据获取方法,设计了基于分布式网络爬虫的Web空间数据获取原型系统并且最终实现,并且通过对原型系统进行相关的测试来证实了本文所提出解决方法的有效性。  相似文献   

2.
Deep Web爬虫研究与设计   总被引:10,自引:0,他引:10  
随着Web的发展,越来越多的数据可以通过表单提交来获取,这些表单提交所产生信息是由Deep Web后台数据库动态产生的.在这种情况下,信息集成就更加需要Web爬虫来自动获取这些页面以进一步地处理数据.为了帮助用户完成这样的任务,提出一种用于搜集Deep Web页面的爬虫的设计方法.此方法使用一个预定义的领域本体知识库来识别这些页面的内容,同时利用一些来自Web站点的导航模式来识别自动填写表单时所需进行的路径导航.通过对来自不同领域的Deep Web站点的大量实验,验证了此方法是非常有效的.  相似文献   

3.
本文研究结合网站结构和页面内容以辅助Web使用挖掘,提高推荐服务质量。并在相关理论与研究的基础上,给出一种关于推荐因子的综合计算方法,经推荐质量分析,该方法具有较好的推荐优化能力。  相似文献   

4.
张柱和 《科技信息》2009,(19):51-52
当前网络发展迅速,各种网站比比皆是,它容纳了海量的信息,但是这么多的信息,却使人们产生了信息贫乏的感觉,这是因为Web上的信息覆盖面太广,而用户需要的却只是其中很少的一部分。Web挖掘就是从Web文档和Web活动中抽取感兴趣的、潜在的、有用模式和隐藏的信息。本文主要研究了Web数据挖掘的内容,包括Web挖掘的特点、Web挖掘的分类和Web挖掘流程等。  相似文献   

5.
Web挖掘的体系研究   总被引:6,自引:0,他引:6  
互联网的出现极大地丰富了人们的信息,但也困扰人们从中获取有用的知识。Web挖掘的应用为解决此问题指明了方向。该文从Web内容挖掘、Web结构挖掘和使用记录挖掘3个方面论述了Web挖掘的内容及相关技术的研究现状和发展方向。Web内容挖掘包括信息提取和信息检索,Web信息提取的主要过程包括向量表示、特征提取、特征缩减和文本挖掘;对于信息检索,文章从搜索引擎的原理、分类以及最新的发展技术方面对其进行了论述;而对于结构挖掘和使用记录挖掘,文章主要论述了其算法和过程。  相似文献   

6.
为实现Web学习信息资源有效整合,提高查询效率,通过采用分布式Web爬虫技术实现后台自动采集任务,利用ECharts和JavaScript技术实现数据可视化展示,最终设计实现学习资源自动采集系统.经过功能测试和性能测试,系统能够满足实际工作需要,具有稳定性和适应性,能够有效提升学习水平,具有较高应用价值.  相似文献   

7.
随着网络的高速发展,其信息资源越来越庞大,面对巨量的信息库,搜索引擎起着重要的作用.主题爬虫技术作为搜索引擎的主要核心部分,计算搜索结果与搜索主题的关系,该关系被称为相关性.一般主题爬虫方法只计算网页内容与搜索主题的相关性,作者所提主题爬虫,通过链接内容和锚文本内容计算链接的重要性,然后利用贝叶斯分类器对链接进行分类,最后利用余弦相似函数计算网页的相关性,如果相关值大于阀值,则认为该网页与预定主题相关,否则不相关.实验结果证明:所提出主题爬虫方法可以获得很高的精确度.  相似文献   

8.
Internet的发展给传统的数据挖掘领域提出了很多新的研究课题.Web挖掘技术就是传统的数据挖掘技术与计算机网络技术的结合.Web使用记录挖掘是从日志文件中挖掘出有用的信息,这些信息可以帮助站点设计者设计站点和服务,有益于商业网站开展有针对性的电子商务活动.介绍了Web挖掘的概念和分类,说明了Web使用记录挖掘的过程和意义,并指出了Web使用记录挖掘的研究趋势.  相似文献   

9.
Web数据挖掘技术及应用研究   总被引:1,自引:0,他引:1  
Web数据挖掘是目前信息技术中的研究热点,它是现代科学技术相互渗透与融合的结果。本文介绍了Web数据挖掘的定义,Web数据挖掘的分类以及各自相关技术,并对Web数据挖掘的应用前景进行了探讨。  相似文献   

10.
介绍了当前的几种常用Web测试生成技术,提出了基于爬虫的Web测试生成技术,设计并实现了Web测试生成系统,该系统可以自动化完成爬取目标Web应用、处理分析爬取结果、生成测试用例、执行测试用例的功能,并且系统执行过程中输出的分析结果和测试用例可以被其他相关系统如测试覆盖分析系统利用。  相似文献   

11.
蛛网的进化     
蛛网的进化是令人感兴趣的一个难题。近年来对这一领域的研究取得许多新进展,修正了以往一些旧的错误观点,蜘蛛的演化已公认为腹部仍保留背板的中纺蛛最先出现,后来产生后纺蛛中的原蛛和新蛛,蛛网起源于原始的穴居蜘蛛在洞穴内壁用丝编织的衬里(丝管),以后丝管出口处向外延伸出领或放射的绊丝,进而出现漏斗蛛科的带丝管(隐蔽所)的片网或皿蛛科网片上下有缠结丝的皿网,圆网在进化到新蛛阶段才出现、起源于有筛器的新蛛,新蛛中一部分种类后来失去筛器,进化为无筛器蛛。园蛛总科中某些科的种类后来又失去圆网,圆网可能来自某些架在空中的片网,而圆网又可以再演变成其他网,如演化为更复杂精致的网,也可以简化而为只有几根丝的三角形网((虫无)蛛科的扇(虫无)蛛)或只有一根丝,靠丝末端的粘滴捕食(园蛛科的流星蛛),效率更高,文中对各主要网型的系统发生作了简明的介绍。当然,网的进化中有一些环节尚不清楚,有待今后进一步研究。  相似文献   

12.
随着Web服务发展和广泛应用,为了保证Web服务的一致性和可靠性,需要考虑在Web服务环境下的事务处理.讨论了基于Web服务对传统的原子型事务的处理方式,并分析了如何构架Web服务以加强对长事务即业务事务的支持。  相似文献   

13.
基于Web方式数据仓库的架构研究   总被引:3,自引:0,他引:3  
建立基于WEB方式的数据仓库系统已成为数据仓库技术应用的发展趋势,将数据仓库技术与WEB技术结合起来,提出了基于WEB的数据仓库体系结构。这种架构是在WEB服务器与数据仓库中间加入了中间件应用服务器,并对其具体的实现方法进行了阐述。  相似文献   

14.
基于概念图的网络课件维护研究   总被引:3,自引:2,他引:3  
为提高网络课件维护效率、降低维护难度,在网络课件中引入知识表示,提出了"概念图-超文本"的网络课件双层模型.并结合该模型,研究在知识指导下的网络课件维护.结果表明,该方式能提高网络课件的维护效率.  相似文献   

15.
研究了全球信息网的基本特征,产生背景,设计准则及内部结构,分析了当前全球网中存在的一些问题,提出了它的未来发展方向和可能的研究领域。  相似文献   

16.
网络办公自动化化系统克服了传统办公系统的不足,满足现代企业管理信息化的需要.根据某企业管理的实际需求,针对其特点,给出了网络办公自动化系统的设计设计思想、功能结构、软件环境,并重点介绍了系统核心功能模块的工作流管理实现方法.  相似文献   

17.
提出了一种基于网络蜘蛛的新词发现算法,通过该算法可以快速有效地搜集互联网资料,并从中自动发现新词。实验表明,该方法可以从网上快速搜集新词,获得的词典在分词能力上较传统方法有很大提高。  相似文献   

18.
运用心理测量法、逻辑分析法以及数理统计法,对体育院系健美操专选生创新能力现状进行分析。结果表明:体育院系健美操专选生创新能力总体创新能力普遍不高,处于中等水平,在年级和性别上均存在显著性差异。通过对体育院系健美操专选生创新能力的现状了解,初步揭示了体育院系健美操专选生创新能力特征和规律,旨在为进一步深化高校教育改革,提高体育院系健美操课程的教学质量,培养国际化接轨的新型人材提供参考依据。  相似文献   

19.
张东翰 《河南科学》2014,(2):150-152
蛛网图是一个重要的网络拓扑结构,研究它的染色对于网络权的分配和通信网络的设计有重要的指导作用.利用穷举法和组合分析法讨论了蛛网图的邻强边染色,得到了蛛网图的邻强边色数.  相似文献   

20.
关于高校专业课程双语教学的实践研究   总被引:3,自引:0,他引:3  
双语教学是我国高等教育改革面向世界、面向未来、面向现代化的重要举措,也是高校教学坚持和努力的方向。本文结合四年的生物医学工程专业双语教学实践,对专业课程的双语教学过程进行了深入探讨,特别对影响专业课程双语教学质量的关键要素、专业课程双语教学过程中应把握好的几个关系进行了系统和论述,以期对提高高校专业课程的双语教学质量有较好的启示。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号