首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到10条相似文献,搜索用时 343 毫秒
1.
XML只描述了文档的结构,却没涵盖数据的语义,而描述数据语义的本体语言不能直接对XML数据进行表述.针对这一问题,本文给出了从XML到RDF Schema的转换算法,使用RDF的正式传输格式RDF/XML作为媒介,通过编程以相当直接的方式把存储在标准XML中的数据转换成RDF,为语义Web环境下的智能处理提供了帮助.  相似文献   

2.
随着互联网的快速发展,其信息量和相关服务也随之快速增长.如何从海量的信息中快速、准确地抓取所需要的信息变得越来越重要,因此负责互联网信息收集工作的网络爬虫将面临着巨大的机遇和挑战.目前国内外一些大型搜索引擎只给用户提供不可制定的搜索服务,而单机的网络爬虫又难当重任,因此可定制性强、信息采集速度快和规模大的分布式网络爬虫便应运而生.通过对原有Scrapy框架的学习和研究,将Scrapy和Redis结合改进原有的爬虫框架,设计并实现了一个基于Scrapy框架下的分布式网络爬虫系统,然后将从安居客、58同城、搜房等网站抓取的二手房信息存入MongoDB中,便于对数据进行进一步的处理和分析.结果表明基于Scrapy框架下的分布式网络爬虫系统同单机网络爬虫系统相比效率更高且更稳定.  相似文献   

3.
提出了一种基于移动代理的图像搜索引擎(MAISE,Mobile Agent based Image Search Engine)的爬虫系统,系统中爬虫代理运行在远程Web服务器上,它将集中在服务器端的任务如:特征提取、建立索引等分散到远程的Web服务器上并行运行,而且代理个数是可控的,最后将少量的数据回传到服务器端,这不仅提高了效率而且减小了网络传输量.最后对MAISE爬虫系统进行了测试,实验结果表明,MAISE爬虫的网络数据传输量和爬行时间等指标上均优于传统爬虫.  相似文献   

4.
现有的RDF关键词搜索方法主要是在大规模的RDF数据图上直接进行搜索,未能充分利用RDF本体中的语义信息,迭代次数过多造成搜索效率和效果不理想.针对这些问题,借助Redis内存数据库集群,提出分布式RDF关键词近似搜索算法(DKASR),即在分布式平台上实现大规模数据的并行搜索.算法结合RDF本体的语义信息构建本体子图,利用语义评分函数对本体子图进行排序,借助MapReduce计算模型实现并行搜索并返回Top-k结果;如果返回的结果没有达到Top-k,则对本体子图进行扩展生成近似本体子图,使用语义相似度函数对近似本体子图进行排序,再利用MapReduce计算模型实现并行搜索,直到返回Top-k结果.实验结果表明,DKASR算法能够高效正确地实现RDF关键词近似搜索并有效返回Top-k结果.  相似文献   

5.
本文针对单机网络爬虫获取Web空间数据在抓取覆盖率和抓取效率上均受到一定程度的限制,难以保证所抓取数据的及时性以及全面性问题,研究了基于分布式网络爬虫的Web空间数据获取方法,设计了基于分布式网络爬虫的Web空间数据获取原型系统并且最终实现,并且通过对原型系统进行相关的测试来证实了本文所提出解决方法的有效性。  相似文献   

6.
基于本体的XML数据源语义集成研究   总被引:2,自引:0,他引:2  
提议了一个基于本体的XML数据源语义集成方法,为每个参与集成的XML文档产生一个局部RDF本体,合并局部本体的结果产生一个全局本体.全局本体统一查询访问并在后台局部XML数据源之间建立语义关系,在全局本体上的查询通过从RDF查询到XML查询的转换被处理.  相似文献   

7.
基于语义Web的旅游信息系统设计   总被引:1,自引:0,他引:1  
设计了一个旅游信息系统,并在系统中成功运用了语义Web技术.使用UML建立了旅游领域的Ontology,并以几个旅游门户网站为信息源建立了旅游领域的语义Web数据库.提出了语义Web技术和传统搜索引擎相结合的信息检索方法,设计了检索语义信息的算法.实现了描述逻辑知识库问题解答的优化,设计了用户和知识库交互的方式.本系统是一个语义Web技术的商业应用原型.  相似文献   

8.
Web网上大量的异构、非结构化的数据使人们难以有效地发现自己所需信息. 通过利用元数据和本体语义特点,借助Web服务技术,提出构建元数据登记库MDR和本体管理系统OMS,在分布式闭包生成基础上进行推理,实现基于本体表示语言RDF特性的Web数据搜索引擎SBWSE,达到分布异构环境下高效发现信息的目的,解决了基于关键词的搜索引擎所表现的查全率和查准率不佳问题.  相似文献   

9.
开发了基于Beautiful-Soup信息提取的B2C类垂直搜索引擎爬虫系统.测试结果表明:该爬虫的抓取有效率实际达到95%以上,满足商业应用的要求.  相似文献   

10.
提出了一种用RDF描述受限领域知识的元数据,用RDF/XML存储和处理知识信息的方法,并在具体应用中实现了这种方法,这是一种开发智能型教学课件的解决方案。用RDF技术可以解决的问题还有:语义Web、智能搜索引擎、语义层的数据交换、信息的自动链接与引用、数字图书馆等。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号