首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 182 毫秒
1.
基于本体语义的定题爬虫   总被引:3,自引:0,他引:3  
定题爬虫能迅速获取网络上特定主题的大量信息,对专业搜索引擎及数据挖掘应用都具有重大价值.针对目前通用的基于关键词主题过滤策略的不足,在概念聚集思想启发下,提出了基于本体语义的主题过滤策略.同时根据网页具有不同位置不同信息重要性的特点,提出了改进的加权特征项权值计算公式,实现基于语义的网页实时过滤.为进一步提高爬虫的工作效率提出链接相关度预测算法.对比实验表明此策略具有可行性.  相似文献   

2.
对2001--2008年我国国内研究元数据自动抽取论文的年份和主题分布进行了分析,对Web元数据信息抽取等相关主题进行综述,力求反映我国元数据自动抽取研究的现状,并为今后的研究提供参考.  相似文献   

3.
商友忠 《科技信息》2007,(15):104-105
Web信息的急剧增长使搜索引擎专用化成为发展趋势。重点论述了主题搜索引擎的信息采集策略,并给出了一种比较理想的建筑业信息搜索引擎设计方案。  相似文献   

4.
可在线增量自学习的聚焦爬行方法   总被引:9,自引:0,他引:9  
将Web爬行看作执行序列动作的过程,结合改进的快速Q学习和半监督贝叶斯分类器,提出一种新的具有在线增量自学习能力的聚焦爬行方法.该方法从获取的页面中抽取特征文本,根据特征文本评估页面的主题相关性,预测链接的Q值,然后基于Q值过滤无关链接.当得到主题相关页面时产生回报,将回报沿链接链路反馈,更新链路上所有链接的Q值,并选择相应的特征文本作为训练样本,增量地改善主题评估器和Q值预测器.实验结果表明,该方法具有很快的自学习能力,获取的页面数目和精度均优于离线聚焦爬行方法,更符合Web资源发现的要求.  相似文献   

5.
在深入研究网络信息采集技术的基础上,提出一个基于Web结构的新闻采集模型。该模型加载采集入口地址后,通过信息采集和过滤算法确定新闻列表页,结合正则表达式技术自动识别新闻内容页的链接地址,访问目标新闻内容页,使用采集算法自动提取新闻信息数据。同时,它可以过滤在此页面中嵌入的广告等信息。实践结果表明,该模型工作良好,可以自动化、高效率地采集新闻信息。  相似文献   

6.
基于语义Web实现有效Web信息检索的研究   总被引:22,自引:0,他引:22  
万维网上大量的异构、非结构化的数据使人们难以有效地发现自己所需的信息.作为网上通用的元数据描述工具,语义Web中的RDF(S)可以对网上信息建立规范化表述,语义检索系统的模型与专业垂直网站结合可以提高用户检索Web信息的效率.  相似文献   

7.
研究分析了异构数据交换的析取、转换、装载等相关技术,元数据技术、Web Services技术和ETL技术,掌握了使用Web Services封装异地和远程的不同异构数据源,设置异构数据源的元数据信息由元数据库综合管理,进一步研究了数据仓库中关键技术,最后实现了使用灵活、操作简捷、可扩充的异构数据集成交换工具.  相似文献   

8.
针对当前高校图书馆定题服务所面临的困境,提出基于Web服务技术的定题服务信息系统架构,详细论述该系统架构的设计思路和实现方法。该软件在南京审计学院图书馆实际运行多年,为广大用户提供了优良服务。  相似文献   

9.
以基于用户安全属性偏好的Web服务安全综合评估为研究目标,在传统Web服务体系架构基础上进行功能扩展,设计出了一个Web服务安全评估模型,研究并提出了一种服务安全评估方法.使用标准值策略结合多属性决策Topsis算法进行综合评估;采用对候选服务进行协议分析、漏洞检测等方式收集数据,并把Web服务提前进行过滤筛选,按数据的类型进行量化,计算用户的安全属性偏好权重,将经过量化后的服务安全属性值按照Topsis算法进行选择.对该方法进行了相关实验验证,结果表明该方法能较好选择出满足用户安全属性偏好需求的Web服务.  相似文献   

10.
针对现有行为建模方法难以描述行为语义的问题,提出了一种分层次的用户行为元模型以及一种基于页面元数据的Web用户行为建模方法.该方法从URL的访问、活动、事务3个层次建立Web用户的行为模型,并对页面元数据获取以及在URL的访问、行为、事务之间转化等问题进行了说明.方法及模型不仅描述了用户访问序列信息,还增加了访问内容的局部主题和关键词等信息,为进一步获取Web用户的行为语义特征奠定了很好的基础.通过西安交通大学的Web教学系统验证表明,利用所提方法获得的序列划分准确率达86%以上.  相似文献   

11.
互联网上信息是海量的,并且还在快速的发展.面向主题的Web信息检索已成为当前研究的热点之一.将语义网技术同传统的信息检索技术相结合,给出一个利用本体判断主题相关度的判断算法,通过实验验证了算法的有效性.  相似文献   

12.
The Internet presents numerous sources of useful information nowadays. However, these resources are drowning under the dynamic Web, so accurate finding userspecific information is very difficult. In this paper we discuss a Semantic Graph Web Search (SGWS) algorithm in topicspecific resource discovery on the Web. This method combines the use of hyperlinks, characteristics of Web graph and semantic term weights. We implement the algorithm to find Chinese medical information from the Internet. Our study showed that it has better precision than traditional IR (Information Retrieval) methods and traditional search engines.  相似文献   

13.
随着Internet上信息的爆炸,利用通用搜索引擎检索用户相关的信息变得越来越困难,而主题爬虫成为WEB上检索主题相关信息的重要工具。目前大部分基于分类器预测的主题爬虫的训练数据是不同类别网页的内容,但是在实际预测过程只能根据父网页中的一些链接信息进行预测,所以造成主题爬虫的预测的准确率较低。本文使用SVM分类器对标注了类别的URL以及上下文和锚文本进行训练,并分别使用了DF和信息增益两种不同的特征选择方法进行特征筛选,对影响分类器的各种因素进行了实验对比,并对分类器进行了在线的实验.实验证明这种方法在实际预测过程中效率很高。  相似文献   

14.
利用超链接信息改进网页爬行器的搜索策略   总被引:5,自引:0,他引:5  
网页爬行器在Web空间中爬行时,要面对如下两个问题:1)由于Internet上的信息量十分巨大,网络搜索引擎不可能包含整个Web网页;2)受到硬件资源的限制,它所能存储的网页是有限的.爬行器如果按照传统的宽度优先搜索策略在Web空间中爬行,它对所有的网页都采取一视同仁的态度,这样爬行的结果就导致了它所爬行回来的网页质量不高.为此,给出了利用超链接信息改进网页爬行器搜索策略的算法.该算法充分考虑了网页之间的超链接信息,克服了传统的宽度优先搜索策略的盲目性爬行.实验表明,利用该算法爬行得到的网页与某一特定主题相关的网页超过50%.  相似文献   

15.
语义Web服务基础技术研究综述   总被引:2,自引:0,他引:2  
语义Web服务的提出是为了解决现有Web服务发现和组合等低性能和低效率问题,从而有效提高信息集成的自动化能力。主要对语义Web服务相关研究的基础--服务的描述语言进行综述。叙述了语义Web服务的研究背景,详细地讨论了5种语义Web服务的描述语言,并给出了语义Web服务的集中式和非集中式两种发布模型架构,列举了语义Web服务的几种开发工具,对语义Web服务技术进行了总结和展望,为以后的深入研究提供参考借鉴。  相似文献   

16.
基于智能代理的信息检索机制在"数字城市"中的应用   总被引:1,自引:0,他引:1  
如何在海量的数据中找出我们需要的信息,是"数字城市"中急需解决的一个重要问题.在"数字成都"建设中,通过具有一定智能性的搜索策略建模,实现对元数据库的快速检索、数据的快速下载、数据的交互预览和信息缓存机制,构造由Web访问服务器和Web数据服务器两部分组成的智能代理搜索引擎,具有任务解析、数据踪迹的保留、数据缓存的特点.  相似文献   

17.
自适应业务提供中的元数据技术   总被引:1,自引:0,他引:1  
首先概要介绍元数据的定义、目的、作用等基本概念,并初步介绍了元数据的描述技术——资源描述框架,在此基础上给出了一个元数据在自适应Web信息提供中的应用示例,并通过示例分析阐述了自适应业务提供中的元数据技术。  相似文献   

18.
RDF在语义Web知识表示中的作用   总被引:2,自引:0,他引:2  
基于Web具有的一些特征和应用于语义Web的知识表示语言RDF,分析了RDF提供的语法基础即如何用XML来实现语法,以及RDF如何无二义性地描述资源对象的问题,使得描述的资源的元数据信息成为机器可以理解的信息。在此基础上,提出了一种新的适合Web发展需要的知识表示方法,为智能应用领域提供基础;并阐述了以RDF为基础的知识表示语言可较好地实现语义Web的知识表示。最后通过基于OWL知识表示实例的语义检索应用给予了说明。  相似文献   

19.
基于网格技术的数字图书馆互操作关键技术   总被引:13,自引:0,他引:13  
为了解决Internet上大规模的数字图书馆互操作问题,在原有OAI-PMH框架的基础上,提出一种基于网格技术的数字图书馆互操作框架--数字图书馆网格(DL grid),给出了3层DL grid体系结构,并对元数据资源的发现、采集、重组、利用等关键技术进行了分析、设计与实现.通过集成的元数据,实现了Web上数字图书馆信息的共享.  相似文献   

20.
The World Wide Web has become a global information service center with a vast amount of news, advertisements, product and service information, and disparate information from diversified sources. However, only a small portion of information is truly relevant and useful to the users who are seeking information on specific topics. In this paper, common relations among nodes are taken into consideration when constructing site style tree, and a new node type is introduced. Experimental results show that the proposed algorithm has higher precision and recall.   相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号