首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 390 毫秒
1.
针对现有的主题爬行方法存在收益率不高和不稳定的问题,融合本体和最小二乘支持向量机理论,提出一种主题爬行方法 Ontology-LSSVM.该方法将本体作为抓取主题的背景知识表示,得到一组主题相关概念的集合,再将其在网页文本中出现的词频作为输入,构造一个主题相关度LS-SVM分类器,用于网页的分类.使用舆论热点的食品安全问题作为爬行主题领域,建立问题食品本体,进行实验.结果表明:在本实验条件下,本文方法相比基于LS-SVM、基于本体和基于关键字的主题爬行,能够维持更高的收益率.  相似文献   

2.
结合主题爬虫和本体学习的研究现状,设计并实现了基于本体的主动学习主题爬行系统.通过更好地规划爬虫爬行流程,详细地划分功能相对独立的模块,提高了整个系统爬行工作效率和抓取相关网页的准确率.  相似文献   

3.
基于领域本体的信息搜索模型   总被引:3,自引:0,他引:3  
针对目前的搜索模型局限于语法层次上关键词匹配的特点,以领域本体作为知识组织方式,提出了一种语义环境下基于本体的信息搜索模型.在此模型的基础上,分别提出了文档语义标注算法和搜索词语义扩展算法,两种算法分别对文档集语义分析和搜索词语义关系理解,实现双向语义信息搜索的目的.实验结果表明,提出的信息搜索方法能够克服关键词匹配搜索的不足,获得较好的搜索效果  相似文献   

4.
基于领域本体的学习资源管理系统框架研究   总被引:7,自引:0,他引:7  
提出了一种基于领域本体的学习资源管理系统框架。该框架首先利用本体建立特定领域的语义模型,在此基础上实现对学习资源的有效管理和基于语义的搜索。并对资源的标注、资源的搜索等关键问题进行了深入的研究,最后给出其实现。  相似文献   

5.
针对主题图导航定位的精确性和有效性问题,提出一种面向本体的主题图导航定位方法.根据主题图的特征关系去实现资源导航定位.因此,首先定义本体关系和相似性计算方法,并通过本体关系分析主题图的匹配融合方法,以及通过RDF、OWL-S、WSDL和XTM间的标签关系去实现导航定位模型;建立一种具有语义的蚁群算法进行优化求解,并与传统的蚁群算法进行比较,结果表明,具有语义的蚁群算法智能性更强.最后定义本体的召回率,用主题图精确度和语义蚁群优化效率评估该模型.结果表明,有效提高了主题图连接资源的精确性.  相似文献   

6.
利用超链接信息改进网页爬行器的搜索策略   总被引:5,自引:0,他引:5  
网页爬行器在Web空间中爬行时,要面对如下两个问题:1)由于Internet上的信息量十分巨大,网络搜索引擎不可能包含整个Web网页;2)受到硬件资源的限制,它所能存储的网页是有限的.爬行器如果按照传统的宽度优先搜索策略在Web空间中爬行,它对所有的网页都采取一视同仁的态度,这样爬行的结果就导致了它所爬行回来的网页质量不高.为此,给出了利用超链接信息改进网页爬行器搜索策略的算法.该算法充分考虑了网页之间的超链接信息,克服了传统的宽度优先搜索策略的盲目性爬行.实验表明,利用该算法爬行得到的网页与某一特定主题相关的网页超过50%.  相似文献   

7.
以小学生数学学习障碍的问题领域为研究对象,通过领域本体的应用,从搜索到的文档中抽取重要句子形成摘要.利用领域本体能够描述特定知识领域内相关的概念和关系这种特性,提出了一个改进的以多个关键词来评判文档段落重要性的方法,用此方法的查询结果更符合学习者需要.  相似文献   

8.
智能主题搜索算法研究   总被引:1,自引:0,他引:1  
分析了4种智能主题搜索算法,对基本遗传算法进行了改进,并将改进的遗传算法应用到主题搜索中,通过改进遗传算子来提高搜索的主题相关度和爬行的准确率.  相似文献   

9.
目的:主题爬虫是用户获取领域知识的一种有效途径。为实现此方法用户首要解决的问题是主题向量的训练数据的选择和初始URLs的选择。但传统的主题爬虫对于初始URLs的选取并没有过多论述,为此,本文探讨了初始URLs对于主题爬虫的影响,并提出了一种基于元搜索和本体结合的算法来选择并确定初始URLs。方法:采用元搜索方法获取与主题相关的初始URLs,然后根据返回结果采用本体领域知识进行重排序,选择前排的URLs。自动而不是人工地进行初始URLs的确定,同时将页面信息作为训练主题向量的语料。结果:通过对比实验,本文选取的初始URLs比随机选择的要有更高的收获比。从获取总量上看,本文的方法能获得更多的相关网页。结论:通过实验证明主题团的存在,通过本文方法能够选择质量更好的初始URLs,获取主题向量训练语料,发现更多主题团,并且方便用户对于主题爬虫的定制。  相似文献   

10.
主题爬虫是垂直搜索引擎的核心组成部分,它为面向主题的用户查询准备数据资源;提出了一种基于HMM的主题爬虫方法,方法不仅分析网页内容,而且还考虑网页的上下文链接结构,首先将当前网页的聚类结果作为观察状态、将当前网页到目标网页的链接距离作为隐含状态,然后通过HMM模型学习用户的主题浏览模式并利用它采集更多的主题网页;实验结果表明:方法能采集大量与指定主题相关的高质量网页,主题爬行效率优于Best-First主题爬虫。  相似文献   

11.
基于自建模糊本体的智能信息检索研究   总被引:1,自引:0,他引:1  
提出一种基于本体的信息检索模型,该模型将信息检索系统与从搜索的数据信息自动构建的本体相结合.使用在本模型中的本体有一般语义本体、领域知识和自动生成、构建的模糊概念层.主要研究基于本体的信息检索模型.描述处理过程及检索机制,并采用TREC的评价方法评估该模型,讨论应用不同类型本体的检索效果和影响.实验结果表明,提出的信息检索模型具有较好的检索效果.  相似文献   

12.
提出基于语义网技术的数字图书馆智能检索模型, 该模型以数字图书馆领域本体为基础, 采用双层本体结构, 通过本体映射和本体推理等技术实现了分布式和异质的数字图书馆的智能检索功能. 该模型可以实现数字图书馆语义级的资源共享和智能化的信息检索, 具有较高的查准率和良好的可伸缩性. 该模型提供了一种建设知识化和智能化数字图书馆的方法.  相似文献   

13.
本体作为语义基础被广泛应用于信息检索、人工智能、语义网络和知识管理等领域。针对目前评价体系模型构建中存在的静态性弊端,在研究中借鉴了软件系统框架的复用思想,利用本体领域概念进行领域规约及模型映射,将评价体系模型的构建与本体分析相结合,并首次将其应用于FDI效应模型的构建中,这对于社会学领域具有借鉴意义,同时也为构件库如何合理的自适应并装配所需构件提供了探索性的方法和路线。  相似文献   

14.
一种基于农业领域本体的语义检索模型   总被引:1,自引:0,他引:1  
基于农业领域本体和词汇,给出一个针对农业领域的语义检索改进模型.该模型接受用户自然语言输入,通过计算词语与本体知识之间的相关度和相似度,来实现词汇到知识的映射.针对农业领域本体特点,给出相应的语义扩展规则,把检索结果从本体知识扩展到与之相关的资源文档,并对检索结果进行排序.  相似文献   

15.
语义相关度计算是信息检索、文档分类和聚类、推荐系统、机器学习等诸多领域的关键技术之一。研究基于地学领域本体,综合考虑了本体层级信息量、本体拓扑结构等基础上,引入约束性本体,实现相关度计算算法。实验结果表明,加入约束性本体条件下实现的算法,相关度计算结果明显提高。  相似文献   

16.
为有效处理交通知识建模中的模糊与不确定现象,提出包括领域本体与顶层本体的模糊本体模型.在领域本体中引进模糊概念属性值,并将普通的概念关系扩展为模糊关系与直觉模糊关系.顶层本体基于模糊语言变量的形式化表示,考虑了模糊概念间的实质性语义关系:集合关系、序关系与等价关系.以交通事故分析与预测系统为例,建立交通知识本体模型与基于语义的信息检索系统.该模型可有效进行智能交通系统的知识建模,有利于语义Web环境下智能交通的信息管理与知识管理.  相似文献   

17.
18.
为了减轻用户在检索信息过程中的负担,根据现有信息检索模型存在的问题,引入本体的概念,建立了一种基于本体的信息检索模型.该模型目标是根据浏览器的历史记录、用户浏览网页的浏览行为等,来更新用户兴趣模块,以不同用户的不同信息需求向用户推荐符合用户意图的信息,从而有效的提高信息检索的查全率和查准率.  相似文献   

19.
中国画作品的电子化是当前中国画艺术传播的主要趋势,如何对电子化的中国画图像建模才能有效索引和检索就成为了一个挑战性问题。本体是很好的语义建模工具,能很好地解决这个问题。首先对中国画的特点进行了细致的分析,接着针对中国画的特点详细地论述了构建本体模型的过程,包括如何选择CRM本体中合适的属性以及将它们扩展到特定的中国画领域;最后,提出了基于本体的检索框架,并基于此框架进行图像的标注和检索。  相似文献   

20.
传统的跨语言信息检索存在翻译映射准确度低和查询扩展后语义偏离等问题。为此提出结合统计学和 本体论的方法构建多语言信息检索模型,通过使用统计翻译解决翻译映射歧义问题,使用多本体BabelNet 等减 少语义关联度损失。由于本体包含大量概念联系,因此使用本体作为语义层表示设计了语义权重算法,并将其 构建在BM25F 统计信息检索模型上作为用户反馈的排序算法。最后根据建立的模型设计实现了多语言信息检 索原型系统,并用基于爬虫技术获取的数据测试集对模型进行测试,实验结果表明,该模型平均查准率高于传 统的基于机器翻译的信息检索模型。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号