共查询到12条相似文献,搜索用时 187 毫秒
1.
2.
主题爬虫是垂直搜索引擎的核心组成部分,它为面向主题的用户查询准备数据资源;提出了一种基于HMM的主题爬虫方法,方法不仅分析网页内容,而且还考虑网页的上下文链接结构,首先将当前网页的聚类结果作为观察状态、将当前网页到目标网页的链接距离作为隐含状态,然后通过HMM模型学习用户的主题浏览模式并利用它采集更多的主题网页;实验结果表明:方法能采集大量与指定主题相关的高质量网页,主题爬行效率优于Best-First主题爬虫。 相似文献
3.
针对页面中的大量动态链接,提出了模拟浏览器的解析方式进行页面链接的提取,并设计实现了基于JaveScript等多链接分析的主题爬虫系统. 相似文献
4.
由于民用搜索引擎无法在军队中使用,随着部队人员对提供的各项信息服务的要求越来越高、越来越细,基于整个Web的信息采集越来越力不从心.同时它也无法迅速地搜集到足够的最新的网络信息,也不能满足人们日益增长的个性化需求.本文希望通过开发一个军事教育类主题方面的爬虫以满足用户专门检索军事教育类信息的要求. 相似文献
5.
基于用户群的智能主题爬虫 总被引:1,自引:1,他引:0
提出一个基于用户群的智能主题爬虫系统CITC。它首先对用户群日志进行挖掘,得到相应的知识库。在知识库的指导下,CITC采用多重选择策略,对网页进行选择性爬取。实验结果表明,此系统能够基于用户群兴趣有效地抓取目的网页。 相似文献
6.
7.
Web信息的急剧增长使搜索引擎专用化成为发展趋势.采用了基于概念空间的主体爬虫结构,构造了一个快速、有效的主题信息搜索机器人系统.试验结果表明,该方法具有较高的召回率和精确率. 相似文献
8.
主题爬虫是垂直搜索引擎的关键构建,其搜索算法的优劣直接影响到搜索引擎的查全率和查准率。本文简要介绍了垂直搜索引擎中主题爬虫的工作原理;归纳了常见的几种搜索策略算法;分析了主题爬虫的搜索策略的特点,并比较了几种搜索策略的优缺点;总结了提高主题爬虫搜索效率的关键因素及发展趋势;为后期的学习和研究打下基础。 相似文献
9.
王鲁荣 《四川师范大学学报(自然科学版)》2011,34(6):919-921
在校园网已经成为Internet一部分的今天,构建和谐校园网,不仅需要对校园网内部进行有效的管理,同时还需要动态掌握Internet上的信息,避免不良信息入侵校园为校园管理带来安全隐患.研究了如何通过主题网络爬虫技术实现高校网络信息动态搜索和监控,方便网络管理者及时、有针对性地获取互联网上的相关信息. 相似文献
10.
《烟台大学学报(自然科学与工程版)》2017,(3):255-260
主题网络爬虫技术是获取特定主题的有效手段,其搜索算法的性能直接决定着搜索结果的优劣.文章综合分析了现有的网络信息搜索算法,并将遗传算法思想应用到主题网络爬虫技术中,提出了非贪婪遗传主题网络搜索算法.实验结果表明,该算法能够采集到更多主题相关度高的网页,提高信息采集正确率,快速高效获取交通相关的信息. 相似文献
11.
胡苏 《中山大学研究生学刊(自然科学与医学版)》2006,27(4):108-115
冲突分析是多Agent系统(MAS)运行机理研究中的重要课题,本文以在现实生活中存在形式更为广泛的Agent群体为研究粒度,讨论了基于Agent群体的冲突分析模式,以单个事件为切入点,对冲突分析中的各个要素进行形式化的数学描述,建立了多个事件情形中冲突的模型并预测中立群体的发展趋势。 相似文献
12.
灰色系统理论的关联分析是一种定量分析.在此基础上,提出了一种方案评价的新方法.该方法原理是,根据方案的各个技术经济指标,构造出最优和最劣的指标参考数据列,求出每个方案的指标数据列与最优、最劣参考数据列的关联度,即最优关联度和最劣关联度,并构造评价函数,从而获得方案的优劣排序. 相似文献