排序方式: 共有7条查询结果,搜索用时 15 毫秒
1
1.
Nutch的网页更新预测方法采用的是邻比法,相关更新参数需要人为设定,不能自适应调整,无法应对海量网页更新的差异性.为解决这个问题,提出动态选择策略对Nutch的网页更新预测方法进行改进.该策略在网页更新历史数据不足时,通过基于MapReduce的DBSCAN聚类算法来减少爬虫系统抓取网页数量,将样本网页的更新周期作为所属类其他网页的更新周期;在网页更新历史数据较多时,通过对网页更新历史数据进行泊松过程建模,较准确地预测每个网页的更新周期.最后在Hadoop分布式平台下对改进该策略测试.实验结果表明,优化后的网页更新预测方法表现更优. 相似文献
2.
Nutch是一个开放源代码的Web搜索引擎,由于不夫杂商业利益,它对搜索结果的排序算法较为透明公平。未来的搜索引擎的发展趋势之一是个性化和智能化,本文在研究开泺Nutch的基础上设计实现了一个具有关联用户搜索行为的搜索引擎。 相似文献
3.
夏天 《广西师范大学学报(自然科学版)》2010,28(1)
论述Nutch插件机制的设计目标,分析归纳Nutch轻量级插件体系结构所包括的3组基本概念:微内核、扩展点和扩展;插件、插件清单和插件清单描述器;插件工厂和插件清单解析器。总结Nutch插件的处理流程和概念与实际文件之间的对应关系。对Nutch插件机制的深入理解,有助于灵活构建基于Nutch的新应用。 相似文献
4.
摘 要 Nutch的排序机制使得一些传统的高质量的页面经常出现Web检索结果的前面,而新加入的高质量的Web页面很难被用户找到。针对传统基于链接算法中对新内容的迟钝性,本文提出了对网页的补偿算法,对Web上在一段时间内好的资源信息使其排名结果上升,而对于不好的资源使其下降,以此来加速优质内容的传播和网络内容的合理化。并最终把改进后的算法应用在基于Nutch的搜索引擎中,通过实验来验证和测试。 相似文献
5.
6.
基于Nutch的搜索引擎技术 总被引:1,自引:0,他引:1
Nutch是一个优秀的基于Java的开放源码搜索引擎,是以Lucene为基础实现的搜索引擎应用程序,其工作流程和现代商业搜索引擎工作原理一样:文本搜集、建立索引和查询.为了使它能够支持中文搜索,在分析了Nutch结构的基础上,采用词表分词技术和前向匹配分词算法对中文信息进行分词,以JavaCC脚本实现上下文相关文法中文分析模块,成功实现了Nutch中文搜索功能. 相似文献
7.
面向行业主题的搜索在特定主题信息覆盖方面与通用搜索引擎有着截然不同的要求,为解决行业信息搜索的问题对基于向量空间算法的化工相关度计算以及对经典的Page-Rank页面排序算法做了研究与改进并且在Nutch搜索引擎架构基础上,搭建了一个面向化工行业信息资源的垂直搜索引擎。相对于通用搜索引擎来说剔除掉了不必要的搜索结果信息量,提升了系统速度,提高了行业信息搜索的准确度。 相似文献
1