首页 | 本学科首页   官方微博 | 高级检索  
     

面向农业科研办公的垂直搜索引擎研究与设计
作者姓名:李昀  邓颖  吴华瑞
作者单位:1. 北京市农林科学院;2. 国家农业信息化工程技术研究中心;3. 北京市农业信息技术研究中心;4. 农业农村部农业信息技术重点实验室
摘    要:在农业科研办公过程中,科研人员进行信息检索的频率高,信息需求精度高,但传统的综合性搜索引擎检索农业实用技术、政策法规、专题数据等方向性比较强的农业信息,通常返回结果数据量庞大、主旨范围宽泛,导致内容不精准、搜索面太广,筛选结果专业性不足;且现阶段主流的农业领域的垂直搜索引擎的搜索策略主要建立在传统的文本检索上,在自身领域数据量有限的情况下,搜索结果查全率不高,且搜索结果没有排序依据(大多仅仅按信息发生时间为排序依据).本文对农业互联网信息搜索引擎进行了研究,通过对各级农业管理部门网站、农业科研院所网站、农业新闻网站、农业商业网站等数据源的模块进行定位,通过爬虫进行数据更新检测与定时抓取,从数据源上有效减少不相关信息;基于数百个互联网数据源农业相关模块的信息抽取,采用word2vec和本文提出的基于文本特征表达的doc2vec,分别创建农业词向量、文档向量空间,用来应对搜索关键词为无序词组和有序语句的搜索场景,确保垂直搜索的智能和返回结果的准确.经过实验验证,本文提出的doc2vec+tf-idf搜索算法能够在有序搜索中达到较高的准确率,结合word2vec进行的无序搜索,有针对地进行语...

关 键 词:农业信息搜索引擎  语义相似度  word2vec  doc2vec  tf-idf  文本智能搜索
本文献已被 CNKI 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号