首页 | 本学科首页   官方微博 | 高级检索  
     

面向垂直搜索引擎的一种动态网页的抓取方法
作者姓名:杨曦  罗燕京  钟锋
作者单位:北京航空航天大学软件工程研究所,北京航空航天大学软件工程研究所,北京航空航天大学软件工程研究所
摘    要:在垂直搜索引擎中,怎样抓取动态生成的主题网页一直是面向垂直搜索引擎网页抓取器的一个难题.本文提出了一种基于IE内核和DOM的面向垂直搜索引擎的动态网页抓取方法.实验表明,该方法对动态网页和主题网页抓取的准确率平均在95%以上,召回率平均在97%以上.

关 键 词:动态网页  IE内核  提取模式
本文献已被 CNKI 万方数据 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号