面向垂直搜索引擎的一种动态网页的抓取方法 |
| |
作者姓名: | 杨曦 罗燕京 钟锋 |
| |
作者单位: | 北京航空航天大学软件工程研究所,北京航空航天大学软件工程研究所,北京航空航天大学软件工程研究所 |
| |
摘 要: | 在垂直搜索引擎中,怎样抓取动态生成的主题网页一直是面向垂直搜索引擎网页抓取器的一个难题.本文提出了一种基于IE内核和DOM的面向垂直搜索引擎的动态网页抓取方法.实验表明,该方法对动态网页和主题网页抓取的准确率平均在95%以上,召回率平均在97%以上.
|
关 键 词: | 动态网页 IE内核 提取模式 |
本文献已被 CNKI 万方数据 等数据库收录! |
|