排序方式: 共有2条查询结果,搜索用时 0 毫秒
1.
通过对现有网页数据抽取方法的分析,结合专利网页数据的特点,提出了一种基于XML文件和规则库的专利数据抽取方法。通过自定义标签对网页进行格式化,克服了以往网页采集中只针对<\table>和<\div>标签进行分割提取数据的不足,实现了专利数据的有效采集。实验结果表明该方法具有很高的准确性和适用性。
相似文献
2.
介绍了 HttpClient 的访问机制,提出了利用 HttpClient 组件、结合 XML 技术和线程调度控制技术,仿真用户检索国外专利网站的方案,实现了自动采集国外专利数据的功能.
相似文献