一种基于文本抽取的网页正文去重算法 |
| |
引用本文: | 曹传东,郭理.一种基于文本抽取的网页正文去重算法[J].科技信息,2009(1). |
| |
作者姓名: | 曹传东 郭理 |
| |
作者单位: | 石河子大学信息科学与技术学院; |
| |
摘 要: | 搜索结果页面的去重处理是提高网页检索结果质量的有效途径,笔者结合二叉排序树设计了一种基于文本抽取的网页正文去重算法,本文给出了该算法的具体实现。实验测试结果表明该算法在判断准确率、时间复杂度方面均具有一定优势,可应用于网络信息检索结果优化处理中的页面正文内容去重。
|
关 键 词: | 文本抽取 网页特征码 二叉排序树 网页去重 |
本文献已被 CNKI 维普 等数据库收录! |
|