首页 | 本学科首页   官方微博 | 高级检索  
     检索      

一种基于文本抽取的网页正文去重算法
引用本文:曹传东,郭理.一种基于文本抽取的网页正文去重算法[J].科技信息,2009(1).
作者姓名:曹传东  郭理
作者单位:石河子大学信息科学与技术学院;
摘    要:搜索结果页面的去重处理是提高网页检索结果质量的有效途径,笔者结合二叉排序树设计了一种基于文本抽取的网页正文去重算法,本文给出了该算法的具体实现。实验测试结果表明该算法在判断准确率、时间复杂度方面均具有一定优势,可应用于网络信息检索结果优化处理中的页面正文内容去重。

关 键 词:文本抽取  网页特征码  二叉排序树  网页去重
本文献已被 CNKI 维普 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号