首页 | 本学科首页   官方微博 | 高级检索  
     

网页结构树相似度计算
引用本文:祁钰,关毅,吕新波,岳淑珍. 网页结构树相似度计算[J]. 黑龙江大学自然科学学报, 2009, 26(5)
作者姓名:祁钰  关毅  吕新波  岳淑珍
作者单位:哈尔滨工业大学计算机科学与技术学院,哈尔滨,150001;哈尔滨工业大学计算机科学与技术学院,哈尔滨,150001;哈尔滨工业大学计算机科学与技术学院,哈尔滨,150001;哈尔滨工业大学计算机科学与技术学院,哈尔滨,150001
基金项目:国家自然科学基金项目资助项目(60736044)
摘    要:提出了一种针对网页结构树的相似度计算方法,首先把网页标签结构表示成树,然后通过动态规划算法,使两棵树在每一层上最相似的儿子节点继续进行比较,而那些没有找到匹配节点的儿子节点则产生距离,累加这些距离作为两棵树之间的距离,以此来衡量两个网页之间的相似程度。实验证明本方法可以正确区分同类网页和不同类网页。

关 键 词:网页结构树  相似度  动态规划算法

Similarity evaluation of tree-structured web pages
QI Yu,GUAN Yi,LV Xin-bo,YUE Shu-zhen. Similarity evaluation of tree-structured web pages[J]. Journal of Natural Science of Heilongjiang University, 2009, 26(5)
Authors:QI Yu  GUAN Yi  LV Xin-bo  YUE Shu-zhen
Affiliation:School of Computer Science and Technology;Harbin Institute of Technology;Harbin 150001;China
Abstract:A similarity calculation method for tree-structured web pages is proposed.The structure of web page labels are firstly transformed into tree,and then make the most similar son nodes between each layer of the two trees continue comparing by a dynamic programming algorithm,the nodes which miss match are regarded the part of distance,the total distance between two trees are computed by adding in all the parts of distance through which to calculate their similarity degree.The experimental result shows that this...
Keywords:web page structured tree  similarity  dynamic programming algorithm  
本文献已被 CNKI 万方数据 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号