首页 | 本学科首页   官方微博 | 高级检索  
     检索      

视觉与标签信息的Deep Web查询页面内容提取
引用本文:冯永,唐黎.视觉与标签信息的Deep Web查询页面内容提取[J].重庆大学学报(自然科学版),2012,35(6):117-124.
作者姓名:冯永  唐黎
作者单位:重庆大学 计算机学院;信息物理社会可信服务计算教育部重点实验室,重庆 400044;重庆大学 计算机学院;信息物理社会可信服务计算教育部重点实验室,重庆 400044
基金项目:国家自然科学基金资助项目(61103114);重庆市高等教育教学改革研究重点资助项目(112023);中央高校基本科研业务基金资助项目(CDJXS11181164);“211工程”三期建设资助项目(S 10218)
摘    要:提出了一种结合页面视觉信息和标签信息来提取页面内容结构的方法——DVS。DVS首先通过分析页面的CSS样式信息、DOM树以获得页面的视觉信息和标签信息,初步得到页面的视觉树;然后利用树的路径相似算法,既考虑标签信息又考虑视觉信息来计算树中模块的相似性,对模块进行聚类,最终得到页面的视觉树,即页面的内容结构。DVS主要的特色在于从视觉信息和标签信息两方面来提取页面的内容结构;采用树形结构表示视觉信息,将分析视觉信息转换成分析“视觉属性”树。实验采用UIUC的TEL数据集,分别与WTS算法、VIPS算法进行了比较,文中算法可以获得更高的准确性。

关 键 词:深层网    内容提取    DOM树    CSS样式  视觉树

Combining vision information and tag information to extract Deep Web result pages content
FENG Yong and TANG Li.Combining vision information and tag information to extract Deep Web result pages content[J].Journal of Chongqing University(Natural Science Edition),2012,35(6):117-124.
Authors:FENG Yong and TANG Li
Abstract:
Keywords:deep web  content extraction  dom tree  cascading style sheet  visual tree
点击此处可从《重庆大学学报(自然科学版)》浏览原始摘要信息
点击此处可从《重庆大学学报(自然科学版)》下载免费的PDF全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号