首页 | 本学科首页   官方微博 | 高级检索  
     检索      

基于DOM的WEB主题信息抽取
引用本文:杨俊,李志蜀.基于DOM的WEB主题信息抽取[J].四川大学学报(自然科学版),2008,45(5):1077-1080.
作者姓名:杨俊  李志蜀
作者单位:四川大学计算机学院,成都,610064
摘    要:随着Internet 的发展及其广泛应用,WEB上的信息呈爆炸式增长趋势,但是WEB页面通常包含了很多与主题内容无关的信息,影响了对主题内容的快速获取以及对WEB信息的各种应用.本文提出了一种基于DOM的WEB页面主题抽取方法,快速准确的提取出WEB页面的主题内容,并对1000个网页进行了测试.实验结果表明该方法切实可行,可达到92.46%的准确率.

关 键 词:信息提取  分块

DOM-based information extraction for WEB-pages topic
YANG,Jun and LI,Zhi-Shu.DOM-based information extraction for WEB-pages topic[J].Journal of Sichuan University (Natural Science Edition),2008,45(5):1077-1080.
Authors:YANG  Jun and LI  Zhi-Shu
Institution:College of Computer Scinence, Sichuan University;College of Computer Scinence, Sichuan University
Abstract:
Keywords:DOM  HTML
本文献已被 维普 万方数据 等数据库收录!
点击此处可从《四川大学学报(自然科学版)》浏览原始摘要信息
点击此处可从《四川大学学报(自然科学版)》下载免费的PDF全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号