首页 | 本学科首页   官方微博 | 高级检索  
     

针对Web论坛的一种结构化数据自动抽取方法
引用本文:关冕,马军. 针对Web论坛的一种结构化数据自动抽取方法[J]. 山东大学学报(理学版), 2010, 45(5): 42-47
作者姓名:关冕  马军
作者单位:山东大学计算机科学与技术学院,山东,济南,250101
基金项目:国家自然科学基金资助项目,山东省自然科学基金资助项目,山东省科技攻关资助项目 
摘    要:由于网页布局设计的复杂性和用户发表帖子的灵活性,从论坛网页中抽取结构化的数据是一项未能很好解决并非常具有挑战性的任务。本文提出了一种从任意的论坛站点中自动抽取结构化数据的通用解决方案,通过分析网页结构发现列表页和帖子页中的数据记录,并利用一组产生式规则从发现的数据记录中抽取结构化的数据。实验结果表明该方法在抽取论坛数据记录方面明显优于已有的方法,对论坛帖子的标题、作者、发表时间和内容文本块等元数据的抽取达到了较高的准确率。

关 键 词:论坛  结构化数据  信息抽取  Web挖掘
收稿时间:2009-09-26

Automatic structured data extraction from Web forums
GUAN Mian,MA Jun. Automatic structured data extraction from Web forums[J]. Journal of Shandong University, 2010, 45(5): 42-47
Authors:GUAN Mian  MA Jun
Affiliation:School of Computer Science and Technology, Shandong University, Jinan 250101, Shandong, China
Abstract:Because of both complex page layout designs and unrestricted user created posts, extracting structured data from Web forum pages is a very challenging task and not easily solved.  A general solution to automatically extract structured data from any forum site was proposed. By analyzing page structure, a group of data records were found from both list page and post page, and then a set of production rules was used to extract structured data from these data records. Experimental results showed that the proposed approach significantly outperformed some existing methods in extracting data records and achieved high accuracy in extracting some metadata of Web forums such as title, author, time and content.
Keywords:Web forums   structured data   information extraction   Web mining
本文献已被 CNKI 万方数据 等数据库收录!
点击此处可从《山东大学学报(理学版)》浏览原始摘要信息
点击此处可从《山东大学学报(理学版)》下载全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号