首页 | 本学科首页   官方微博 | 高级检索  
     检索      

基于结构与内容的网页主题信息提取研究
引用本文:吴鹏飞,孟祥增,刘俊晓,马凤娟.基于结构与内容的网页主题信息提取研究[J].山东大学学报(理学版),2006,41(3):131-134.
作者姓名:吴鹏飞  孟祥增  刘俊晓  马凤娟
作者单位:山东师范大学,传播学院,山东,济南,250014
基金项目:教育部科学技术研究项目
摘    要:结合HTML网页内部特征与外部的结构布局,提出采用映射表这种网页映射模式对网页视图进行变换,基于结构与启发式规则对网页进行区域分割与识别,并利用向量空间模型对网页内容分析,从而准确得到具有高语义内聚性的网页主题内容.实验结果表明,此方法对各种复杂结构的网页主题信息提取较为理想.

关 键 词:映射表  启发式规则  HTML  区域分割  向量空间模型
文章编号:1671-9352(2006)03-0041-04
收稿时间:2006-03-29
修稿时间:2006年3月29日

Structure and content-based extraction of topical information from Web pages
WU Peng-fei,MENG Xiang-zheng,LIU Jun-xiao,MA Feng-juan.Structure and content-based extraction of topical information from Web pages[J].Journal of Shandong University,2006,41(3):131-134.
Authors:WU Peng-fei  MENG Xiang-zheng  LIU Jun-xiao  MA Feng-juan
Institution:School of Communication, Shandong Normal Univ., Jinan 250014, Shandong, China
Abstract:Combining the Web page's internal features and external structural layout,mapping table is suggested to tansform the view of Web page.The approach gets highly semantic cohesiveness of the topical contents of the Web page exactly,based on the structure and revelatory rules for Web page's segmentation and identification and the use of the vector space model for Web(content) analysis.Experimental results show that this method is more ideal for the topical information extraction of complexstructure Web pages.
Keywords:HTML
本文献已被 CNKI 维普 万方数据 等数据库收录!
点击此处可从《山东大学学报(理学版)》浏览原始摘要信息
点击此处可从《山东大学学报(理学版)》下载免费的PDF全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号