首页 | 本学科首页   官方微博 | 高级检索  
     

利用分块重要度进行中文网页分类的研究
引用本文:段昕,马军,宋玲. 利用分块重要度进行中文网页分类的研究[J]. 山东大学学报(理学版), 2006, 41(3): 108-111
作者姓名:段昕  马军  宋玲
作者单位:山东大学,计算机科学与技术学院,山东,济南,250061;山东建筑大学,计算机科学与技术系,山东,济南,250101
基金项目:教育部高校骨干教师资助计划
摘    要:由于网页中存在着许多“噪声”信息,所以相对于传统的纯文本分类来说,中文主题网页分类是一项更为困难的工作. 但网页可以划分成不同的块,对分类而言每个块的重要度是不同的,可以利用分块的重要度提高网页分类的质量.介绍了几种流行的网页分块技术,并通过实验验证了基于分块重要度的主题网页分类法的分类质量优于传统的主题网页分类法.

关 键 词:网页分割  块重要度  网页分类
文章编号:1671-9352(2006)03-0001-04
收稿时间:2006-03-30
修稿时间:2006-03-30

The study of Chinese Web-page classification based on block importance
DUAN Xin,MA Jun,SONG Ling. The study of Chinese Web-page classification based on block importance[J]. Journal of Shandong University, 2006, 41(3): 108-111
Authors:DUAN Xin  MA Jun  SONG Ling
Affiliation:1. School of computer science and technology, Shandong Univ., Jinan 250061, Shandong, China; 2. Department of computer science and technology, Shandong Architecture Univ., Jinan 250101, Shandong, China
Abstract:Web-page classification is more difficult than that for pure-text documents because of noisy information in Web pages. A Web page can be segmented into multiple blocks and the importance of blocks in a Web page for classification is not equivalent, which can be utilized to improve the quality of Web-page classification. Several prevalent methods for block-segmentation in a Web page are introduced, and then it is validated that the method for Chinese Web-page classification based on block importance is better than the one for traditional methods.
Keywords:Web-page segmentation   importance of block   Web-page classification
本文献已被 CNKI 维普 万方数据 等数据库收录!
点击此处可从《山东大学学报(理学版)》浏览原始摘要信息
点击此处可从《山东大学学报(理学版)》下载全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号