首页 | 本学科首页   官方微博 | 高级检索  
     检索      

网页文本分类中的特征选择研究
引用本文:庞宁,杨尔弘.网页文本分类中的特征选择研究[J].太原科技大学学报,2007,28(4):279-281.
作者姓名:庞宁  杨尔弘
作者单位:1. 太原科技大学应用科学学院,太原,030024
2. 北京语言大学,北京,100083
摘    要:由于超链接语言结构本身所提供的信息,网页分类问题不同于一般的文本分类。本文分析了网页内部特征,并在1000篇网页规模语料库的基础上,通过试验对比了三种特征选择方法对高维特征向量空间进行降维的效果。文章还提出了一种新方法,根据特征项所处的位置赋予不同权重的方法,实验表明这种由文本结构导出的权重计算方法能够取得很好的分类效果。

关 键 词:网页分类  特征选择  权重计算
文章编号:1673-2057(2007)04-0279-03
修稿时间:2006-12-27

Research of Feature Selection for Web Page Classification
PANG Ning,YANG Er-hong.Research of Feature Selection for Web Page Classification[J].Journal of Taiyuan University of Science and Technology,2007,28(4):279-281.
Authors:PANG Ning  YANG Er-hong
Institution:1. The College of Applying Science, Taiyuan University of Science and Technology, Taiyuan 030024, China; 2. Beijing Language and Ccuhure University,Beijing 100083 ,China
Abstract:Web page classification is different from common text classification because of the presence of some information that provided by the HTML structure. In this paper, .we analyze these peculiarities, and conduct experiments on a corpus of 1000 web page to contrasts three feature selection techniques for dimensionality reduction of the feature space. The paper introduces a new method that the feature item in the different position is endued with different weighting. Our experiments show structure-orlented weighting technique can improve classification performance.
Keywords:web page classification  feature selection  weight computing
本文献已被 维普 万方数据 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号