首页 | 本学科首页   官方微博 | 高级检索  
     检索      

中文网页自动分类新算法
引用本文:张俐,李星,陆大.中文网页自动分类新算法[J].清华大学学报(自然科学版),2000,40(1).
作者姓名:张俐  李星  陆大
作者单位:清华大学,电子工程系,北京,100084
基金项目:国家自然科学基金项目!(6 96 2 5 1 0 3)
摘    要:为了有效地组织因特网上极其丰富的信息资源 ,通过分析中文和中文网页的特点 ,提出了一种新的中文网页的自动分类算法。这种算法主要利用字间的相关信息、词频以及页面的标记信息等 ,提取网页特征 ,并计算可调的词频加权参数 ,然后通过本类和非本类训练 ,建立专家数据库。实验表明 ,该算法可以获得 80 %以上的网页分类准确率

关 键 词:文本分类  搜索引擎  超文本描述语言(HTML)

New automatic categorization algorithm for Chinese homepages
ZHANG Li,LI Xing,LU Dajin.New automatic categorization algorithm for Chinese homepages[J].Journal of Tsinghua University(Science and Technology),2000,40(1).
Authors:ZHANG Li  LI Xing  LU Dajin
Abstract:Current abundant resources can be accessed on the Internet, but there is no effective method to organize the information. Through analysising of the characteristics of Chinese text and Chinese homepages, a new automatic categorization method for Chinese homepages was presented. This method correlates the Chinese characters, the term frequency, and the hypertext markup language (HTML) tag information in the homepage to calculate an adjustable term frequency weighting parameter. An expert database is built using both in set and out set sample training. Experiments show that the method's recognition rate is about 80%.
Keywords:text  categorization  search engine  hypertext markup languagel (HTML)
本文献已被 CNKI 万方数据 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号