首页 | 本学科首页   官方微博 | 高级检索  
     检索      

网页分类技术
引用本文:孙建涛,沈抖,陆玉昌,石纯一.网页分类技术[J].清华大学学报(自然科学版),2004,44(1):65-68.
作者姓名:孙建涛  沈抖  陆玉昌  石纯一
作者单位:清华大学,计算机科学与技术系,智能技术与系统国家重点实验室,北京,100084
基金项目:国家 "九七三" 基础研究基金项目(G1998030414)
摘    要:网页分类是使用机器学习的方法实现网页类别的自动标注.回顾了文本分类技术的研究状况,分析了网页的结构特征,难点在于结合网页的结构信息选择合理的表示方式和分类算法.使用纯文本分类技术处理网页是不合理的.基于概率模型的方法和关系学习方法计算量大,关系学习方法学习结果的可解释性好,支持向量机方法分类准确率高,但核函数的构造和大规模数据集的训练都是该算法的难题.应该采用多种指标对网页分类算法进行评价.

关 键 词:机器学习  网页分类  文本分类  网络挖掘
文章编号:1000-0054(2004)01-0065-04
修稿时间:2003年4月14日

Web document classification techniques
Abstract:
Keywords:machine learning  web document classification  text categorization  web mining
本文献已被 万方数据 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号