网页分类技术 Web document classification techniques期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

网页分类技术

引用本文：	孙建涛,沈抖,陆玉昌,石纯一. 网页分类技术[J]. 清华大学学报(自然科学版), 2004, 44(1): 65-68

作者姓名：	孙建涛沈抖陆玉昌石纯一

作者单位：	清华大学,计算机科学与技术系,智能技术与系统国家重点实验室,北京,100084

基金项目：	国家 "九七三" 基础研究基金项目(G1998030414)

摘要：	网页分类是使用机器学习的方法实现网页类别的自动标注.回顾了文本分类技术的研究状况,分析了网页的结构特征,难点在于结合网页的结构信息选择合理的表示方式和分类算法.使用纯文本分类技术处理网页是不合理的.基于概率模型的方法和关系学习方法计算量大,关系学习方法学习结果的可解释性好,支持向量机方法分类准确率高,但核函数的构造和大规模数据集的训练都是该算法的难题.应该采用多种指标对网页分类算法进行评价.
关键词：	机器学习网页分类文本分类网络挖掘
文章编号：	1000-0054(2004)01-0065-04
修稿时间：	2003-04-14
Web document classification techniques

Abstract:

Keywords:	machine learning web document classification text categorization web mining
本文献已被万方数据等数据库收录！