网页分类技术 |
| |
引用本文: | 孙建涛,沈抖,陆玉昌,石纯一. 网页分类技术[J]. 清华大学学报(自然科学版), 2004, 44(1): 65-68 |
| |
作者姓名: | 孙建涛 沈抖 陆玉昌 石纯一 |
| |
作者单位: | 清华大学,计算机科学与技术系,智能技术与系统国家重点实验室,北京,100084 |
| |
基金项目: | 国家 "九七三" 基础研究基金项目(G1998030414) |
| |
摘 要: | 网页分类是使用机器学习的方法实现网页类别的自动标注.回顾了文本分类技术的研究状况,分析了网页的结构特征,难点在于结合网页的结构信息选择合理的表示方式和分类算法.使用纯文本分类技术处理网页是不合理的.基于概率模型的方法和关系学习方法计算量大,关系学习方法学习结果的可解释性好,支持向量机方法分类准确率高,但核函数的构造和大规模数据集的训练都是该算法的难题.应该采用多种指标对网页分类算法进行评价.
|
关 键 词: | 机器学习 网页分类 文本分类 网络挖掘 |
文章编号: | 1000-0054(2004)01-0065-04 |
修稿时间: | 2003-04-14 |
Web document classification techniques |
| |
Abstract: | |
| |
Keywords: | machine learning web document classification text categorization web mining |
本文献已被 万方数据 等数据库收录! |
|