首页 | 本学科首页   官方微博 | 高级检索  
     

基于VSM的中文文本分类系统的设计与实现
引用本文:张东礼,汪东升,郑纬民. 基于VSM的中文文本分类系统的设计与实现[J]. 清华大学学报(自然科学版), 2003, 43(9): 1288-1291
作者姓名:张东礼  汪东升  郑纬民
作者单位:清华大学,计算机科学与技术系,北京,100084
基金项目:国家自然科学基金资助项目(60131160743)
摘    要:文本分类是指在给定分类体系下,根据文本的内容自动确定文本类别的过程。该文阐述了一个基于向量空间模型的中文文本分类系统的设计和实现。对文本分类系统的系统结构、预处理、特征提取、训练算法、分类算法等进行了详细介绍。引入标题权重系数改进词语权重,并提出了一种新的分类算法。实验测试结果表明查全率和准确率均达到90%左右,而且标题权重的引入和新分类算法的实施有效地改善了分类性能。

关 键 词:文字信息处理  文本分类  分类算法  特征提取  向量空间模型
文章编号:1000-0054(2003)09-1288-04
修稿时间:2002-11-15

Chinese text classification system based on VSM
ZHANG Dongli,WANG Dongsheng,ZHENG Weimin. Chinese text classification system based on VSM[J]. Journal of Tsinghua University(Science and Technology), 2003, 43(9): 1288-1291
Authors:ZHANG Dongli  WANG Dongsheng  ZHENG Weimin
Abstract:
Keywords:character information processing  text categorization  classification algorithm  feature selection  vector space model
本文献已被 CNKI 万方数据 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号