首页 | 本学科首页   官方微博 | 高级检索  
     

一种基于VSM文本分类系统的设计与实现
引用本文:李凡,林爱武,陈国社. 一种基于VSM文本分类系统的设计与实现[J]. 华中科技大学学报(自然科学版), 2005, 33(3): 53-55
作者姓名:李凡  林爱武  陈国社
作者单位:华中科技大学,计算机科学与技术学院,湖北,武汉,430074
基金项目:国家高性能计算基金资助项目 (0 0 30 3) .
摘    要:
阐述了一个基于改进向量空间模型的中文文本分类系统的设计与实现 ,包括对该系统的结构、预处理、特征提取、训练算法 ,分类算法等关键技术的介绍 .通过引入结构层次权重系数来改进文本特征项权重 ,同时提出一种新的训练算法和文本相似度域值计算方法 .实验结果证明 :该分类系统能有效地提高文本分类效果 ,开放性测试的平均准确率在 80 %以上 ,且平均查全率达到了 86 % .

关 键 词:文本分类  向量空间模型  特征提取  结构层次权重系数  训练算法  分类算法
文章编号:1671-4512(2005)03-0053-03
修稿时间:2004-06-04

A Chinese text categorization system based on the improved VSM
Li Fan,Lin Aiwu,Chen Guoshe. A Chinese text categorization system based on the improved VSM[J]. JOURNAL OF HUAZHONG UNIVERSITY OF SCIENCE AND TECHNOLOGY.NATURE SCIENCE, 2005, 33(3): 53-55
Authors:Li Fan  Lin Aiwu  Chen Guoshe
Affiliation:Li Fan Lin Aiwu Chen Guoshe Li Fan Prof., College of Computer Sci. & Tech.,Huazhong Univ. of Sci. & Tech.,Wuhan 430074,China.
Abstract:
A Chinese text categorization system was developed based on the improved vector space model, including the important aspects of system structure, text preprocessing, feature selection, training algorithm, and recognition algorithm. The system introduced the structure layer weight coefficient to improve the term weighting, and a new training algorithm and a way of computing text similarity threshold were described. The test result illustrated the effectiveness of the system for categorizing Chinese text. The average precision was over 80?% and the recall was 86?%.
Keywords:text categorization  vector space model  feature selection  structure-layer weight coefficient  training algorithm  recognition algorithm
本文献已被 CNKI 维普 万方数据 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号