首页 | 本学科首页   官方微博 | 高级检索  
     

基于向量空间模型的文本自动分类系统的研究与实现
引用本文:武旭,须德. 基于向量空间模型的文本自动分类系统的研究与实现[J]. 北京交通大学学报(自然科学版), 2003, 27(2): 38-41
作者姓名:武旭  须德
作者单位:北方交通大学计算机与信息技术学院,北方交通大学计算机与信息技术学院 北京100044,北京100044
摘    要:分析了文本自动分类的关键理论及技术,给出一个已实现的基于向量空间模型(VSM)的文本自动分类系统的框架模型,重点描述此系统的实现算法.此算法在训练阶段通过部分训练集确定向量的特征提取维数,并提出一种"平均值"匹配阈值调整方法,从而在精度和效率方面优于传统的分类算法.实验表明此系统查准率为91.8%,查全率为85%.

关 键 词:文本分类  向量空间模型  特征提取
文章编号:1000-1506(2003)02-0038-04
修稿时间:2002-09-17

Research and Implementation of Automatic Text Categorization System Based on VSM
WU Xu,XU De. Research and Implementation of Automatic Text Categorization System Based on VSM[J]. JOURNAL OF BEIJING JIAOTONG UNIVERSITY, 2003, 27(2): 38-41
Authors:WU Xu  XU De
Abstract:This paper firstly gives a research to several key techniques about Text Categorization, and then provides the architecture of an implemented Automatic Text Categorization System Based on VSM, focusing on its implementation algorithms which determine the vector feature selection dimension via test set in training process and provide an "Average" matching_threshold adjustment method. Thus it outperforms the traditional classification algorithms in precision and speed. Finally, the evaluations and test results are presented in this paper.
Keywords:text categorization  vector space model  feature selection
本文献已被 CNKI 万方数据 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号