首页 | 本学科首页   官方微博 | 高级检索  
     检索      

一种快速文本归类算法的设计与实现
引用本文:高影繁,马润波,刘玉树.一种快速文本归类算法的设计与实现[J].北京理工大学学报,2006,26(12):1069-1072.
作者姓名:高影繁  马润波  刘玉树
作者单位:北京理工大学,计算机科学技术学院,北京,100081;山西大学,物理电子工程学院,山西,太原,030006
摘    要:为实现无维数约减技术而使分类算法可行且不浪费空间存储的超稀疏文档向量,同时保证分类精度和速度且两者相互独立的目标,提出使用类别特征信息数据库、类别特征权重向量模型、待归类文档压缩向量表示法和改进的Rocchio分类算法等技术实现文档的高速归类. 在相同的Reuters测试语料集上,与CRF算法和改进的kNN算法进行对比实验. 结果表明,在基本不牺牲精度的情况下,归类算法的分类速度明显高于对比算法.

关 键 词:类别特征库  类别特征权重向量模型  压缩文档向量表示
文章编号:1001-0645(2006)12-1069-04
收稿时间:07 20 2006 12:00AM
修稿时间:2006年7月20日

Design and Implementation of a Fast Text Categorization Algorithm
GAO Ying-fan,MA Run-bo and LIU Yu-shu.Design and Implementation of a Fast Text Categorization Algorithm[J].Journal of Beijing Institute of Technology(Natural Science Edition),2006,26(12):1069-1072.
Authors:GAO Ying-fan  MA Run-bo and LIU Yu-shu
Institution:1. School of Computer Science and Technology, Beijing Institute of Technology, Beijing 100081, China; 2. College of Physics and Electronics, Shanxi University, Taiyuan, Shanxi 030006, China
Abstract:In the text categorization algorithm given in the paper,there are three involved objects vid.: feasible algorithm without dimension reduction,no space for super sparse vectors,and independent effectiveness and efficiency.These objects are turned into reality by means of category-feature database,category feature weight vector model,compressed document vector representation and improved Rocchio classifier.Contrasting experiments have been carried out on the same Reuters corpus with the CRF and improved kNN algorithm.It is proved that the method has better efficiency and tolerable effectiveness.
Keywords:category-feature database  category-feature weight vector model  compressed document vector representation
本文献已被 CNKI 维普 万方数据 等数据库收录!
点击此处可从《北京理工大学学报》浏览原始摘要信息
点击此处可从《北京理工大学学报》下载免费的PDF全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号