首页 | 本学科首页   官方微博 | 高级检索  
     检索      

应用特征聚合进行中文文本分类的改进KNN算法
引用本文:张晓辉,李莹,王华勇,赵宏.应用特征聚合进行中文文本分类的改进KNN算法[J].东北大学学报(自然科学版),2003,24(3):229-232.
作者姓名:张晓辉  李莹  王华勇  赵宏
作者单位:东北大学软件中心,辽宁沈阳,110004
基金项目:国家“八六三”高技术计划项目 ( 863 3 0 6 ZD0 2 0 2 6)
摘    要:针对以KNN为代表的VSM模型存在的向量各特征项孤立处理问题 ,提出了一种应用特征聚合方式的改进算法·该算法通过CHI概率统计计算文本特征词对分类的贡献 ,将对分类有相同贡献的文本特征词聚合 ,使用它们共同的分类贡献模式代替传统算法中单个词对应向量一维的方式·该算法提高了稀有词对分类的贡献、强化了关联词的分类效果、并降低了文本向量的维数·与传统KNN算法进行的对比实验证明 ,该算法明显提高了分类的准确率和召回率

关 键 词:KNN算法  中文文本分类  分类贡献模式  特征聚合
文章编号:1005-3026(2003)03-0229-04
修稿时间:2002年9月5日

An Improved KNN Algorithm Applied Term Feature Combination Technology for Chinese Textual Classification
ZHANG Xiao hui,LI Ying,WANG Hua yong,ZHAO Hong.An Improved KNN Algorithm Applied Term Feature Combination Technology for Chinese Textual Classification[J].Journal of Northeastern University(Natural Science),2003,24(3):229-232.
Authors:ZHANG Xiao hui  LI Ying  WANG Hua yong  ZHAO Hong
Institution:(1) Software Ctr., Northeastern Univ., Shenyang 110004, China
Abstract:A feature combination method was presented to improve the KNN algorithm. Each term's CHI value was calculated. Multiple discriminating words with same contribution on classification were combined into one pattern. The pattern was used as the basic feature dimension. The algorithm increases the discriminating words' contribution, enhances the effect of the related terms, and decreases the dimensions of the text vector. Compared with the traditional algorithm the algorithm increases recall and precision rate greatly.
Keywords:KNN algorithm  Chinese text categorization  contribution pattern on classification  feature combination
本文献已被 CNKI 维普 万方数据 等数据库收录!
点击此处可从《东北大学学报(自然科学版)》浏览原始摘要信息
点击此处可从《东北大学学报(自然科学版)》下载免费的PDF全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号