首页 | 本学科首页   官方微博 | 高级检索  
     检索      

带专业词库的特征选择
引用本文:刘晓志,黄厚宽,尚文倩.带专业词库的特征选择[J].北京交通大学学报(自然科学版),2006,30(2):97-100.
作者姓名:刘晓志  黄厚宽  尚文倩
作者单位:北京交通大学,计算机与信息技术学院,北京,100044;北京交通大学,计算机与信息技术学院,北京,100044;北京交通大学,计算机与信息技术学院,北京,100044
基金项目:铁道部重点开发资助项目
摘    要:在经典特征选择算法的基础上,提出一种带专业词库的特征选择方法.在训练分类模型的时候,适当加重属于专业词汇的特征的权重.这种方法能够有效地避免特征选择时误删有用的低频词,因此,适合用于短文本的分类(电子邮件等).实验结果表明,本方法在抽取特征维数较少时,分类准确率提高约3%.

关 键 词:文本分类  特征选择  权重  K-近邻  支持向量机  专业词库
文章编号:1673-0291(2006)02-0097-04
收稿时间:2005-07-05
修稿时间:2005-07-05

Feature Selection with Term Library
LIU Xiao-zhi,HUANG Hou-kuan,SHANG Wen-qian.Feature Selection with Term Library[J].JOURNAL OF BEIJING JIAOTONG UNIVERSITY,2006,30(2):97-100.
Authors:LIU Xiao-zhi  HUANG Hou-kuan  SHANG Wen-qian
Institution:School of Computer and Information Technology, Beijing Jiaotong University, Beijing 100044, China
Abstract:Based on the classical feature selection algorithms,this paper proposes a new approach to improve feature selection by taking domain terms into consideration.When training a model,the features of a certain class will be weighted(added weight) if they turn up in a given term library.This method effectively avoids canceling low frequent but genuinely useful features by mistake.Thus,it is efficient especially for short text(such as mails) classification and can reduce the feature dimension.
Keywords:classification  feature selection  feature weight  KNN  SVM  term library
本文献已被 CNKI 维普 万方数据 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号