首页 | 本学科首页   官方微博 | 高级检索  
     检索      

一种有效特征词发现的贝叶斯文本分类方法
引用本文:杨晔,彭宏,林嘉宜,陈绍坚.一种有效特征词发现的贝叶斯文本分类方法[J].系统工程,2004,22(9):107-110.
作者姓名:杨晔  彭宏  林嘉宜  陈绍坚
作者单位:1. 广东商学院,教育技术中心,广东,广州,510320
2. 华南理工大学,计算机学院,广东,广州,510640
3. 广州卷烟一厂,信息计算中心,广东,广州,510310
基金项目:广东省科技攻关项目(A1020103)
摘    要:根据信息学理论和贝叶斯语义模型,提出一种有效特征词发现方法,利用该方法对训练文本的原始文本特征词集进行聚类,对测试文本进行分类计算和类别标注。闭式测试的结果表明,文本识别的正确率达到了90%以上,该算法对互联网信息处理有较好的应用价值。

关 键 词:文本分类  特征抽取  KL距离  正态分布  贝叶斯概率
文章编号:1001-4098(2004)09-0107-04

The Bayesian Text Categorization Based on Extraction of Effectual Features
YANG Ye,PENG Hong,LIN Jia-yi,Chen Shao-jian.The Bayesian Text Categorization Based on Extraction of Effectual Features[J].Systems Engineering,2004,22(9):107-110.
Authors:YANG Ye  PENG Hong  LIN Jia-yi  Chen Shao-jian
Abstract:According to information theory and Bayesian Semantic model, this paper puts forward an effective text feature extract method which clusters the original text features of the training documents into words clusters. With this method, the test documents are classified and labeled by the text categorization system. The close experiments show that the precision is more than 90%. It is supposed to have a good application prospect in the field of internet information processing.
Keywords:Text Categorization  Feature Extraction  KL Divergence  Normal Distribution  Bayesian Probability
本文献已被 CNKI 维普 万方数据 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号