首页 | 本学科首页   官方微博 | 高级检索  
     检索      

基于权值调整的文本分类改进方法
引用本文:鲁明羽,李凡,庞淑英,陆玉昌,周立柱.基于权值调整的文本分类改进方法[J].清华大学学报(自然科学版),2003,43(4):513-515.
作者姓名:鲁明羽  李凡  庞淑英  陆玉昌  周立柱
作者单位:1. 清华大学,计算机科学与技术系,北京,100084;烟台大学,计算机学院,烟台,264005
2. 清华大学,计算机科学与技术系,北京,100084
3. 清华大学,计算机科学与技术系,北京,100084;昆明科技大学,计算中心,昆明,650093
基金项目:国家“九七三”重点基础研究项目 ( G19980 3 0 414 )
摘    要:文本分类是文本挖掘的基础与核心 ,可广泛应用于传统的情报检索和 Web信息的检索与挖掘等。提出了一种利用权值调整思想对向量空间法 (VSM)和朴素 Bayes分类器 (NBC)进行改进的文本分类方法 ,并探讨了利用 EM算法进行无导师 Bayes分类的方法 ,设计和实现了一个中英文文本分类系统 CZW。 3组实验数据表明 ,用某些评估函数调节单词权值可有效提高 VSM和 NBC等文本分类模型的精度 ,并且训练文本规模越大 ,改进的效果越明显。 NBC的分类精度最高可达 86 %。

关 键 词:文本分类  权值调整  VSM  Bayes分类器
文章编号:1000-0054(2003)04-0513-03
修稿时间:2002年1月21日

Improved text classification methods based on weighted adjustments
LU Mingyu ,LI Fan ,PANG Shuying ,LU Yuchang ,ZHOU Lizhu.Improved text classification methods based on weighted adjustments[J].Journal of Tsinghua University(Science and Technology),2003,43(4):513-515.
Authors:LU Mingyu    LI Fan  PANG Shuying    LU Yuchang  ZHOU Lizhu
Institution:LU Mingyu 1,2,LI Fan 1,PANG Shuying 1,3,LU Yuchang 1,ZHOU Lizhu 1
Abstract:Text classification is the key to text mining which is used extensively in traditional information searches, web information queries and web mining. A text classification method was developed using a weighted adjustment measure to improve the vector space model (VSM) and the naive Bayesian classifier (NBC). The EM algorithm was then used for non tutor Bayesian learning and a Chinese/English text classification system was developed. Three sets of test results show that the weighted adjustment measure using scoring functions can improve the precision of text classification models such as VSM and NBC with the effect increasing with increasing size of the training text set. The maximum NBC precision is 86%.
Keywords:text  classification  weight adjustment  VSM  Bayesian classifier
本文献已被 CNKI 万方数据 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号