首页 | 本学科首页   官方微博 | 高级检索  
     

关于文本特征抽取新方法的研究
引用本文:李凡,鲁明羽,陆玉昌. 关于文本特征抽取新方法的研究[J]. 清华大学学报(自然科学版), 2001, 41(7): 98-101
作者姓名:李凡  鲁明羽  陆玉昌
作者单位:清华大学计算机科学与技术系,;清华大学计算机科学与技术系,;清华大学计算机科学与技术系,
基金项目:国家自然科学基金资助项目 (79990 5 80 ),国家“九七三”基础研究基金项目 (G19980 3 0 414 ),清华大学基础研究基金项目
摘    要:该文研究了已有和最新的各种基于评估函数的特征筛选方法 ,评价了它们的优缺点和适用范围 ,并实现了一种用评估函数代替 TFIDF法中 IDF函数进行分类的新算法。然后进一步从如何放宽特征独立性假设 ,利用等级关系的角度探讨了对特征筛选可能的改善

关 键 词:文本挖掘  词袋法  评估函数  特征独立性假设  等级树  特征抽取
文章编号:1000-0054(2001)07-0098-04
修稿时间:2000-10-11

Research about new methods of text feature extraction
LI Fan,LU Mingyu,LU Yuchang. Research about new methods of text feature extraction[J]. Journal of Tsinghua University(Science and Technology), 2001, 41(7): 98-101
Authors:LI Fan  LU Mingyu  LU Yuchang
Abstract:This paper analyzes most known feature selection methods based on scoring functions to analyze their advantages and disadvantages. A new algorithm is presented which uses scoring functions to adjust the weight of words instead of IDF functions as in TFIDF methods. The paper then considers how to relax the feature independent assumption in the feature selection and how to improve the result by reducing the number of features using hierarchical classifying algorithms.
Keywords:text mining  word of bag  feature independent assumption  evaluation function  classical tree  feature extraction  
本文献已被 CNKI 万方数据 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号