首页 | 本学科首页   官方微博 | 高级检索  
     

HTML文档分类中的词元权重算法
引用本文:栾虹. HTML文档分类中的词元权重算法[J]. 山东师范大学学报(自然科学版), 2005, 20(2): 22-25
作者姓名:栾虹
作者单位:济南大学信息科学与工程学院,250022,济南
基金项目:山东省教委科技计划项目(J01P01)
摘    要:针对WWW的HTML结构,采用TFE表示,给出一种新的TFE实现方法,在此基础上,探讨了基于向量空间模型的词元权重函数的构造方法,描述了权重函数,研究了先前比较典型权重函数,把整个文档作为一个空间,提出一种更有效的文本权重调整方法,试验结果表明,该算法对文本分类的准确率有明显提高。

关 键 词:信息检索  文本分类  权重函数  分类算法

AN TERM WEIGHTING ALGORITHM FOR HTML CATEGORIZATION
Luan Hong. AN TERM WEIGHTING ALGORITHM FOR HTML CATEGORIZATION[J]. Journal of Shandong Normal University(Natural Science), 2005, 20(2): 22-25
Authors:Luan Hong
Abstract:According to HTML files on WWW,TFE,a document representation method is adopted.On the basis of this method,through analysis of construction of some classic weighting functions,we propose a term weighting modification approach based on text information space.Application in improved Naive Bayesian categorization algorithm shows that the efficiency and accuracy of text categorization and filtering is higher.
Keywords:information retrieval  text categorization  term weighting  categorization algorithm
本文献已被 CNKI 维普 万方数据 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号