首页 | 本学科首页   官方微博 | 高级检索  
     

基于分词和基于N-Gram的网页分类系统比较研究
引用本文:高伟锋,刘连芳. 基于分词和基于N-Gram的网页分类系统比较研究[J]. 广西科学院学报, 2005, 0(Z1)
作者姓名:高伟锋  刘连芳
作者单位:南宁市平方软件新技术有限责任公司 南宁市平方软件新技术有限责任公司 广西南宁 广西南宁
摘    要:设计并实现一个网页分类系统,采用相同的特征权值计算方法,特征选择算法以及分类算法,进行基于分词的网页分类系统和基于N-G ram的网页分类系统的对比实验,分析两者的分类效果。结果表明,基于N-G ram的网页分类系统能达到并在一定程度上高于基于分词的网页分类系统的效果。

关 键 词:中文网页  分类  N-Gram  分词  KNN

A Comparative Study of Word-Segment and N-Gram Categorization System
Gao Weifeng,Liu Lianfang. A Comparative Study of Word-Segment and N-Gram Categorization System[J]. Journal of Guangxi Academy of Sciences, 2005, 0(Z1)
Authors:Gao Weifeng  Liu Lianfang
Abstract:This page designs a Chinese web categorization system,with the same feature weight,feature selection and categorizing algorithm,based on Word-Segment categorization system and N-Gram categorization system.The experiment demonstrates that being based on N-Gram categorization system has the same effect as being based on Word-Segment categorization system,which is more effective in some aspects.
Keywords:chinese web  categorization  N-Gram  word-segment  KNN
本文献已被 CNKI 维普 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号