首页 | 本学科首页   官方微博 | 高级检索  
     检索      

基于改进BoS的Web文本分类研究
引用本文:彭俊杰,陈丹敏.基于改进BoS的Web文本分类研究[J].南京邮电大学学报(自然科学版),2013,33(1):79-83.
作者姓名:彭俊杰  陈丹敏
作者单位:河南大学计算机与信息工程学院,河南开封,475004
基金项目:河南省科技攻关项目(102102210489)资助项目
摘    要:提出了改进的文本相似度计算方法,在计算文本的相似度时,赋予不同文本块中的句子不同的权值,同时直接去掉短句子和合并高相似度的句子以精简句子包中句子数量以提高运算速度.改进后的文本相似度计算方法为:先根据句子相似度的计算方法计算句子的相似度,再计算文本块的相似度,最后按照文本块的权值计算整个文本的相似度.经试验证明,改进后的算法在文本召回率、准确率和F1值上都有明显的提高.

关 键 词:Web文本分类  句子包  向量空间模型  文本挖掘

Research on Web Text Classification Based on Improved BoS
PENG Jun-jie , CHEN Dan-min.Research on Web Text Classification Based on Improved BoS[J].Journal of Nanjing University of Posts and Telecommunications,2013,33(1):79-83.
Authors:PENG Jun-jie  CHEN Dan-min
Institution:College of Computer and Information Engineering,Henan University,Kaifeng 475004,China
Abstract:
Keywords:
本文献已被 CNKI 万方数据 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号