首页 | 本学科首页   官方微博 | 高级检索  
     

一种大规模Web文本的分类方法
作者姓名:王海艳  曹攀
作者单位:南京邮电大学计算机学院
基金项目:国家自然科学基金(61201163);“六大人才高峰”项目(2013-JY-022);“333高层次人才培养工程”资助项目
摘    要:文中针对大规模Web文本信息的结构与内容特征提出一种高效的Web文本分类方法。该方法主要包含3个模块:(1)针对Web长文本提出一种基于复杂网络的特征选择方法,网络中的节点对应于文本中的词条,通过节点的度与聚集系数来衡量对应词条的重要性从而选择特征词;(2)对于Web长文本,提出基于k NN的SVM决策树分类方法,将支持向量机与k最近邻相结合,并构建决策树实现层次化分类;(3)对于短文本,通过构建长文本各类别的主题词集合来引导短文本的分类,将短文本的归类问题转化为基于主题的检索问题。实验结果表明该方法在处理大规模Web文本时表现出了较好的性能。

关 键 词:大规模  Web文本  特征选择  文本分类
本文献已被 CNKI 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号