首页 | 本学科首页   官方微博 | 高级检索  
     

基于概率主题的文本层次分类
引用本文:权小军,林洋港,罗奇鸣,陈恩红. 基于概率主题的文本层次分类[J]. 中国科学技术大学学报, 2009, 39(8)
作者姓名:权小军  林洋港  罗奇鸣  陈恩红
作者单位:中国科学技术大学计算机科学与技术系,安徽合肥,230027
基金项目:国家自然科学基金,高等学校博士学科点专项研究基金
摘    要:概率主题模型是一种统计生成模型,它从文档集合中抽取一系列主题,并将这些文档表示为不同主题依照一定概率混合而成.通过这种模型发现的主题,能揭示文档的语义信息,在很多领域都有着广泛的应用.为此基于概率主题模型,提出了一种新的层次文本分类方法. 该方法首先利用Gibbs抽样提取一系列主题,然后计算测试文档和每个类的基于主题的相似度.在20 NewsGroups数据集上的实验结果表明,该方法的分类性能明显超越支持向量机分类方法.

关 键 词:层次分类  概率主题模型  Gibbs抽样

Hierarchical text categorization with probabilistic topics
QUAN Xiao-jun,LIN Yang-gang,LUO Qiming,CHEN En-hong. Hierarchical text categorization with probabilistic topics[J]. Journal of University of Science and Technology of China, 2009, 39(8)
Authors:QUAN Xiao-jun  LIN Yang-gang  LUO Qiming  CHEN En-hong
Abstract:es.
Keywords:hierarchical categorization  probabilistic topic model  Gibbs sampling
本文献已被 万方数据 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号