首页 | 本学科首页   官方微博 | 高级检索  
     

基于类别层次结构的多层文本分类样本扩展策略
引用本文:李保利. 基于类别层次结构的多层文本分类样本扩展策略[J]. 北京大学学报(自然科学版), 2015, 51(2): 357-366. DOI: 10.13209/j.0479-8023.2015.050
作者姓名:李保利
作者单位:河南工业大学计算机科学系, 郑州 450001;
基金项目:河南省基础与前沿技术研究项目(112300410007);河南工业大学高层次人才基金(2012BS027)资助
摘    要:针对大规模多层文本分类训练样本获取代价高、类别分布不均衡等问题, 提出并比较几种基于类别层次结构的大规模多层文本分类样本扩展策略, 即利用类别层次体系中蕴含的类别名称、描述以及类别间的层次结构关系, 从内涵和外延两方面入手构造或扩展类别训练样本。在首次大规模中文新闻信息多层分类评测数据集上, 基于外延的局部样本扩展策略取得较好的性能。参测系统在第一级类别和第二级类别上宏平均F1分别为0.8413和0.7139, 在10个参赛系统中位列第二。

关 键 词:多层文本分类  大规模中文新闻分类  中文新闻信息分类  类别层次体系  
收稿时间:2014-07-27

Expanding Training Dataset with Class Hierarchy in Hierarchical Text Categorization
LI Baoli. Expanding Training Dataset with Class Hierarchy in Hierarchical Text Categorization[J]. Acta Scientiarum Naturalium Universitatis Pekinensis, 2015, 51(2): 357-366. DOI: 10.13209/j.0479-8023.2015.050
Authors:LI Baoli
Affiliation:Department of Computer Science, Henan University of Technology, Zhenghou 450001;
Abstract:
Keywords:hierarchical text classification  large scale Chinese news categorization  classification of news in Chinese  class hierarchy
本文献已被 CNKI 万方数据 等数据库收录!
点击此处可从《北京大学学报(自然科学版)》浏览原始摘要信息
点击此处可从《北京大学学报(自然科学版)》下载全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号