首页 | 本学科首页   官方微博 | 高级检索  
     检索      

采用类别相似度聚合的关联文本分类方法
引用本文:田丰,桂小林,杨攀,王刚,郭岳龙.采用类别相似度聚合的关联文本分类方法[J].西安交通大学学报,2012,46(12):6-11,122.
作者姓名:田丰  桂小林  杨攀  王刚  郭岳龙
作者单位:1. 西安交通大学电子与信息工程学院,710049,西安;西安交通大学陕西省计算机网络重点实验室,710049,西安
2. 西安交通大学电子与信息工程学院,710049,西安;西安交通大学陕西省计算机网络重点实验室,710049,西安;西安财经学院信息学院,710100,西安
基金项目:国家自然科学基金资助项目,国家高技术研究发展计划重大专项资助项目
摘    要:针对基于关联规则的分类方法在分类时仅考虑规则的置信度并使用规则修剪技术,导致分类器的分类精度难以进一步提高的问题,提出了一种基于类别相似度聚合的关联文本分类方法.该方法采用修改的χ2统计技术提取各类别的特征词;为保证规则匹配的精度和速度,使用CR-tree存储分类规则,并给出了CR-tree的构建与匹配算法;采用向量内积来计算文本类别分量与类别标志向量的相似度,进而使用规则置信度和类别相似度的聚合值作为文本分类的依据.基于实际网络文本的实验表明,该方法仅需提取30个特征词,分类结果的微平均值即可达到92.42%,优于未经剪枝的ARC-BC分类器及KNN、Bayes分类器;在分类耗时方面,该方法与未经剪枝的ARC-BC分类器持平,表明该方法引入的相似度与聚合值的计算开销在可接受的范围内.

关 键 词:文本分类  关联规则  类别相似度  聚合

Associative Rule-Based Text Categorization Method Using Category Similarity
TIAN Feng , GUI Xiaolin , YANG Pan , WANG Gang , GUO Yuelong.Associative Rule-Based Text Categorization Method Using Category Similarity[J].Journal of Xi'an Jiaotong University,2012,46(12):6-11,122.
Authors:TIAN Feng  GUI Xiaolin  YANG Pan  WANG Gang  GUO Yuelong
Institution:1,2(1.School of Electronics and Information Engineering,Xi’an Jiaotong University,Xi’an 710049,China; 2.Shaanxi Province Key Laboratory of Computer Network,Xi’an Jiaotong University,Xi’an 710049,China; 3.School of Information,Xi’an University of Finance and Economics,Xi’an 710100,China)
Abstract:
Keywords:
本文献已被 CNKI 万方数据 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号