首页 | 本学科首页   官方微博 | 高级检索  
     检索      

基于数据分割和集成学习的大规模SVM分类算法
引用本文:张永,张卫国,徐维军.基于数据分割和集成学习的大规模SVM分类算法[J].系统工程,2009,27(3).
作者姓名:张永  张卫国  徐维军
作者单位:华南理工大学,工商管理学院,广东,广州,510640  
基金项目:国家杰出青年科学基金,国家自然科学基金,教育部人文社会科学研究项目 
摘    要:支持向量机对分类问题的求解过程相当于解一个线性约束的二次规划问题,求解的变量个数与训练样本数相等,且需要计算和存储的核矩阵大小与训练样本数的平方相关.随着样本数目的增多,经典的求解二次规划问题的算法不再适用.针对大规模二分类问题,基于数据分割和集成学习策略,本文提出了一种快速支持向量机学习算法.其主要思想是:首先对数据集进行预处理,自动将正负类分别聚成若干子簇;然后对两两组合的正负子簇用SMO算法进行交叉学习,得到多个基本分类器;最后对这些基本分类器进行集成学习.在UCI的5个数据集上的实验表明,与SMO学习算法相比,这种基于数据分割的训练策略在精度几乎没有损失的情况下显著地提高了训练速度.

关 键 词:支持向量机  SMO算法  数据分割  集成学习

SVM Algorithms for Large Scale Classification Problems Based on Data Partition and Ensemble Learning
ZHANG Yong,ZHANG Wei-guo,XU Wei-jun.SVM Algorithms for Large Scale Classification Problems Based on Data Partition and Ensemble Learning[J].Systems Engineering,2009,27(3).
Authors:ZHANG Yong  ZHANG Wei-guo  XU Wei-jun
Institution:ZHANG Yong,ZHANG Wei-guo,XU Wei-jun(School of Business Administration,South China University of Technology,Guangzhou 510640,China)
Abstract:The training problem of SVM for classification is equivalent to solving a linearly constrained quadratic programming with a number of variables equal to the one of the training samples. The size of kernel matrix to be computed and saved is related to the square of the number of the training samples.With the number of the training samples increasing,the conventional algorithms for solving quadratic programming problems can not be used.At present,the design and analysis of the training algorithm is a hot topi...
Keywords:Support Vector Machine  SMO  Data Partition  Ensemble Learning  
本文献已被 CNKI 万方数据 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号