Flink平台下的分布式平衡级联支持向量机 |
| |
引用本文: | 刘屹成,刘晓燕,严馨.Flink平台下的分布式平衡级联支持向量机[J].云南大学学报(自然科学版),2023(5):999-1006. |
| |
作者姓名: | 刘屹成 刘晓燕 严馨 |
| |
作者单位: | 昆明理工大学信息工程与自动化学院 |
| |
基金项目: | 国家自然科学基金(61462055); |
| |
摘 要: | 支持向量机(Support Vector Machines,SVM)在分类和回归领域都是非常强大的工具,但在大数据环境下,其面临资源占用过高和寻优速度慢等问题.目前利用大数据框架实现的SVM,虽然优化了寻优速度慢的问题,但其预测精度与直接训练方式相比存在一定的差距,此外其并没有对训练节点的资源进行合理配置.故提出一种Flink平台下的分布式平衡级联向量机,该方式在之前的基础上将数据集分成含有相同比例样本的平衡子集,并对子集的训练参数进行放缩;同时,结合Flink下迭代作业的动态资源分配策略,将各节点资源最小化为刚好满足训练需求.对该方法的有效性进行阐述,对比多个数据集在不同训练方式下的资源占用和模型精度,实验结果表明,采用所提出的训练方式能合理灵活地对资源进行配置,同时将模型预测精度误差降低到0.1%以内.
|
关 键 词: | Apache Flink 支持向量机 分布式计算 细粒度资源管理 平衡子集 |
|
|