机器学习的基石:聚类任务的现状与挑战 |
| |
引用本文: | 薛菁菁,陈慧敏,孔令怡,樊欣怡,聂飞平.机器学习的基石:聚类任务的现状与挑战[J].科学观察,2024(1):4-17. |
| |
作者姓名: | 薛菁菁 陈慧敏 孔令怡 樊欣怡 聂飞平 |
| |
作者单位: | 1. 西北工业大学光电与智能研究院;2. 西北工业大学计算机学院 |
| |
基金项目: | 国家自然科学基金(批准号:62176212); |
| |
摘 要: | 目的/意义]随着信息技术的快速发展,各个领域积累的数据呈现出规模大、种类多、结构复杂等特点,这些都为已有的无监督聚类算法提出了严峻挑战。方法/过程]该文对近年来提出的各种聚类算法进行了综述。结果/结论]根据聚类算法可处理的数据类型不同,聚类算法可分为基于向量表示的聚类算法和基于关系表示的聚类算法;从建模策略的角度,聚类算法可分为基于模型优化的算法以及基于启发式的算法。其中,基于模型优化的算法重点分析了k-means算法以及图割算法的研究现状,并给出了两种算法之间的差别和联系,进而解释了为什么k-means模型只能处理球形数据,而图割模型可以处理非凸数据。基于启发式的算法以密度聚类算法为例展开分析。此外,鉴于无监督聚类算法面临的非凸优化难题,该文还分析讨论了无监督聚类算法的各种优化方法。最后,归纳总结了现有算法与优化方法的主要特点,并指出了现阶段聚类方法存在的问题以及未来的研究方向。
|
关 键 词: | 数据挖掘 无监督学习 机器学习 聚类分析 非凸优化 |
|
|