首页 | 本学科首页   官方微博 | 高级检索  
     


Efficient algorithms for divisive hierarchical clustering with the diameter criterion
Authors:A. Guénoche  P. Hansen  B. Jaumard
Affiliation:(1) GRTC-CNRS, 31 Ch. J. Aiguier, 13402 Marseille, France;(2) Rutgers Center for Operations Research, Hill Center for the Mathematical Sciences, Rutgers University, 08903 New Brunswick, New Jersey, USA;(3) GERAD and Départment de Mathématiques Apliguées, Ecolle Polytechnique de Montréal, Succursale “A”, Case Postale 6079, H3C 3A7 Montréal, Québec, Canada
Abstract:
Divisive hierarchical clustering algorithms with the diameter criterion proceed by recursively selecting the cluster with largest diameter and partitioning it into two clusters whose largest diameter is smallest possible. We provide two such algorithms with complexitiesO( 
$$overline M $$
N 2) andO(N 2logN) respectively, where 
$$overline M $$
denotes the maximum number of clusters in a partition andN the number of entities to be clustered. The former algorithm, an efficient implementation of an algorithm of Hubert, allows to find all partitions into at most 
$$overline M $$
clusters and is inO(N 2) for fixed 
$$overline M $$
. Moreover, if in each partitioning the size of the largest cluster is bounded byp times the number of entities in the set to be partitioned, with 1/2<=p<1, it provides a complete hierarchy of partitionsO(N 2 logN) time. The latter algorithm, a refinement of an algorithm of Rao allows to build a complete hierarchy of partitions inO(N 2 logN) time without any restriction. Comparative computational experiments with both algorithms and with an agglomerative hierarchical algorithm of Benzécri are reported.
Résumé Les algorithmes de classification hiérarchique descendante utilisant le critère du diamètre, sélectionnent récursivement la classe de plus grand diamètre et la partitionnent en deux classes, dont le plus grand diamètre est le plus, petit possible. Nous proposons deux tels algorithmes, avec des complexités enO ( 
$$overline M $$
N2) etO(N 2 logN) respectivement, où 
$$overline M $$
désigne le nombre maximum de classes d'une partition etN le nombre d'objets à classifier. Le premier algorithme, une implantation d'un algorithme de Hubert, permet de construire des partitions avec au plus 
$$overline M $$
classes et est enO(N 2) pour 
$$overline M $$
fixé. De plus, si dans chaque bipartition le nombre d'objets de la plus grande classe, est borné parp fois le nombre d'objets de l'ensemble à partitionner, où 1/2≤p<1, cet algorithme permet de construire une hiérarchie complète de partitions en tempsO(N 2 logN). Le second algorithme, un raffinement d'un algorithme de Rao, permet de construire une hiérarchie complète de partitions en tempsO(N 2 logN) sans aucune restriction On présente également des résultats de calcul comparatifs pour les deux algorithmes et pour l'algorithme de classification hiérarchique ascendante de Benzécri.
Keywords:Divisive hierarchical clustering  Diameter  Complexity  Polynomial algorithm
本文献已被 SpringerLink 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号