Clustering criteria for discrete data and latent class models |
| |
Authors: | Gilles Celeux Gérard Govaert |
| |
Affiliation: | (1) INRIA Domaine de Voluceau, Rocquencourt, B.P., 105 78153 Le Chesnay Cedex;(2) URA CNRS 817, Université de Technologie de Compiègne, BP 649, 60206 Compiègne Cedex |
| |
Abstract: | ![]() We show that a well-known clustering criterion for discrete data, the information criterion, is closely related to the classification maximum likelihood criterion for the latent class model. This relation can be derived from the Bryant-Windham construction. Emphasis is placed on binary clustering criteria which are analyzed under the maximum likelihood approach for different multivariate Bernoulli mixtures. This alternative form of criterion reveals non-apparent aspects of clustering techniques. All the criteria discussed can be optimized with the alternating optimization algorithm. Some illustrative applications are included. Résumé Nous montrons que le critère de classification de l'information, souvent utilisé pour les données discrètes, est très lié au critère du maximum de vraisemblance classifiante appliqué au modèle des classes latentes. Ce lien peut être analysé sous l'approche de la paramétrisation de Bryant-Windham. L'accent est mis sur le cas des données binaires qui sont analysées sous l'approche du maximum de vraisemblance pour les mélanges de distributions multivariées de Bernoulli. Cette forme de critère permet de mettre en évidence des aspects cachés des méthodes de classification de données binaires. Tous les critères envisagés ici peuvent être optimisés avec l'algorithme d'optimisation alternée. Des exemples concluent cet article. |
| |
Keywords: | Clustering of binary data Multivariate Bernoulli mixture Classification maximum likelihood |
本文献已被 SpringerLink 等数据库收录! |
|