Journée Clustering

Christophe Biernacki fera un exposé dont le titre est:
"Clustering : évolution des méthodes pour répondre aux nouveaux défis"

Résumé: À l'ère dite du "Big Data", les données manipulées ont fortement changées, typiquement par leur volumétrie (nombreux individus et/ou variables) ou bien par leur nature (données mixant le qualitatif et le quantitatif, données indexées par le temps, données incertaines...). Cependant, les questions auxquelles les praticiens cherchent à répondre sont restées étonnamment invariables au cours du temps, comme l'exploration des données. Dans ce cadre, les méthodes de classification non supervisée ("clustering" en Anglais) visent à identifier des structures dites cachées et ainsi potentiellement fortes en valeur ajoutée. Les défis sont alors essentiellement d'adapter les méthodes existantes aux nouveaux types de données, en respectant des contraintes d'efficacité (typiquement qualité des résultats et temps de traitement). Dans cet exposé introductif à la journée, nous passons en revue l'évolution des méthodes de clustering en regard de l'évolution des types de données et des contraintes de traitement, que nous regroupons sous la terminologie "défis". Une tendance lourde qui ressort de cette évolution est une formalisation probabiliste de techniques plus anciennes afin de les adapter plus facilement au cadre de données représentées dans ces nouveaux espaces plus complexes. De cette façon aussi, le cadre bien construit de la statistique mathématique permet de reformuler rigoureusement de nombreuses questions standard, comme les incertitudes d'appartenance à un groupe ou encore comme le nombre de groupes, en termes techniques précis que sont l'estimation et le choix de modèles, avec les algorithmes associés