No items found.

No items found.

k-Means Clustering

Modul 7: ML Algorithmen II
Kapitel 1: k-Means Clustering
Bearbeitungszeit: ca. 60 min

In diesem Kapitel behandeln wir den Algorithmus k-Means Clustering. In Wikipedia wird er als einfacher Algorithmus bezeichnet, der "eine der am häufigsten verwendeten Techniken zur Gruppierung von Objekten ist, da er schnell die Zentren der Cluster findet." Tatsächlich lassen sich mithilfe des k-Means Clustering Algorithmus bestimmte Probleme sehr gut und effizient lösen. In diesem Kapitel lernen wir die Grundsätze des Algorithmus kennen und behandeln, wie wir diesen anwenden können.

Einstieg:

Das folgende Video gibt einen leicht verständlichen Einblick in die Prinzipien und den Einsatz des Algorithmus:

Übung: 

Versuchen Sie nun in eigenen Worten (2-3 Sätze) die Unterschiede zwischen k-Means Clustering und einer linearen Regression zu beschreiben, die Sie auch schon kennengelernt haben. Beschreiben Sie im Anschluss mit 2-3 Sätzen die Unterschiede zwischen k-Means Clustering und einem anderen Algorithmus, den Sie bereits kennengelernt haben: k-Nearest-Neighbor.

Falls Sie die Unterschiede nicht genau identifizieren können, können Sie sich sicher sein, dass Sie damit nicht alleine sind. Diese Frage wurde schon oft gestellt und auf verschiedenen Foren und Blogs beantwortet, zum Beispiel hier.

Clustering selbst ausprobieren:

Sie kennen nun die Grundsätze des Algorithmus k-Means Clustering. Um das Verständnis zu vertiefen, probieren Sie den Algorithmus doch mal selbst aus!

Auf dieser Seite kann man interaktiv verschiedene Fälle clustern (es geht nicht um den Text). Sie können die Startpunkte selbst einsetzen (I'll Choose), sie zufällig einsetzen lassen (Randomly) oder sie immer den am weitesten entfernten Punkt einsetzen lassen (Farthest Point). Man kann zudem zwischen verschiedenen Punktwolken wählen und dann beliebig viele Punkte einsetzen (Add Centroid). Mit Go, Update Centroids und Reassign Points können Sie dann den Algorithmus schrittweise ausführen, bis er zu einer stabilen Verteilung konvergiert. Probieren Sie verschiedene Startmethoden, Punktverteilungen und eine unterschiedliche Anzahl von Gruppen (k) aus.

Diese Seite gibt ein weiteres Beispiel für den Algorithmus zum interaktiven "Spielen". Man kann dabei mit dem Schieberegler die Konzentration der Punkte innerhalb der Cluster verändern. Außerdem kann man die Anzahl der Datenpunktcluster und der erwarteten Cluster einstellen.

Wie funktioniert das und wie finde ich das richtige k?

Dieses Video vertieft k-Means-Clustering und reist die mathematischen Grundlagen an. Entscheidend ist dabei die sogenannte "Ellbogen-Methode".

Die "Ellbogen-Methode" wird in diesem Blogeintrag anschaulich erklärt.

Anwendungsbeispiel: 

Dieser Beitrag erklärt die Anwendung eines k-Means Clusterings anhand eines anschaulichen Beispiels.

Hier geht's zum Download