Übung k-Nearest-Neighbor

January 4, 2021
45 min
Machine Learning
Credits to Gerd Altmann from pixabay.com

Der vorherige Blog-Beitrag hat den k-Nearest-Neighbor Algorithmus vorgestellt. Fassen wir diesen einmal in wenigen Stichpunkten zusammen:

  • Beim k-Nearest-Neighbor Algorithmus bringt man die Trainings-Daten in eine gemeinsame Matrix.
  • Um das Ergebnis für ein neues Datenpaar vorherzusagen, betrachtet man die Ergebnisse der Datenpaare, die in der Matrix dem neuen Datenpaar am nächsten liegen.  Hierfür wird der Abstand zwischen den Datenpaaren berechnet.
  • Der k-Wert gibt an, wie viele benachbarte Datenpaare betrachtet werden.
  • Die Vorhersage für das neue Datenpaar ergibt sich letztendlich daraus, welche Ergebnisse die Mehrzahl der benachbarten Datenpaare haben.  

Hier ein weiteres Beispiel, welches sich an dem vorherigen Beitrag orientiert:

Wertepaare und deren Darstellung im Diagramm zur Folgenden Übung

Aufgabe:

Zwei Freunde verabreden sich häufig zum gemeinsamen Joggen gehen. In dem folgenden Datenset wird für 15 verschiedene Tage angegeben wie das Wetter (Temperatur und Luftfeuchte) an den jeweiligen Tagen war. In der letzten Spalte ist angegeben, ob sich die Freunde an den Tagen zum Joggen gehen getroffen haben oder nicht.

Fragestellung:

An Tag 16 beträgt die Lufttemperatur 16 °C und die relative Luftfeuchte 60 %. Findet auf Grundlage der Trainingsdaten heraus, ob die zwei Freunde sich zum Joggen verabreden würden oder nicht. Nehmt als k-Wert drei an.

(Hinweis: Es bietet sich an die Aufgabe mit Hilfe von Excel zu lösen. Die Trainingsdaten findet ihr hier zum Download.)

Vorgehensweise:

  1. Berechnet für alle 15 Tage die euklidische Distanz zu Tag 16.
  2. Identifiziert die drei (k-Wert=3) geringsten Abstände.
  3. Entscheidet auf Grundlage der Trainingsdaten, ob die beiden Freunde sich zum Joggen verabreden oder nicht.

Die Lösung zu dieser Aufgabe findet ihr hier.

Zusatzaufgabe:

Errechnen Sie für die drei Folgenden Wertepaare Prognosen. Nutzen Sie hierfür jeweils drei verschiedene k-Werte (3, 4 & 5). Wertepaare:

  • Tag 16: Lufttemperatur = 16°C, rel. Luftfeuchte= 60 % (gleiches Wertepaar wie in Übung 1)
  • Tag 17: Lufttemperatur = 25°C, rel. Luftfeuchte= 68 %
  • Tag 18: Lufttemperatur = 16°C, rel. Luftfeuchte= 70 %

Was stellt ihr für den k-Wert vier fest? Welche Schlussfolgerung kann man hieraus ziehen?

(Hinweis: Es bietet sich auch hier an die Aufgabe mit Hilfe von Excel zu lösen. Die Trainingsdaten findet ihr hier zum Download.)

Die Lösung zu dieser Aufgabe findet ihr hier.

Referenzen
Portrait of Blogger
Björn Kämper
<  Previous
Der k-Nearest-Neighbor Algorithmus einfach erklärt
Next  >
Support Vector Machine - Eine Schritt für Schritt Erklärung wie dieser Machine Learning Algorithmus funktioniert

Kommentare