No items found.

No items found.

Übung Decision Trees II - Lösung

Modul 3: Klassische ML Algorithmen I
Kapitel 2: Decision Trees
Bearbeitungszeit: ca. 15 min

(Hinweis: Am Ende dieser Seite finden Sie eine Excel-Mappe in der die Lösungswege in Excel-Formeln hinterlegt sind.) 

Lösungen:

Wie in der Aufgabenstellung bereits erwähnt, brauchen wir die „linke“-Seite des Decision Trees nicht weiterverfolgen. Die Gini-Impurity beträgt bereits 0 und kann nicht mehr verringert werden.

1) Frage:

Finden Sie zuerst die beiden Gini-Impurities heraus für die Fälle in denen die Personen jünger als 45 sind und:

  • verheiratet sind.
  • ein Brutto-Einkommen von über 50.000€ / Jahr haben.

Antwort:

Zu erst macht es Sinn die Daten zu auf die relevanten Daten zu reduzieren. In der Folgenden Tabelle sind nur noch die Zeilen zu sehen, in denen die Kategorie „Alter > 45 Jahre“ den Wert „Nein“ hat.

Mit diesen Werten können wir jetzt für die beiden Kategorien „Brutto-Einkommen > 50.000 € /Jahr“ und „Verheiratet“ die jeweilige Gini-Impurity berechnen.

2) Frage:

Vergleichen Sie die beiden Gini-Impurities mit der Gini-Impurity der Kategorie „Alter > 45 Jahre“. Kann eine der beiden Kategorien einen Mehrwert liefern? Falls ja welche ist es und bei welchen Zweigen können /sollten weiter berechnet werden?

Antwort:

Die Gesamt-Gini für die Kategorie „Brutto-Einkommen > 50.000 € /Jahr“ ist kleiner als die des Wurzelknotens (0,29). Daher kann der Decision Tree wie abgebildet aufgebaut werden.

Es macht keinen Sinn den Zweig „Brutto-Einkommen > 50.000 € /Jahr“ mit dem Wert „true“ weiter zu verfolgen, da die Gini-Impurity für diesen Fall 0 ist.

3) Frage:
Falls möglich, versuchen Sie auch noch zu errechnen ob bei dem Decision Tree eine weitere Verzweigung mit der dritten Kategorie Sinn macht.

Antwort:

Die Gini-Impurity für den Fall in dem eine Person Älter als 45 ist und ein Brutto-Einkommen von unter 50.000 € / Jahr hat beträgt 0,27. Dieser Wert ist größer als die Gini-Ipurity die wir in Aufgabe b errechnet haben (0,23). Es macht also keinen Sinn die dritte Kategorie noch dem Decision Tree hinzuzufügen. Für die Berechnung macht es wieder Sinn die Informationen zu auf die relevanten Daten zu reduzieren. In der folgenden Tabelle sind nur noch die Zeilen zu sehen, in denen die Kategorien „Alter > 45 Jahre“ und „Brutto-Einkommen > 50.000 € /Jahr“ den Wert „Nein“ haben.

4) Frage:
Zeichnen Sie den vollständigen Decision Tree und bewerten Sie die Gesamt-Impurity. Haben wir einen guten Wert erreicht oder nicht? Wie kann es zu dem jeweiligen Ergebnis kommen?

Antwort:

Der fertige Decision Tree sieht dann aus wie in Aufgabe 2 bereits präsentiert. Unsere Gesamt-Impurity von 0,23 ist nicht besonders aussagekräftig (Erinnerung: Im Idealfall grenzt diese an 0). Dies liegt an dem geringen Datensatz. Wir arbeiten mit sehr wenig Werten wodurch wir keine repräsentative Aussage treffen können. Das Beispiel hat hoffentlich dennoch deutlich gemacht wie Decision Trees funktionieren.

Hier geht's zum Download