tec is lava

Übung Random Forest I - Lösung

Modul 3: Klassische ML Algorithmen I

Kapitel 3: Random Forest

Bearbeitungszeit: ca. 15 min

‍1) Frage:

Ziehen Sie drei Bootstrap-Samples aus den Trainingsdaten. (n ist in diesem Fall gleich 3. Normalerweise wählt man die Bootstrap-Samples zufällig aus. Damit wir aber einen gemeinsamen Lösungsweg haben verwenden Sie bitte aus dem Trainingsdaten die Zeilen 4,5 & 6.)

‍Antwort:

Bei einem Bootstrap-Samples werden einfach aus dem gegebenen Datensatz eine definierte Anzahl an Trainingsreihen (in unserer Aufgabenstellung war diese Anzahl = 3) zur Verarbeitung ausgewählt.

‍

‍2) Frage:

Bestimmen Sie den Wert für M.

‍Antwort: ‍

M = 3 (Das Ergebnis zählt nicht als Dimension)

‍

‍3) Frage:

Wie viele Merkmale dürfen an jedem Knoten im Bam ausgewählt werden?

‍Antwort:

n < 3 (n steht für die Anzahl der Merkmale)

‍

‍4) Frage:

Bestimmen Sie anhand des unten dargestellten Entscheidungsbaums was ein „Test“, „Battknoten“ und „Blatt“ ist.

‍Antwort:

siehe Abbildung:

‍

‍5) Frage:

Zählen Sie die vier „Hyper-Parameter“ auf die man beim Trainieren von Random-Forests anpassen kann. Fassen Sie jeden dieser Parameter in maximal zwei Sätzen zusammen.

‍Antwort:

‍Anzahl zu kombinierender Entscheidungsbäume (Decision Trees):
Bei einem Random Forest werden mehrere einzelne Decision Trees, basierend auf einem gemeinsamen Datensatz, zu einem kombinierten Algorithmus verbunden. Die „Anzahl zu kombinierender Entscheidungsbäume“ gibt die Summe an Decision Trees an, die aus dem Datensatz erstellt werden sollen.
Maximale Baumtiefe:
‍Die maximale Baumtiefe beschreibt wie viele „Verästelungen“ jeder Decision Tree haben soll. Eine „Verästelung“ ist dabei nicht ein einzelner Blattknoten (siehe Antwort 4), sondern die Anzahl der Ebenen der Äste.
Maximale Feature pro Verästelung:
‍„Maximale Feature pro Verästelung“ gibt an wie viele Features für eine einzelne Entscheidungsregel genutzt werden sollen. In unserem Beispiel ist eine Entscheidungsregel bspw. „Alter > 45 Jahre“.
Bagging / Bootstrapping mit oder ohne zurücklegen:
‍Bei einem Random Forest werden aus einem Datensatz zufällige Features für die einzelnen Decision Trees gewählt. Man kann die ausgewählten Features für die weiteren Decision Trees in den Datensatz „zurücklegen“ oder diese nicht weiter berücksichtigen.

‍

‍6) Frage:

Versuchen Sie die vier „Hyper-Parameter“ auf den ermittelten Decision-Tree aus dem vorherigen Kapitel zu beziehen. Was bedeuten die vier „Hyper-Parameter“ für diesen einzelnen Decision-Tree?

‍Antwort:

Anzahl zu kombinierender Entscheidungsbäume (Decision Trees):
‍Wir haben in dem vorherigen Kapitel nur einen Decision Tree erstellt. Wenn wir aus dem Datensatz mehrmals zufällige Werte genommen hätten und daraus mehrere Decision Trees erstellt hätten, hätten wir die Grundlage geschaffen daraus einen Random-Forest zu erstellen.
Maximale Baumtiefe:
‍Die maximale Baumtiefe beträgt bei unserem einzelnen Decision Tree drei.
Maximale Feature pro Verästelung:
‍Wir haben immer nur ein Feature pro Entscheidungsregel berücksichtigt.
Bagging / Bootstrapping mit oder ohne zurücklegen:
‍Da wir nur einen Decision Tree, basierend auf dem gesamten Datensatz, erstellt haben, haben wir kein Bagging oder Bootstrapping angewandt. Unser Datensatz hatte 12 Zeilen. Wenn wir bspw. „Bootstrapping ohne zurück legen“ mit einer „Bootstrap-Samples“ von n=3 angewandt hätten, hätten wir maximal vier Decision Trees erstellen können(Anmerkung: 12 / 3 = 4 )

‍

Hier geht's zum Download