Übung Logistische Regression I
Modul 3: Klassische ML Algorithmen I
Kapitel 7: Logistische Regression
Bearbeitungszeit: ca. 90 min
Hinweis:
In der künstlichen Intelligenz geht es bei einer logistischen Regression darum, die Parameter für eine Funktion zu bestimmen (Steigung, Schnittpunkt mit der y-Achse). Dies wird über das Gradientenabstiegsverfahren gelöst. Wie Sie in den vorherigen Videos gelernt haben werden bei dem Gradientenabstiegsverfahren viele Rechenoperationen häufig nacheinander ausgeführt. Dies werden wir in Modul 6 bearbeiten, wenn wir die Grundlagen der Programmierung behandelt haben. Die Ermittlung der Parameter behandeln wir in diesem Modul erstmal nur theoretisch und wenden es in dieser Übung nicht an.
In dieser Übung befassen wir uns damit, wie gut eine vorgegebene Gleichung einen Datensatz repräsentiert. Sie werden in der Folgenden Übung drei beispielhafte lineare Funktionen miteinander vergleichen und herausfinden, welche der drei Funktionen das logistische Problem am besten beschreibt.
Aufgabenstellung:
Im Folgenden sehen Sie einen Auszug aus einem Datensatz. Der vollständige Datensatz ist in der Excel-Tabelle die Sie am Ende der Seite finden. Der Datensatz beschreibt das Verhältnis zwischen dem Alter einer Person und der Entscheidung ob diese Person eine Versicherung gekauft hat oder nicht. Rechts in dem Diagramm sind die Werte aus dem Datensatz eingetragen (blaue Punkte). Neben dem Datensatz finden Sie in dem Diagramm noch drei lineare Funktionen (schwarz /rot /gelb). Die Kennwerte dieser linearen Funktionen finden Sie am Ende dieser Seite.
Finden Sie im Folgenden heraus, welche dieser drei Funktionen am ehesten die Werte aus dem Datensatz repräsentiert. Hierfür ermitteln wir, welche der Funktionen die geringste Abweichung erzeugt. Dafür nutzen wir die cost-Formel:
Gehen Sie dabei wie folgt vor:
a) Frage:
Identifizieren Sie, welche Variable in der cost-Formel für welchen Wert aus der Aufgabe steht.
b) Frage:
Ermitteln Sie für Funktion 1 die Hypothesen (sigmoid(x)) für die Altersangaben aus dem Datensatz.
c) Frage:
Ermitteln Sie für Funktion 1 den Wert aus der cost-Funktion, der innerhalb der Klammern des Summenzeichens steht (für jede Altersangabe aus dem Datensatz).
d) Frage:
Ermitteln Sie für Funktion 1 den Wert der cost-Function.
e) Frage:
Wiederholen Sie Aufgabe a bis e für die Funktionen 2 und 3. Welche der Funktionen eignet sich am besten um das logistische Problem zu beschreiben?
- Funktion 1: Steigung = 0,07; Schnittpunkt = -3
- Funktion 2: Steigung = 0,08; Schnittpunkt = -3
- Funktion 3: Steigung = 0,09; Schnittpunkt = -3
(Hinweis: Es biete sich an die Aufgabe mit Hilfe von Excel zu lösen. Die Trainingsdaten finden sie hier zum Download.)
Folgen Sie uns auf Social Media: