finished

2025-07-06 10:33:12 +02:00
parent 8b6544e81e
commit e2e0c3a23f
3 changed files with 6 additions and 5 deletions
@@ -286,7 +286,7 @@ von Stichprobenfluktuation und der unterschiedlichen Dummy-Kodierung:
  Effektstärke wurden korrekt erkannt.
  \item Schaltverhalten und Geschwindigkeitsüberschreitung weichen von den ursprünglichen Werten ab. Beachtet man aber, dass Schaltverhalten (spät) und Geschwindigkeitsüberschreitung
  (häufig) in der Backward Selection verworfen wurden ist dies nicht überraschend: Schaltverhalten (spät) und Geschwindigkeitsüberschreitung (häufig) haben im erstellten Modell
-  einen Koeffizienten von jeweils $-1{,}5$. $-1{,}5$ + $-0{,}8$ (für die anderen Kategorien) ergibt $-2{,}3$. Demnach ist die Schätzung für \texttt{shift\_behavior} und
+  einen Koeffizienten von jeweils $+1{,}5$. Die Differenz der Kategorien: $-0{,}8 - (+1{,}5) = -2{,}3$. Demnach ist die Schätzung für \texttt{shift\_behavior} und
  \texttt{speeding} nahezu identisch mit dem wahren Wert.
 \end{itemize}
 Somit hat der Data Scientist durch das systematische Vorgehen tatsächlich das zugrunde liegende Modell (bis auf Zufallsschwankungen) wiederentdeckt.
@@ -307,12 +307,13 @@ und die Confusion Matrix der Modellvorhersagen.
 \noindent
 Die ROC-Kurve zeigt mit einem AUC-Wert von 0{,}94 eine sehr gute Diskriminierungsfähigkeit des Modells. Dieser hohe AUC-Wert deutet darauf hin, dass das Modell sehr gut zwischen
 Diebstahl und normalen Fahrten unterscheiden kann. Die Confusion Matrix offenbart dennoch
-ein typisches Klassifikationsproblem: Das Modell erkennt normale Fahrten sehr zuverlässig, hat aber Schwierigkeiten bei der Diebstahlerkennung.
+ein typisches Klassifikationsproblem: Das Modell erkennt normale Fahrten (Mehrheitsklasse) sehr zuverlässig, hat aber teils mehr Schwierigkeiten bei der Diebstahlerkennung
+(Minoritätsklasse).

 \noindent
 \newline
 Diese Missklassifikation resultiert primär aus der begrenzten Stichprobengröße von 20.000 Beobachtungen bei einer unbalancierten Klassenverteilung (ca. 21{,}8\,\% Diebstähle).
-Das Modell neigt dadurch zur Klassifikation in Richtung der Mehrheitsklasse.
+Das Modell neigt dadurch zur Klassifikation in Richtung der Mehrheitsklasse, ist aber dennoch mit 94\,\% Genauigkeit insgesamt sehr performant.

 \section{Güte der Modellparameter}
 In einem letzten Schritt wurde untersucht, wie verlässlich die Modellschätzung bei unterschiedlicher Datenmenge ist. Insbesondere stellt sich die Frage, welchen Einfluss der
@@ -325,8 +326,8 @@ und die Verteilungen der resultierenden $\hat{\beta}$-Koeffizienten analysiert.
 Untersucht wurde exemplarisch der Koeffizient $\beta_{avg\_speed}$, der Effekt der Durchschnittsgeschwindigkeit. Die Ergebnisse sind in Abbildung~\ref{fig:beta_dist} dargestellt,
 welche die Verteilungen von $\hat{\beta}_{avg\_speed}$ für drei verschiedene Stichprobenumfänge gegenüberstellt. Man erkennt deutlich, dass
 mit wachsendem $n$ die Verteilung der Koeffizientenschätzungen immer schmaler wird und sich enger um den wahren Wert konzentriert. Für kleine Stichproben ($n=1000$)
-schwanken die geschätzten $\beta$ noch sehr stark -- die Verteilung ist breit und umfasst Werte von nahe -0,01 bis etwa 0,04. Bei mittlerer Stichprobe ($n=11000$) ist die Streuung
-bereits deutlich geringer. Im Fall $n=46000$ liegen nahezu alle Schätzungen dicht bei $\beta\approx0{,}3$. Diese Beobachtung entspricht der
+schwanken die geschätzten $\beta$ noch sehr stark -- die Verteilung ist breit und umfasst Werte von nahe $0{,}200$ bis etwa $0{,}400$. Bei mittlerer Stichprobe ($n=11000$) ist die
+Streuung bereits deutlich geringer. Im Fall $n=46000$ liegen nahezu alle Schätzungen dicht bei $\beta\approx0{,}3$. Diese Beobachtung entspricht der
 erwarteten Verbesserung der Schätzgenauigkeit: Je mehr Daten zur Verfügung stehen, desto weniger zufällig streuen die geschätzten Parameter um den wahren Wert.

 \begin{figure}[H]