4th iteration

2025-07-05 20:51:26 +02:00
parent 82c6ecc51f
commit 8b6544e81e
8 changed files with 54859 additions and 155 deletions
@@ -120,20 +120,20 @@ Anschließend wurde $Y_i$ durch einen Bernoulli-Zufall mit Parameter $p_i$ reali
 \noindent
 \newline
 Die gewählten Koeffizienten ($\beta$-Werte) für das Generierungsmodell sind in Tabelle~\ref{tab:true_betas} aufgeführt. Diese wurden so festgelegt, dass sie plausible
-Einflussstärken der erklärenden Variablen widerspiegeln, ohne die Zielvariable extrem zu dominieren. Insbesondere wurde ein relativ niedriger Basiswert
-(\emph{Intercept} $\beta_0=-2$) gewählt, sodass bei unauffälligen Merkmalen die Diebstahl-Wahrscheinlichkeit sehr gering ist. Die erklärenden Variablen erhöhen bzw.\
+Einflussstärken der erklärenden Variablen widerspiegeln, ohne die Zielvariable extrem zu dominieren. Insbesondere wurde ein niedriger Basiswert
+(\emph{Intercept} $\beta_0=-18$) gewählt, sodass bei unauffälligen Merkmalen die Diebstahl-Wahrscheinlichkeit sehr gering ist. Die erklärenden Variablen erhöhen bzw.\
 verringern diese Grundwahrscheinlichkeit wie folgt:
 \begin{itemize}
- \item \textbf{Durchschnittsgeschwindigkeit:} $\beta_{avg\_speed} = 0{,}015$. Ein leicht positiver Koeffizient - eine ungewöhnlich hohe Durchschnittsgeschwindigkeit erhöht also
- geringfügig die Diebstahl-Wkt., da sie auf einen anderen (rasanteren) Fahrstil hindeuten kann.
- \item \textbf{Harte Bremsmanöver:} $\beta_{hard\_brakes} = 0{,}1$. Häufige Vollbremsungen haben einen deutlichen positiven Effekt auf $P(\text{Diebstahl})$, da sie ein Indiz für
+ \item \textbf{Durchschnittsgeschwindigkeit:} $\beta_{avg\_speed} = 0{,}3$. Ein positiver Koeffizient - eine ungewöhnlich hohe Durchschnittsgeschwindigkeit erhöht
+ die Diebstahl-Wahrscheinlichkeit, da sie auf einen anderen (rasanteren) Fahrstil hindeuten kann.
+ \item \textbf{Harte Bremsmanöver:} $\beta_{hard\_brakes} = 0{,}6$. Häufige Vollbremsungen haben einen deutlichen positiven Effekt auf $P(\text{Diebstahl})$, da sie ein Indiz für
 einen risikoreicheren Fahrstil sind.
- \item \textbf{Schaltverhalten:} Das Schaltverhalten ist ein starker Prädiktor für den Fahrer. Für die kategorialen Ausprägungen wurden Dummy-Variablen erstellt:
- $\beta_{\text{früh}} = -0{,}3$, $\beta_{\text{normal}} = -0{,}3$ und $\beta_{\text{spät}} = +0{,}5$. Besonders \emph{spät} schalten wird mit einem hohen positiven Beta gewichtet,
+ \item \textbf{Schaltverhalten:} Das Schaltverhalten ist ein wichtiger Prädiktor für den Fahrer. Für die kategorialen Ausprägungen wurden folgende Koeffizienten gewählt:
+ $\beta_{\text{früh}} = -0{,}8$, $\beta_{\text{normal}} = -0{,}8$ und $\beta_{\text{spät}} = +1{,}5$. Besonders \emph{spät} schalten wird mit einem hohen positiven Beta gewichtet,
 da es einen aggressiveren Fahrstil beschreibt. \emph{Früh} und \emph{normal} schalten erhalten einen negativen Einfluss, da sie auf einen defensiveren oder gewohnten Fahrstil
 hindeuten.
 \item \textbf{Geschwindigkeitsüberschreitungen:} Die Häufigkeit von Geschwindigkeitsüberschreitungen ist ein wichtiger Indikator für den Fahrstil. Die Koeffizienten wurden
- festgelegt als: $\beta_{\text{selten}} = -0{,}3$, $\beta_{\text{manchmal}} = -0{,}3$ und $\beta_{\text{häufig}} = +0{,}5$. Besonders \emph{häufig} zu schnell fahren ist ein
+ festgelegt als: $\beta_{\text{selten}} = -0{,}8$, $\beta_{\text{manchmal}} = -0{,}8$ und $\beta_{\text{häufig}} = +1{,}5$. Besonders \emph{häufig} zu schnell fahren ist ein
 starkes Signal für einen Fahrerwechsel, da dies ein sehr auffälliges Verhalten darstellt. \emph{Selten} und \emph{manchmal} werden negativ gewichtet, da sie auf einen defensiveren
 Fahrstil hindeuten.
 \item \textbf{Kontextvariablen (Wetter, Strecke, Straßentyp, Wochentag):} Diese wurden \emph{alle mit $\beta=0$} angesetzt, d.\,h.\ sie haben per Konstruktion keinen Einfluss auf
@@ -148,15 +148,16 @@ verringern diese Grundwahrscheinlichkeit wie folgt:
 \toprule
 \textbf{Variable} & \textbf{Beta-Wert}\\
 \midrule
-Intercept & $-2{,}0$ \\
-Durchschnittsgeschwindigkeit & $+0{,}015$ \\
-Harte Bremsmanöver & $+0{,}10$ \\
-Schaltverhalten (früh) & $-0{,}30$ \\
-Schaltverhalten (normal) & $-0{,}30$ \\
-Schaltverhalten (spät) & $+0{,}50$ \\
-Geschwindigkeitsüberschreitung (selten) & $-0{,}30$ \\
-Geschwindigkeitsüberschreitung (manchmal) & $-0{,}30$ \\
-Geschwindigkeitsüberschreitung (häufig) & $+0{,}50$ \\
+Intercept & $-18{,}0$ \\
+Durchschnittsgeschwindigkeit & $+0{,}3$ \\
+Harte Bremsmanöver & $+0{,}6$ \\
+Fahrstrecke & $0{,}0$ \\
+Schaltverhalten (früh) & $-0{,}8$ \\
+Schaltverhalten (normal) & $-0{,}8$ \\
+Schaltverhalten (spät) & $+1{,}5$ \\
+Geschwindigkeitsüberschreitung (häufig) & $+1{,}5$ \\
+Geschwindigkeitsüberschreitung (manchmal) & $-0{,}8$ \\
+Geschwindigkeitsüberschreitung (selten) & $-0{,}8$ \\
 Wetter (alle Kategorien) & $0{,}00$ \\
 Straßentyp (alle Kategorien) & $0{,}00$ \\
 Wochentag (alle Kategorien) & $0{,}00$ \\
@@ -166,12 +167,13 @@ Wochentag (alle Kategorien) & $0{,}00$ \\

 \noindent
 Durch die gewählten $\beta$-Gewichte resultiert eine Verteilung der Zielvariable, bei der Diebstahl relativ selten vorkommt, aber nicht vernachlässigbar: Im generierten
-Datensatz sind etwa 30\,\% der Fahrten als Diebstahl deklariert worden (d.\,h. $Y=1$ in 301381 von 1.000.000 Fällen), was in Abb.~\ref{fig:target_dist} dargestellt ist.
+Datensatz sind etwa 21{,}8\,\% der Fahrten als Diebstahl deklariert worden (d.\,h. $Y=1$ in 218290 von 1.000.000 Fällen), was in Abb.~\ref{fig:target_dist} dargestellt ist.
 Diebstähle sollen deutlich seltener als normale Fahrten sein,
 jedoch häufig genug, um ein Modell daran zu trainieren.
 \newline
 \newline
-Die zugrunde liegenden individuellen Diebstahl-Wahrscheinlichkeiten $p_i$ waren überwiegend niedrig: Im Mittel ergaben sich $\bar{p} \approx 0,30$ und eine rechtsschiefe Verteilung
+Die zugrunde liegenden individuellen Diebstahl-Wahrscheinlichkeiten $p_i$ waren überwiegend niedrig: Im Mittel ergaben sich $\bar{p} \approx 0{,}2179$ mit einer
+Standardabweichung von $0{,}3093$ und eine rechtsschiefe Verteilung
 der $p_i$ über alle Fahrten (siehe Abb.~\ref{fig:fig_pi_dist}).

 \begin{figure}[H]
@@ -252,20 +254,40 @@ von der Backwards Selection eliminiert.
 \noindent
 \newline
 Die geschätzten Regressionskoeffizienten des finalen Modells
-(im Folgenden $\hat{\beta}$) stimmten weitgehend mit den wahren Werten aus dem Generierungsmodell überein. Ein Vergleich der Koeffizienten zeigt nur geringe Abweichungen aufgrund
-von Stichprobenfluktuation:
+(im Folgenden $\hat{\beta}$) stimmten weitgehend mit den wahren Werten aus dem Generierungsmodell überein. Tabelle~\ref{tab:beta_comparison} zeigt einen detaillierten
+Vergleich der geschätzten und wahren Koeffizienten:
+
+\begin{table}[H]
+\centering
+\caption{Vergleich der geschätzten und wahren Koeffizienten}
+\label{tab:beta_comparison}
+\begin{tabular}{lrr}
+\toprule
+\textbf{Variable} & \textbf{Geschätzt} & \textbf{Wahr}\\
+\midrule
+Intercept & $-14{,}414$ & $-18{,}0$ \\
+Durchschnittsgeschwindigkeit & $+0{,}288$ & $+0{,}3$ \\
+Harte Bremsmanöver & $+0{,}584$ & $+0{,}6$ \\
+Schaltverhalten (früh) & $-2{,}263$ & $-0{,}8$ \\
+Schaltverhalten (normal) & $-2{,}281$ & $-0{,}8$ \\
+Geschwindigkeitsüberschreitung (manchmal) & $-2{,}235$ & $-0{,}8$ \\
+Geschwindigkeitsüberschreitung (selten) & $-2{,}136$ & $-0{,}8$ \\
+\bottomrule
+\end{tabular}
+\end{table}
+
+\noindent
+Ein Vergleich der Koeffizienten zeigt erwartungsgemäß gewisse Abweichungen aufgrund
+von Stichprobenfluktuation und der unterschiedlichen Dummy-Kodierung:
 \begin{itemize}
-  \item Für \texttt{avg\_speed} ergab sich $\hat{\beta}_{avg\_speed} \approx 0{,}0189$ (gegenüber wahr $0{,}015$). Dieser leichte Überschätzung ist mit dem Stichprobenzufall
-  erklärbar, liegt aber in derselben Größenordnung.
-  \item Für \texttt{hard\_brakes} wurde $\hat{\beta}_{hard\_brakes} \approx 0{,}0966$ geschätzt (wahr $0{,}10$). Auch hier ist der Unterschied gering; das Vorzeichen und die
-  Effektstärke (positiv, deutlicher Einfluss) wurden korrekt erkannt.
-  \item Die Dummyeffekte für das Schaltverhalten wurden zu $\hat{\beta}_{frueh} \approx -0{,}7952$ und $\hat{\beta}_{normal} \approx -0{,}8065$ geschätzt (Referenz \emph{spät}
-  mit $\hat{\beta}_{spaet} = 0$). Die wahren Unterschiede (Früh/Normal vs.~Spät) betrugen $-0{,}8$. Somit liegen die Schätzungen praktisch genau auf den erwarteten Werten.
-  \item Für die Speeding-Kategorien ergaben sich $\hat{\beta}_{selten} \approx -0{,}4647$ und \newline $\hat{\beta}_{manchmal} \approx -0{,}5039$ (Referenz \emph{häufig}).
-  Die wahren Unterschiede zu \emph{häufig} waren $-0{,}8$. Hier stimmt das Vorzeichen, aber die Schätzungen sind etwas höher als erwartet.
-  \item Den Interzept schätzte das Modell mit $\hat{\beta}_{0} \approx -1{,}175$ (wahr $-2$). Diese Abweichung erklärt sich durch die Dummy-Kodierung der Kategorien:
-  Im generativen Modell hatten die Referenzkategorien \emph{spät} und \emph{häufig} jeweils einen positiven Beitrag,
-  welcher im geschätzten Modell im Interzept aufgefangen wird. Berücksichtigt man diese Verschiebung, liegt der Interzept ungefähr im Rahmen.
+  \item Für \texttt{avg\_speed} ergab sich $\hat{\beta}_{avg\_speed} = 0{,}288$ (gegenüber wahr $0{,}3$). Die Schätzung liegt sehr nah am wahren Wert und zeigt die richtige
+  Richtung des Effekts.
+  \item Für \texttt{hard\_brakes} wurde $\hat{\beta}_{hard\_brakes} = 0{,}584$ geschätzt (wahr $0{,}6$). Auch hier ist der Unterschied gering; das Vorzeichen und die
+  Effektstärke wurden korrekt erkannt.
+  \item Schaltverhalten und Geschwindigkeitsüberschreitung weichen von den ursprünglichen Werten ab. Beachtet man aber, dass Schaltverhalten (spät) und Geschwindigkeitsüberschreitung
+  (häufig) in der Backward Selection verworfen wurden ist dies nicht überraschend: Schaltverhalten (spät) und Geschwindigkeitsüberschreitung (häufig) haben im erstellten Modell
+  einen Koeffizienten von jeweils $-1{,}5$. $-1{,}5$ + $-0{,}8$ (für die anderen Kategorien) ergibt $-2{,}3$. Demnach ist die Schätzung für \texttt{shift\_behavior} und
+  \texttt{speeding} nahezu identisch mit dem wahren Wert.
 \end{itemize}
 Somit hat der Data Scientist durch das systematische Vorgehen tatsächlich das zugrunde liegende Modell (bis auf Zufallsschwankungen) wiederentdeckt.
 Insbesondere wurden keine falschen Variablen im Endmodell behalten und keine echten Einflüsse übersehen. Die logistische Regressionsgleichung aus der Stichprobe stimmt inhaltlich
@@ -283,12 +305,13 @@ und die Confusion Matrix der Modellvorhersagen.
 \end{figure}

 \noindent
-Die ROC-Kurve zeigt mit einem AUC-Wert deutlich über 0,5 eine gute Diskriminierungsfähigkeit des Modells gegenüber einem Zufallsklassifikator. Die Confusion Matrix offenbart jedoch
+Die ROC-Kurve zeigt mit einem AUC-Wert von 0{,}94 eine sehr gute Diskriminierungsfähigkeit des Modells. Dieser hohe AUC-Wert deutet darauf hin, dass das Modell sehr gut zwischen
+Diebstahl und normalen Fahrten unterscheiden kann. Die Confusion Matrix offenbart dennoch
 ein typisches Klassifikationsproblem: Das Modell erkennt normale Fahrten sehr zuverlässig, hat aber Schwierigkeiten bei der Diebstahlerkennung.

 \noindent
 \newline
-Diese Missklassifikation resultiert primär aus der begrenzten Stichprobengröße von 20.000 Beobachtungen bei einer unbalancierten Klassenverteilung (ca. 30\,\% Diebstähle).
+Diese Missklassifikation resultiert primär aus der begrenzten Stichprobengröße von 20.000 Beobachtungen bei einer unbalancierten Klassenverteilung (ca. 21{,}8\,\% Diebstähle).
 Das Modell neigt dadurch zur Klassifikation in Richtung der Mehrheitsklasse.

 \section{Güte der Modellparameter}
@@ -303,7 +326,7 @@ Untersucht wurde exemplarisch der Koeffizient $\beta_{avg\_speed}$, der Effekt d
 welche die Verteilungen von $\hat{\beta}_{avg\_speed}$ für drei verschiedene Stichprobenumfänge gegenüberstellt. Man erkennt deutlich, dass
 mit wachsendem $n$ die Verteilung der Koeffizientenschätzungen immer schmaler wird und sich enger um den wahren Wert konzentriert. Für kleine Stichproben ($n=1000$)
 schwanken die geschätzten $\beta$ noch sehr stark -- die Verteilung ist breit und umfasst Werte von nahe -0,01 bis etwa 0,04. Bei mittlerer Stichprobe ($n=11000$) ist die Streuung
-bereits deutlich geringer. Im Fall $n=46000$ liegen nahezu alle Schätzungen dicht bei $\beta\approx0{,}015$. Diese Beobachtung entspricht der
+bereits deutlich geringer. Im Fall $n=46000$ liegen nahezu alle Schätzungen dicht bei $\beta\approx0{,}3$. Diese Beobachtung entspricht der
 erwarteten Verbesserung der Schätzgenauigkeit: Je mehr Daten zur Verfügung stehen, desto weniger zufällig streuen die geschätzten Parameter um den wahren Wert.

 \begin{figure}[H]
@@ -333,7 +356,7 @@ Diese Ergebnisse illustrieren den wichtigen Zusammenhang zwischen Datenmenge und
 Präzision der Koeffizientenschätzung erheblich. Noch größere Datenmengen führen zu weiter sinkender Unsicherheit, allerdings mit abnehmendem Grenznutzen (die Kurve flacht ab).
 \newline
 \newline
-Insgesamt zeigt die Simulation, dass zur zuverlässigen Identifikation kleiner Effekte (wie $\beta_{avg\_speed}\approx0{,}015$) eine ausreichend große Stichprobe notwendig ist.
+Insgesamt zeigt die Simulation, dass zur zuverlässigen Identifikation von Effekten (wie $\beta_{avg\_speed}\approx0{,}3$) eine ausreichend große Stichprobe notwendig ist.
 Mit $n \to 50.000$ nähert sich die Streuung einem Wert an. Für das vorliegende
 Problem bedeutet dies: Je mehr Fahrten der Data Scientist zur Verfügung hat, desto genauer kann er die wahren Fahrerwechsel-Einflüsse schätzen und desto vertrauenswürdiger sind die
 vom Modell ausgegebenen Diebstahlwahrscheinlichkeiten.