4th iteration

This commit is contained in:
YannAhlgrim
2025-07-05 20:51:26 +02:00
parent 82c6ecc51f
commit 8b6544e81e
8 changed files with 54859 additions and 155 deletions
Binary file not shown.

Before

Width:  |  Height:  |  Size: 173 KiB

After

Width:  |  Height:  |  Size: 165 KiB

Binary file not shown.

Before

Width:  |  Height:  |  Size: 34 KiB

After

Width:  |  Height:  |  Size: 28 KiB

Binary file not shown.

Before

Width:  |  Height:  |  Size: 65 KiB

After

Width:  |  Height:  |  Size: 59 KiB

Binary file not shown.

Before

Width:  |  Height:  |  Size: 22 KiB

After

Width:  |  Height:  |  Size: 24 KiB

Binary file not shown.

Before

Width:  |  Height:  |  Size: 120 KiB

After

Width:  |  Height:  |  Size: 120 KiB

@@ -120,20 +120,20 @@ Anschließend wurde $Y_i$ durch einen Bernoulli-Zufall mit Parameter $p_i$ reali
\noindent
\newline
Die gewählten Koeffizienten ($\beta$-Werte) für das Generierungsmodell sind in Tabelle~\ref{tab:true_betas} aufgeführt. Diese wurden so festgelegt, dass sie plausible
Einflussstärken der erklärenden Variablen widerspiegeln, ohne die Zielvariable extrem zu dominieren. Insbesondere wurde ein relativ niedriger Basiswert
(\emph{Intercept} $\beta_0=-2$) gewählt, sodass bei unauffälligen Merkmalen die Diebstahl-Wahrscheinlichkeit sehr gering ist. Die erklärenden Variablen erhöhen bzw.\
Einflussstärken der erklärenden Variablen widerspiegeln, ohne die Zielvariable extrem zu dominieren. Insbesondere wurde ein niedriger Basiswert
(\emph{Intercept} $\beta_0=-18$) gewählt, sodass bei unauffälligen Merkmalen die Diebstahl-Wahrscheinlichkeit sehr gering ist. Die erklärenden Variablen erhöhen bzw.\
verringern diese Grundwahrscheinlichkeit wie folgt:
\begin{itemize}
\item \textbf{Durchschnittsgeschwindigkeit:} $\beta_{avg\_speed} = 0{,}015$. Ein leicht positiver Koeffizient - eine ungewöhnlich hohe Durchschnittsgeschwindigkeit erhöht also
geringfügig die Diebstahl-Wkt., da sie auf einen anderen (rasanteren) Fahrstil hindeuten kann.
\item \textbf{Harte Bremsmanöver:} $\beta_{hard\_brakes} = 0{,}1$. Häufige Vollbremsungen haben einen deutlichen positiven Effekt auf $P(\text{Diebstahl})$, da sie ein Indiz für
\item \textbf{Durchschnittsgeschwindigkeit:} $\beta_{avg\_speed} = 0{,}3$. Ein positiver Koeffizient - eine ungewöhnlich hohe Durchschnittsgeschwindigkeit erhöht
die Diebstahl-Wahrscheinlichkeit, da sie auf einen anderen (rasanteren) Fahrstil hindeuten kann.
\item \textbf{Harte Bremsmanöver:} $\beta_{hard\_brakes} = 0{,}6$. Häufige Vollbremsungen haben einen deutlichen positiven Effekt auf $P(\text{Diebstahl})$, da sie ein Indiz für
einen risikoreicheren Fahrstil sind.
\item \textbf{Schaltverhalten:} Das Schaltverhalten ist ein starker Prädiktor für den Fahrer. Für die kategorialen Ausprägungen wurden Dummy-Variablen erstellt:
$\beta_{\text{früh}} = -0{,}3$, $\beta_{\text{normal}} = -0{,}3$ und $\beta_{\text{spät}} = +0{,}5$. Besonders \emph{spät} schalten wird mit einem hohen positiven Beta gewichtet,
\item \textbf{Schaltverhalten:} Das Schaltverhalten ist ein wichtiger Prädiktor für den Fahrer. Für die kategorialen Ausprägungen wurden folgende Koeffizienten gewählt:
$\beta_{\text{früh}} = -0{,}8$, $\beta_{\text{normal}} = -0{,}8$ und $\beta_{\text{spät}} = +1{,}5$. Besonders \emph{spät} schalten wird mit einem hohen positiven Beta gewichtet,
da es einen aggressiveren Fahrstil beschreibt. \emph{Früh} und \emph{normal} schalten erhalten einen negativen Einfluss, da sie auf einen defensiveren oder gewohnten Fahrstil
hindeuten.
\item \textbf{Geschwindigkeitsüberschreitungen:} Die Häufigkeit von Geschwindigkeitsüberschreitungen ist ein wichtiger Indikator für den Fahrstil. Die Koeffizienten wurden
festgelegt als: $\beta_{\text{selten}} = -0{,}3$, $\beta_{\text{manchmal}} = -0{,}3$ und $\beta_{\text{häufig}} = +0{,}5$. Besonders \emph{häufig} zu schnell fahren ist ein
festgelegt als: $\beta_{\text{selten}} = -0{,}8$, $\beta_{\text{manchmal}} = -0{,}8$ und $\beta_{\text{häufig}} = +1{,}5$. Besonders \emph{häufig} zu schnell fahren ist ein
starkes Signal für einen Fahrerwechsel, da dies ein sehr auffälliges Verhalten darstellt. \emph{Selten} und \emph{manchmal} werden negativ gewichtet, da sie auf einen defensiveren
Fahrstil hindeuten.
\item \textbf{Kontextvariablen (Wetter, Strecke, Straßentyp, Wochentag):} Diese wurden \emph{alle mit $\beta=0$} angesetzt, d.\,h.\ sie haben per Konstruktion keinen Einfluss auf
@@ -148,15 +148,16 @@ verringern diese Grundwahrscheinlichkeit wie folgt:
\toprule
\textbf{Variable} & \textbf{Beta-Wert}\\
\midrule
Intercept & $-2{,}0$ \\
Durchschnittsgeschwindigkeit & $+0{,}015$ \\
Harte Bremsmanöver & $+0{,}10$ \\
Schaltverhalten (früh) & $-0{,}30$ \\
Schaltverhalten (normal) & $-0{,}30$ \\
Schaltverhalten (spät) & $+0{,}50$ \\
Geschwindigkeitsüberschreitung (selten) & $-0{,}30$ \\
Geschwindigkeitsüberschreitung (manchmal) & $-0{,}30$ \\
Geschwindigkeitsüberschreitung (häufig) & $+0{,}50$ \\
Intercept & $-18{,}0$ \\
Durchschnittsgeschwindigkeit & $+0{,}3$ \\
Harte Bremsmanöver & $+0{,}6$ \\
Fahrstrecke & $0{,}0$ \\
Schaltverhalten (früh) & $-0{,}8$ \\
Schaltverhalten (normal) & $-0{,}8$ \\
Schaltverhalten (spät) & $+1{,}5$ \\
Geschwindigkeitsüberschreitung (häufig) & $+1{,}5$ \\
Geschwindigkeitsüberschreitung (manchmal) & $-0{,}8$ \\
Geschwindigkeitsüberschreitung (selten) & $-0{,}8$ \\
Wetter (alle Kategorien) & $0{,}00$ \\
Straßentyp (alle Kategorien) & $0{,}00$ \\
Wochentag (alle Kategorien) & $0{,}00$ \\
@@ -166,12 +167,13 @@ Wochentag (alle Kategorien) & $0{,}00$ \\
\noindent
Durch die gewählten $\beta$-Gewichte resultiert eine Verteilung der Zielvariable, bei der Diebstahl relativ selten vorkommt, aber nicht vernachlässigbar: Im generierten
Datensatz sind etwa 30\,\% der Fahrten als Diebstahl deklariert worden (d.\,h. $Y=1$ in 301381 von 1.000.000 Fällen), was in Abb.~\ref{fig:target_dist} dargestellt ist.
Datensatz sind etwa 21{,}8\,\% der Fahrten als Diebstahl deklariert worden (d.\,h. $Y=1$ in 218290 von 1.000.000 Fällen), was in Abb.~\ref{fig:target_dist} dargestellt ist.
Diebstähle sollen deutlich seltener als normale Fahrten sein,
jedoch häufig genug, um ein Modell daran zu trainieren.
\newline
\newline
Die zugrunde liegenden individuellen Diebstahl-Wahrscheinlichkeiten $p_i$ waren überwiegend niedrig: Im Mittel ergaben sich $\bar{p} \approx 0,30$ und eine rechtsschiefe Verteilung
Die zugrunde liegenden individuellen Diebstahl-Wahrscheinlichkeiten $p_i$ waren überwiegend niedrig: Im Mittel ergaben sich $\bar{p} \approx 0{,}2179$ mit einer
Standardabweichung von $0{,}3093$ und eine rechtsschiefe Verteilung
der $p_i$ über alle Fahrten (siehe Abb.~\ref{fig:fig_pi_dist}).
\begin{figure}[H]
@@ -252,20 +254,40 @@ von der Backwards Selection eliminiert.
\noindent
\newline
Die geschätzten Regressionskoeffizienten des finalen Modells
(im Folgenden $\hat{\beta}$) stimmten weitgehend mit den wahren Werten aus dem Generierungsmodell überein. Ein Vergleich der Koeffizienten zeigt nur geringe Abweichungen aufgrund
von Stichprobenfluktuation:
(im Folgenden $\hat{\beta}$) stimmten weitgehend mit den wahren Werten aus dem Generierungsmodell überein. Tabelle~\ref{tab:beta_comparison} zeigt einen detaillierten
Vergleich der geschätzten und wahren Koeffizienten:
\begin{table}[H]
\centering
\caption{Vergleich der geschätzten und wahren Koeffizienten}
\label{tab:beta_comparison}
\begin{tabular}{lrr}
\toprule
\textbf{Variable} & \textbf{Geschätzt} & \textbf{Wahr}\\
\midrule
Intercept & $-14{,}414$ & $-18{,}0$ \\
Durchschnittsgeschwindigkeit & $+0{,}288$ & $+0{,}3$ \\
Harte Bremsmanöver & $+0{,}584$ & $+0{,}6$ \\
Schaltverhalten (früh) & $-2{,}263$ & $-0{,}8$ \\
Schaltverhalten (normal) & $-2{,}281$ & $-0{,}8$ \\
Geschwindigkeitsüberschreitung (manchmal) & $-2{,}235$ & $-0{,}8$ \\
Geschwindigkeitsüberschreitung (selten) & $-2{,}136$ & $-0{,}8$ \\
\bottomrule
\end{tabular}
\end{table}
\noindent
Ein Vergleich der Koeffizienten zeigt erwartungsgemäß gewisse Abweichungen aufgrund
von Stichprobenfluktuation und der unterschiedlichen Dummy-Kodierung:
\begin{itemize}
\item Für \texttt{avg\_speed} ergab sich $\hat{\beta}_{avg\_speed} \approx 0{,}0189$ (gegenüber wahr $0{,}015$). Dieser leichte Überschätzung ist mit dem Stichprobenzufall
erklärbar, liegt aber in derselben Größenordnung.
\item Für \texttt{hard\_brakes} wurde $\hat{\beta}_{hard\_brakes} \approx 0{,}0966$ geschätzt (wahr $0{,}10$). Auch hier ist der Unterschied gering; das Vorzeichen und die
Effektstärke (positiv, deutlicher Einfluss) wurden korrekt erkannt.
\item Die Dummyeffekte für das Schaltverhalten wurden zu $\hat{\beta}_{frueh} \approx -0{,}7952$ und $\hat{\beta}_{normal} \approx -0{,}8065$ geschätzt (Referenz \emph{spät}
mit $\hat{\beta}_{spaet} = 0$). Die wahren Unterschiede (Früh/Normal vs.~Spät) betrugen $-0{,}8$. Somit liegen die Schätzungen praktisch genau auf den erwarteten Werten.
\item Für die Speeding-Kategorien ergaben sich $\hat{\beta}_{selten} \approx -0{,}4647$ und \newline $\hat{\beta}_{manchmal} \approx -0{,}5039$ (Referenz \emph{häufig}).
Die wahren Unterschiede zu \emph{häufig} waren $-0{,}8$. Hier stimmt das Vorzeichen, aber die Schätzungen sind etwas höher als erwartet.
\item Den Interzept schätzte das Modell mit $\hat{\beta}_{0} \approx -1{,}175$ (wahr $-2$). Diese Abweichung erklärt sich durch die Dummy-Kodierung der Kategorien:
Im generativen Modell hatten die Referenzkategorien \emph{spät} und \emph{häufig} jeweils einen positiven Beitrag,
welcher im geschätzten Modell im Interzept aufgefangen wird. Berücksichtigt man diese Verschiebung, liegt der Interzept ungefähr im Rahmen.
\item Für \texttt{avg\_speed} ergab sich $\hat{\beta}_{avg\_speed} = 0{,}288$ (gegenüber wahr $0{,}3$). Die Schätzung liegt sehr nah am wahren Wert und zeigt die richtige
Richtung des Effekts.
\item Für \texttt{hard\_brakes} wurde $\hat{\beta}_{hard\_brakes} = 0{,}584$ geschätzt (wahr $0{,}6$). Auch hier ist der Unterschied gering; das Vorzeichen und die
Effektstärke wurden korrekt erkannt.
\item Schaltverhalten und Geschwindigkeitsüberschreitung weichen von den ursprünglichen Werten ab. Beachtet man aber, dass Schaltverhalten (spät) und Geschwindigkeitsüberschreitung
(häufig) in der Backward Selection verworfen wurden ist dies nicht überraschend: Schaltverhalten (spät) und Geschwindigkeitsüberschreitung (häufig) haben im erstellten Modell
einen Koeffizienten von jeweils $-1{,}5$. $-1{,}5$ + $-0{,}8$ (für die anderen Kategorien) ergibt $-2{,}3$. Demnach ist die Schätzung für \texttt{shift\_behavior} und
\texttt{speeding} nahezu identisch mit dem wahren Wert.
\end{itemize}
Somit hat der Data Scientist durch das systematische Vorgehen tatsächlich das zugrunde liegende Modell (bis auf Zufallsschwankungen) wiederentdeckt.
Insbesondere wurden keine falschen Variablen im Endmodell behalten und keine echten Einflüsse übersehen. Die logistische Regressionsgleichung aus der Stichprobe stimmt inhaltlich
@@ -283,12 +305,13 @@ und die Confusion Matrix der Modellvorhersagen.
\end{figure}
\noindent
Die ROC-Kurve zeigt mit einem AUC-Wert deutlich über 0,5 eine gute Diskriminierungsfähigkeit des Modells gegenüber einem Zufallsklassifikator. Die Confusion Matrix offenbart jedoch
Die ROC-Kurve zeigt mit einem AUC-Wert von 0{,}94 eine sehr gute Diskriminierungsfähigkeit des Modells. Dieser hohe AUC-Wert deutet darauf hin, dass das Modell sehr gut zwischen
Diebstahl und normalen Fahrten unterscheiden kann. Die Confusion Matrix offenbart dennoch
ein typisches Klassifikationsproblem: Das Modell erkennt normale Fahrten sehr zuverlässig, hat aber Schwierigkeiten bei der Diebstahlerkennung.
\noindent
\newline
Diese Missklassifikation resultiert primär aus der begrenzten Stichprobengröße von 20.000 Beobachtungen bei einer unbalancierten Klassenverteilung (ca. 30\,\% Diebstähle).
Diese Missklassifikation resultiert primär aus der begrenzten Stichprobengröße von 20.000 Beobachtungen bei einer unbalancierten Klassenverteilung (ca. 21{,}8\,\% Diebstähle).
Das Modell neigt dadurch zur Klassifikation in Richtung der Mehrheitsklasse.
\section{Güte der Modellparameter}
@@ -303,7 +326,7 @@ Untersucht wurde exemplarisch der Koeffizient $\beta_{avg\_speed}$, der Effekt d
welche die Verteilungen von $\hat{\beta}_{avg\_speed}$ für drei verschiedene Stichprobenumfänge gegenüberstellt. Man erkennt deutlich, dass
mit wachsendem $n$ die Verteilung der Koeffizientenschätzungen immer schmaler wird und sich enger um den wahren Wert konzentriert. Für kleine Stichproben ($n=1000$)
schwanken die geschätzten $\beta$ noch sehr stark -- die Verteilung ist breit und umfasst Werte von nahe -0,01 bis etwa 0,04. Bei mittlerer Stichprobe ($n=11000$) ist die Streuung
bereits deutlich geringer. Im Fall $n=46000$ liegen nahezu alle Schätzungen dicht bei $\beta\approx0{,}015$. Diese Beobachtung entspricht der
bereits deutlich geringer. Im Fall $n=46000$ liegen nahezu alle Schätzungen dicht bei $\beta\approx0{,}3$. Diese Beobachtung entspricht der
erwarteten Verbesserung der Schätzgenauigkeit: Je mehr Daten zur Verfügung stehen, desto weniger zufällig streuen die geschätzten Parameter um den wahren Wert.
\begin{figure}[H]
@@ -333,7 +356,7 @@ Diese Ergebnisse illustrieren den wichtigen Zusammenhang zwischen Datenmenge und
Präzision der Koeffizientenschätzung erheblich. Noch größere Datenmengen führen zu weiter sinkender Unsicherheit, allerdings mit abnehmendem Grenznutzen (die Kurve flacht ab).
\newline
\newline
Insgesamt zeigt die Simulation, dass zur zuverlässigen Identifikation kleiner Effekte (wie $\beta_{avg\_speed}\approx0{,}015$) eine ausreichend große Stichprobe notwendig ist.
Insgesamt zeigt die Simulation, dass zur zuverlässigen Identifikation von Effekten (wie $\beta_{avg\_speed}\approx0{,}3$) eine ausreichend große Stichprobe notwendig ist.
Mit $n \to 50.000$ nähert sich die Streuung einem Wert an. Für das vorliegende
Problem bedeutet dies: Je mehr Fahrten der Data Scientist zur Verfügung hat, desto genauer kann er die wahren Fahrerwechsel-Einflüsse schätzen und desto vertrauenswürdiger sind die
vom Modell ausgegebenen Diebstahlwahrscheinlichkeiten.