4th iteration
|
Before Width: | Height: | Size: 173 KiB After Width: | Height: | Size: 165 KiB |
|
Before Width: | Height: | Size: 34 KiB After Width: | Height: | Size: 28 KiB |
|
Before Width: | Height: | Size: 65 KiB After Width: | Height: | Size: 59 KiB |
|
Before Width: | Height: | Size: 22 KiB After Width: | Height: | Size: 24 KiB |
|
Before Width: | Height: | Size: 120 KiB After Width: | Height: | Size: 120 KiB |
@@ -120,20 +120,20 @@ Anschließend wurde $Y_i$ durch einen Bernoulli-Zufall mit Parameter $p_i$ reali
|
||||
\noindent
|
||||
\newline
|
||||
Die gewählten Koeffizienten ($\beta$-Werte) für das Generierungsmodell sind in Tabelle~\ref{tab:true_betas} aufgeführt. Diese wurden so festgelegt, dass sie plausible
|
||||
Einflussstärken der erklärenden Variablen widerspiegeln, ohne die Zielvariable extrem zu dominieren. Insbesondere wurde ein relativ niedriger Basiswert
|
||||
(\emph{Intercept} $\beta_0=-2$) gewählt, sodass bei unauffälligen Merkmalen die Diebstahl-Wahrscheinlichkeit sehr gering ist. Die erklärenden Variablen erhöhen bzw.\
|
||||
Einflussstärken der erklärenden Variablen widerspiegeln, ohne die Zielvariable extrem zu dominieren. Insbesondere wurde ein niedriger Basiswert
|
||||
(\emph{Intercept} $\beta_0=-18$) gewählt, sodass bei unauffälligen Merkmalen die Diebstahl-Wahrscheinlichkeit sehr gering ist. Die erklärenden Variablen erhöhen bzw.\
|
||||
verringern diese Grundwahrscheinlichkeit wie folgt:
|
||||
\begin{itemize}
|
||||
\item \textbf{Durchschnittsgeschwindigkeit:} $\beta_{avg\_speed} = 0{,}015$. Ein leicht positiver Koeffizient - eine ungewöhnlich hohe Durchschnittsgeschwindigkeit erhöht also
|
||||
geringfügig die Diebstahl-Wkt., da sie auf einen anderen (rasanteren) Fahrstil hindeuten kann.
|
||||
\item \textbf{Harte Bremsmanöver:} $\beta_{hard\_brakes} = 0{,}1$. Häufige Vollbremsungen haben einen deutlichen positiven Effekt auf $P(\text{Diebstahl})$, da sie ein Indiz für
|
||||
\item \textbf{Durchschnittsgeschwindigkeit:} $\beta_{avg\_speed} = 0{,}3$. Ein positiver Koeffizient - eine ungewöhnlich hohe Durchschnittsgeschwindigkeit erhöht
|
||||
die Diebstahl-Wahrscheinlichkeit, da sie auf einen anderen (rasanteren) Fahrstil hindeuten kann.
|
||||
\item \textbf{Harte Bremsmanöver:} $\beta_{hard\_brakes} = 0{,}6$. Häufige Vollbremsungen haben einen deutlichen positiven Effekt auf $P(\text{Diebstahl})$, da sie ein Indiz für
|
||||
einen risikoreicheren Fahrstil sind.
|
||||
\item \textbf{Schaltverhalten:} Das Schaltverhalten ist ein starker Prädiktor für den Fahrer. Für die kategorialen Ausprägungen wurden Dummy-Variablen erstellt:
|
||||
$\beta_{\text{früh}} = -0{,}3$, $\beta_{\text{normal}} = -0{,}3$ und $\beta_{\text{spät}} = +0{,}5$. Besonders \emph{spät} schalten wird mit einem hohen positiven Beta gewichtet,
|
||||
\item \textbf{Schaltverhalten:} Das Schaltverhalten ist ein wichtiger Prädiktor für den Fahrer. Für die kategorialen Ausprägungen wurden folgende Koeffizienten gewählt:
|
||||
$\beta_{\text{früh}} = -0{,}8$, $\beta_{\text{normal}} = -0{,}8$ und $\beta_{\text{spät}} = +1{,}5$. Besonders \emph{spät} schalten wird mit einem hohen positiven Beta gewichtet,
|
||||
da es einen aggressiveren Fahrstil beschreibt. \emph{Früh} und \emph{normal} schalten erhalten einen negativen Einfluss, da sie auf einen defensiveren oder gewohnten Fahrstil
|
||||
hindeuten.
|
||||
\item \textbf{Geschwindigkeitsüberschreitungen:} Die Häufigkeit von Geschwindigkeitsüberschreitungen ist ein wichtiger Indikator für den Fahrstil. Die Koeffizienten wurden
|
||||
festgelegt als: $\beta_{\text{selten}} = -0{,}3$, $\beta_{\text{manchmal}} = -0{,}3$ und $\beta_{\text{häufig}} = +0{,}5$. Besonders \emph{häufig} zu schnell fahren ist ein
|
||||
festgelegt als: $\beta_{\text{selten}} = -0{,}8$, $\beta_{\text{manchmal}} = -0{,}8$ und $\beta_{\text{häufig}} = +1{,}5$. Besonders \emph{häufig} zu schnell fahren ist ein
|
||||
starkes Signal für einen Fahrerwechsel, da dies ein sehr auffälliges Verhalten darstellt. \emph{Selten} und \emph{manchmal} werden negativ gewichtet, da sie auf einen defensiveren
|
||||
Fahrstil hindeuten.
|
||||
\item \textbf{Kontextvariablen (Wetter, Strecke, Straßentyp, Wochentag):} Diese wurden \emph{alle mit $\beta=0$} angesetzt, d.\,h.\ sie haben per Konstruktion keinen Einfluss auf
|
||||
@@ -148,15 +148,16 @@ verringern diese Grundwahrscheinlichkeit wie folgt:
|
||||
\toprule
|
||||
\textbf{Variable} & \textbf{Beta-Wert}\\
|
||||
\midrule
|
||||
Intercept & $-2{,}0$ \\
|
||||
Durchschnittsgeschwindigkeit & $+0{,}015$ \\
|
||||
Harte Bremsmanöver & $+0{,}10$ \\
|
||||
Schaltverhalten (früh) & $-0{,}30$ \\
|
||||
Schaltverhalten (normal) & $-0{,}30$ \\
|
||||
Schaltverhalten (spät) & $+0{,}50$ \\
|
||||
Geschwindigkeitsüberschreitung (selten) & $-0{,}30$ \\
|
||||
Geschwindigkeitsüberschreitung (manchmal) & $-0{,}30$ \\
|
||||
Geschwindigkeitsüberschreitung (häufig) & $+0{,}50$ \\
|
||||
Intercept & $-18{,}0$ \\
|
||||
Durchschnittsgeschwindigkeit & $+0{,}3$ \\
|
||||
Harte Bremsmanöver & $+0{,}6$ \\
|
||||
Fahrstrecke & $0{,}0$ \\
|
||||
Schaltverhalten (früh) & $-0{,}8$ \\
|
||||
Schaltverhalten (normal) & $-0{,}8$ \\
|
||||
Schaltverhalten (spät) & $+1{,}5$ \\
|
||||
Geschwindigkeitsüberschreitung (häufig) & $+1{,}5$ \\
|
||||
Geschwindigkeitsüberschreitung (manchmal) & $-0{,}8$ \\
|
||||
Geschwindigkeitsüberschreitung (selten) & $-0{,}8$ \\
|
||||
Wetter (alle Kategorien) & $0{,}00$ \\
|
||||
Straßentyp (alle Kategorien) & $0{,}00$ \\
|
||||
Wochentag (alle Kategorien) & $0{,}00$ \\
|
||||
@@ -166,12 +167,13 @@ Wochentag (alle Kategorien) & $0{,}00$ \\
|
||||
|
||||
\noindent
|
||||
Durch die gewählten $\beta$-Gewichte resultiert eine Verteilung der Zielvariable, bei der Diebstahl relativ selten vorkommt, aber nicht vernachlässigbar: Im generierten
|
||||
Datensatz sind etwa 30\,\% der Fahrten als Diebstahl deklariert worden (d.\,h. $Y=1$ in 301381 von 1.000.000 Fällen), was in Abb.~\ref{fig:target_dist} dargestellt ist.
|
||||
Datensatz sind etwa 21{,}8\,\% der Fahrten als Diebstahl deklariert worden (d.\,h. $Y=1$ in 218290 von 1.000.000 Fällen), was in Abb.~\ref{fig:target_dist} dargestellt ist.
|
||||
Diebstähle sollen deutlich seltener als normale Fahrten sein,
|
||||
jedoch häufig genug, um ein Modell daran zu trainieren.
|
||||
\newline
|
||||
\newline
|
||||
Die zugrunde liegenden individuellen Diebstahl-Wahrscheinlichkeiten $p_i$ waren überwiegend niedrig: Im Mittel ergaben sich $\bar{p} \approx 0,30$ und eine rechtsschiefe Verteilung
|
||||
Die zugrunde liegenden individuellen Diebstahl-Wahrscheinlichkeiten $p_i$ waren überwiegend niedrig: Im Mittel ergaben sich $\bar{p} \approx 0{,}2179$ mit einer
|
||||
Standardabweichung von $0{,}3093$ und eine rechtsschiefe Verteilung
|
||||
der $p_i$ über alle Fahrten (siehe Abb.~\ref{fig:fig_pi_dist}).
|
||||
|
||||
\begin{figure}[H]
|
||||
@@ -252,20 +254,40 @@ von der Backwards Selection eliminiert.
|
||||
\noindent
|
||||
\newline
|
||||
Die geschätzten Regressionskoeffizienten des finalen Modells
|
||||
(im Folgenden $\hat{\beta}$) stimmten weitgehend mit den wahren Werten aus dem Generierungsmodell überein. Ein Vergleich der Koeffizienten zeigt nur geringe Abweichungen aufgrund
|
||||
von Stichprobenfluktuation:
|
||||
(im Folgenden $\hat{\beta}$) stimmten weitgehend mit den wahren Werten aus dem Generierungsmodell überein. Tabelle~\ref{tab:beta_comparison} zeigt einen detaillierten
|
||||
Vergleich der geschätzten und wahren Koeffizienten:
|
||||
|
||||
\begin{table}[H]
|
||||
\centering
|
||||
\caption{Vergleich der geschätzten und wahren Koeffizienten}
|
||||
\label{tab:beta_comparison}
|
||||
\begin{tabular}{lrr}
|
||||
\toprule
|
||||
\textbf{Variable} & \textbf{Geschätzt} & \textbf{Wahr}\\
|
||||
\midrule
|
||||
Intercept & $-14{,}414$ & $-18{,}0$ \\
|
||||
Durchschnittsgeschwindigkeit & $+0{,}288$ & $+0{,}3$ \\
|
||||
Harte Bremsmanöver & $+0{,}584$ & $+0{,}6$ \\
|
||||
Schaltverhalten (früh) & $-2{,}263$ & $-0{,}8$ \\
|
||||
Schaltverhalten (normal) & $-2{,}281$ & $-0{,}8$ \\
|
||||
Geschwindigkeitsüberschreitung (manchmal) & $-2{,}235$ & $-0{,}8$ \\
|
||||
Geschwindigkeitsüberschreitung (selten) & $-2{,}136$ & $-0{,}8$ \\
|
||||
\bottomrule
|
||||
\end{tabular}
|
||||
\end{table}
|
||||
|
||||
\noindent
|
||||
Ein Vergleich der Koeffizienten zeigt erwartungsgemäß gewisse Abweichungen aufgrund
|
||||
von Stichprobenfluktuation und der unterschiedlichen Dummy-Kodierung:
|
||||
\begin{itemize}
|
||||
\item Für \texttt{avg\_speed} ergab sich $\hat{\beta}_{avg\_speed} \approx 0{,}0189$ (gegenüber wahr $0{,}015$). Dieser leichte Überschätzung ist mit dem Stichprobenzufall
|
||||
erklärbar, liegt aber in derselben Größenordnung.
|
||||
\item Für \texttt{hard\_brakes} wurde $\hat{\beta}_{hard\_brakes} \approx 0{,}0966$ geschätzt (wahr $0{,}10$). Auch hier ist der Unterschied gering; das Vorzeichen und die
|
||||
Effektstärke (positiv, deutlicher Einfluss) wurden korrekt erkannt.
|
||||
\item Die Dummyeffekte für das Schaltverhalten wurden zu $\hat{\beta}_{frueh} \approx -0{,}7952$ und $\hat{\beta}_{normal} \approx -0{,}8065$ geschätzt (Referenz \emph{spät}
|
||||
mit $\hat{\beta}_{spaet} = 0$). Die wahren Unterschiede (Früh/Normal vs.~Spät) betrugen $-0{,}8$. Somit liegen die Schätzungen praktisch genau auf den erwarteten Werten.
|
||||
\item Für die Speeding-Kategorien ergaben sich $\hat{\beta}_{selten} \approx -0{,}4647$ und \newline $\hat{\beta}_{manchmal} \approx -0{,}5039$ (Referenz \emph{häufig}).
|
||||
Die wahren Unterschiede zu \emph{häufig} waren $-0{,}8$. Hier stimmt das Vorzeichen, aber die Schätzungen sind etwas höher als erwartet.
|
||||
\item Den Interzept schätzte das Modell mit $\hat{\beta}_{0} \approx -1{,}175$ (wahr $-2$). Diese Abweichung erklärt sich durch die Dummy-Kodierung der Kategorien:
|
||||
Im generativen Modell hatten die Referenzkategorien \emph{spät} und \emph{häufig} jeweils einen positiven Beitrag,
|
||||
welcher im geschätzten Modell im Interzept aufgefangen wird. Berücksichtigt man diese Verschiebung, liegt der Interzept ungefähr im Rahmen.
|
||||
\item Für \texttt{avg\_speed} ergab sich $\hat{\beta}_{avg\_speed} = 0{,}288$ (gegenüber wahr $0{,}3$). Die Schätzung liegt sehr nah am wahren Wert und zeigt die richtige
|
||||
Richtung des Effekts.
|
||||
\item Für \texttt{hard\_brakes} wurde $\hat{\beta}_{hard\_brakes} = 0{,}584$ geschätzt (wahr $0{,}6$). Auch hier ist der Unterschied gering; das Vorzeichen und die
|
||||
Effektstärke wurden korrekt erkannt.
|
||||
\item Schaltverhalten und Geschwindigkeitsüberschreitung weichen von den ursprünglichen Werten ab. Beachtet man aber, dass Schaltverhalten (spät) und Geschwindigkeitsüberschreitung
|
||||
(häufig) in der Backward Selection verworfen wurden ist dies nicht überraschend: Schaltverhalten (spät) und Geschwindigkeitsüberschreitung (häufig) haben im erstellten Modell
|
||||
einen Koeffizienten von jeweils $-1{,}5$. $-1{,}5$ + $-0{,}8$ (für die anderen Kategorien) ergibt $-2{,}3$. Demnach ist die Schätzung für \texttt{shift\_behavior} und
|
||||
\texttt{speeding} nahezu identisch mit dem wahren Wert.
|
||||
\end{itemize}
|
||||
Somit hat der Data Scientist durch das systematische Vorgehen tatsächlich das zugrunde liegende Modell (bis auf Zufallsschwankungen) wiederentdeckt.
|
||||
Insbesondere wurden keine falschen Variablen im Endmodell behalten und keine echten Einflüsse übersehen. Die logistische Regressionsgleichung aus der Stichprobe stimmt inhaltlich
|
||||
@@ -283,12 +305,13 @@ und die Confusion Matrix der Modellvorhersagen.
|
||||
\end{figure}
|
||||
|
||||
\noindent
|
||||
Die ROC-Kurve zeigt mit einem AUC-Wert deutlich über 0,5 eine gute Diskriminierungsfähigkeit des Modells gegenüber einem Zufallsklassifikator. Die Confusion Matrix offenbart jedoch
|
||||
Die ROC-Kurve zeigt mit einem AUC-Wert von 0{,}94 eine sehr gute Diskriminierungsfähigkeit des Modells. Dieser hohe AUC-Wert deutet darauf hin, dass das Modell sehr gut zwischen
|
||||
Diebstahl und normalen Fahrten unterscheiden kann. Die Confusion Matrix offenbart dennoch
|
||||
ein typisches Klassifikationsproblem: Das Modell erkennt normale Fahrten sehr zuverlässig, hat aber Schwierigkeiten bei der Diebstahlerkennung.
|
||||
|
||||
\noindent
|
||||
\newline
|
||||
Diese Missklassifikation resultiert primär aus der begrenzten Stichprobengröße von 20.000 Beobachtungen bei einer unbalancierten Klassenverteilung (ca. 30\,\% Diebstähle).
|
||||
Diese Missklassifikation resultiert primär aus der begrenzten Stichprobengröße von 20.000 Beobachtungen bei einer unbalancierten Klassenverteilung (ca. 21{,}8\,\% Diebstähle).
|
||||
Das Modell neigt dadurch zur Klassifikation in Richtung der Mehrheitsklasse.
|
||||
|
||||
\section{Güte der Modellparameter}
|
||||
@@ -303,7 +326,7 @@ Untersucht wurde exemplarisch der Koeffizient $\beta_{avg\_speed}$, der Effekt d
|
||||
welche die Verteilungen von $\hat{\beta}_{avg\_speed}$ für drei verschiedene Stichprobenumfänge gegenüberstellt. Man erkennt deutlich, dass
|
||||
mit wachsendem $n$ die Verteilung der Koeffizientenschätzungen immer schmaler wird und sich enger um den wahren Wert konzentriert. Für kleine Stichproben ($n=1000$)
|
||||
schwanken die geschätzten $\beta$ noch sehr stark -- die Verteilung ist breit und umfasst Werte von nahe -0,01 bis etwa 0,04. Bei mittlerer Stichprobe ($n=11000$) ist die Streuung
|
||||
bereits deutlich geringer. Im Fall $n=46000$ liegen nahezu alle Schätzungen dicht bei $\beta\approx0{,}015$. Diese Beobachtung entspricht der
|
||||
bereits deutlich geringer. Im Fall $n=46000$ liegen nahezu alle Schätzungen dicht bei $\beta\approx0{,}3$. Diese Beobachtung entspricht der
|
||||
erwarteten Verbesserung der Schätzgenauigkeit: Je mehr Daten zur Verfügung stehen, desto weniger zufällig streuen die geschätzten Parameter um den wahren Wert.
|
||||
|
||||
\begin{figure}[H]
|
||||
@@ -333,7 +356,7 @@ Diese Ergebnisse illustrieren den wichtigen Zusammenhang zwischen Datenmenge und
|
||||
Präzision der Koeffizientenschätzung erheblich. Noch größere Datenmengen führen zu weiter sinkender Unsicherheit, allerdings mit abnehmendem Grenznutzen (die Kurve flacht ab).
|
||||
\newline
|
||||
\newline
|
||||
Insgesamt zeigt die Simulation, dass zur zuverlässigen Identifikation kleiner Effekte (wie $\beta_{avg\_speed}\approx0{,}015$) eine ausreichend große Stichprobe notwendig ist.
|
||||
Insgesamt zeigt die Simulation, dass zur zuverlässigen Identifikation von Effekten (wie $\beta_{avg\_speed}\approx0{,}3$) eine ausreichend große Stichprobe notwendig ist.
|
||||
Mit $n \to 50.000$ nähert sich die Streuung einem Wert an. Für das vorliegende
|
||||
Problem bedeutet dies: Je mehr Fahrten der Data Scientist zur Verfügung hat, desto genauer kann er die wahren Fahrerwechsel-Einflüsse schätzen und desto vertrauenswürdiger sind die
|
||||
vom Modell ausgegebenen Diebstahlwahrscheinlichkeiten.
|
||||
|
||||