diff --git a/1_data_science/simulationsstudie/latex/fig_beta_distribution.png b/1_data_science/simulationsstudie/latex/fig_beta_distribution.png index 52fb20c..e9b5a92 100644 Binary files a/1_data_science/simulationsstudie/latex/fig_beta_distribution.png and b/1_data_science/simulationsstudie/latex/fig_beta_distribution.png differ diff --git a/1_data_science/simulationsstudie/latex/yann_ahlgrim_ergebnisbericht.pdf b/1_data_science/simulationsstudie/latex/yann_ahlgrim_ergebnisbericht.pdf index adcfe6e..5a0d53a 100644 Binary files a/1_data_science/simulationsstudie/latex/yann_ahlgrim_ergebnisbericht.pdf and b/1_data_science/simulationsstudie/latex/yann_ahlgrim_ergebnisbericht.pdf differ diff --git a/1_data_science/simulationsstudie/latex/yann_ahlgrim_ergebnisbericht.tex b/1_data_science/simulationsstudie/latex/yann_ahlgrim_ergebnisbericht.tex index 1a7d677..c068413 100644 --- a/1_data_science/simulationsstudie/latex/yann_ahlgrim_ergebnisbericht.tex +++ b/1_data_science/simulationsstudie/latex/yann_ahlgrim_ergebnisbericht.tex @@ -286,7 +286,7 @@ von Stichprobenfluktuation und der unterschiedlichen Dummy-Kodierung: Effektstärke wurden korrekt erkannt. \item Schaltverhalten und Geschwindigkeitsüberschreitung weichen von den ursprünglichen Werten ab. Beachtet man aber, dass Schaltverhalten (spät) und Geschwindigkeitsüberschreitung (häufig) in der Backward Selection verworfen wurden ist dies nicht überraschend: Schaltverhalten (spät) und Geschwindigkeitsüberschreitung (häufig) haben im erstellten Modell - einen Koeffizienten von jeweils $-1{,}5$. $-1{,}5$ + $-0{,}8$ (für die anderen Kategorien) ergibt $-2{,}3$. Demnach ist die Schätzung für \texttt{shift\_behavior} und + einen Koeffizienten von jeweils $+1{,}5$. Die Differenz der Kategorien: $-0{,}8 - (+1{,}5) = -2{,}3$. Demnach ist die Schätzung für \texttt{shift\_behavior} und \texttt{speeding} nahezu identisch mit dem wahren Wert. \end{itemize} Somit hat der Data Scientist durch das systematische Vorgehen tatsächlich das zugrunde liegende Modell (bis auf Zufallsschwankungen) wiederentdeckt. @@ -307,12 +307,13 @@ und die Confusion Matrix der Modellvorhersagen. \noindent Die ROC-Kurve zeigt mit einem AUC-Wert von 0{,}94 eine sehr gute Diskriminierungsfähigkeit des Modells. Dieser hohe AUC-Wert deutet darauf hin, dass das Modell sehr gut zwischen Diebstahl und normalen Fahrten unterscheiden kann. Die Confusion Matrix offenbart dennoch -ein typisches Klassifikationsproblem: Das Modell erkennt normale Fahrten sehr zuverlässig, hat aber Schwierigkeiten bei der Diebstahlerkennung. +ein typisches Klassifikationsproblem: Das Modell erkennt normale Fahrten (Mehrheitsklasse) sehr zuverlässig, hat aber teils mehr Schwierigkeiten bei der Diebstahlerkennung +(Minoritätsklasse). \noindent \newline Diese Missklassifikation resultiert primär aus der begrenzten Stichprobengröße von 20.000 Beobachtungen bei einer unbalancierten Klassenverteilung (ca. 21{,}8\,\% Diebstähle). -Das Modell neigt dadurch zur Klassifikation in Richtung der Mehrheitsklasse. +Das Modell neigt dadurch zur Klassifikation in Richtung der Mehrheitsklasse, ist aber dennoch mit 94\,\% Genauigkeit insgesamt sehr performant. \section{Güte der Modellparameter} In einem letzten Schritt wurde untersucht, wie verlässlich die Modellschätzung bei unterschiedlicher Datenmenge ist. Insbesondere stellt sich die Frage, welchen Einfluss der @@ -325,8 +326,8 @@ und die Verteilungen der resultierenden $\hat{\beta}$-Koeffizienten analysiert. Untersucht wurde exemplarisch der Koeffizient $\beta_{avg\_speed}$, der Effekt der Durchschnittsgeschwindigkeit. Die Ergebnisse sind in Abbildung~\ref{fig:beta_dist} dargestellt, welche die Verteilungen von $\hat{\beta}_{avg\_speed}$ für drei verschiedene Stichprobenumfänge gegenüberstellt. Man erkennt deutlich, dass mit wachsendem $n$ die Verteilung der Koeffizientenschätzungen immer schmaler wird und sich enger um den wahren Wert konzentriert. Für kleine Stichproben ($n=1000$) -schwanken die geschätzten $\beta$ noch sehr stark -- die Verteilung ist breit und umfasst Werte von nahe -0,01 bis etwa 0,04. Bei mittlerer Stichprobe ($n=11000$) ist die Streuung -bereits deutlich geringer. Im Fall $n=46000$ liegen nahezu alle Schätzungen dicht bei $\beta\approx0{,}3$. Diese Beobachtung entspricht der +schwanken die geschätzten $\beta$ noch sehr stark -- die Verteilung ist breit und umfasst Werte von nahe $0{,}200$ bis etwa $0{,}400$. Bei mittlerer Stichprobe ($n=11000$) ist die +Streuung bereits deutlich geringer. Im Fall $n=46000$ liegen nahezu alle Schätzungen dicht bei $\beta\approx0{,}3$. Diese Beobachtung entspricht der erwarteten Verbesserung der Schätzgenauigkeit: Je mehr Daten zur Verfügung stehen, desto weniger zufällig streuen die geschätzten Parameter um den wahren Wert. \begin{figure}[H]