3rd iteration

2025-07-05 17:33:11 +02:00
parent 822184ba65
commit 82c6ecc51f
5 changed files with 146 additions and 7789 deletions
@@ -12,7 +12,7 @@
 \addbibresource{references.bib}
 \title{Simulationsstudie: Diebstahlerkennung eines Autos in~Echtzeit}
-\author{Yann Ahlgrim}
+\author{Yann Ahlgrim\\Matrikelnummer: 818296}
 \date{\today}
 \begin{document}
@@ -166,12 +166,12 @@ Wochentag (alle Kategorien) & $0{,}00$ \\
 \noindent
 Durch die gewählten $\beta$-Gewichte resultiert eine Verteilung der Zielvariable, bei der Diebstahl relativ selten vorkommt, aber nicht vernachlässigbar: Im generierten
-Datensatz sind etwa 23\,\% der Fahrten als Diebstahl deklariert worden (d.\,h. $Y=1$ in 229.973 von 1.000.000 Fällen), was in Abb.~\ref{fig:target_dist} dargestellt ist.
+Datensatz sind etwa 30\,\% der Fahrten als Diebstahl deklariert worden (d.\,h. $Y=1$ in 301381 von 1.000.000 Fällen), was in Abb.~\ref{fig:target_dist} dargestellt ist.
 Diebstähle sollen deutlich seltener als normale Fahrten sein,
 jedoch häufig genug, um ein Modell daran zu trainieren.
 \newline
 \newline
-Die zugrunde liegenden individuellen Diebstahl-Wahrscheinlichkeiten $p_i$ waren überwiegend niedrig: Im Mittel ergaben sich $\bar{p} \approx 0,23$ und eine rechtsschiefe Verteilung
+Die zugrunde liegenden individuellen Diebstahl-Wahrscheinlichkeiten $p_i$ waren überwiegend niedrig: Im Mittel ergaben sich $\bar{p} \approx 0,30$ und eine rechtsschiefe Verteilung
 der $p_i$ über alle Fahrten (siehe Abb.~\ref{fig:fig_pi_dist}).
 \begin{figure}[H]
@@ -197,7 +197,7 @@ Variablenselektion optimieren. Abschließend würde er die Modellgüte bewerten.
 Zunächst wurde die Stichprobe auf Vollständigkeit und Ausreißer geprüft. Es traten keine fehlenden Werte auf (da simuliert). Ein \emph{Abgleich der Verteilungen} bestätigte,
 dass die Stichprobe die Grundgesamtheits-Charakteristika widerspiegelt. Beispielsweise sind die Verteilungen der metrischen Variablen in Abb.~\ref{fig:dist_vars} dargestellt
 (Histogramme und Boxplots): Man erkennt die angenommene Normalverteilung der \texttt{avg\_speed} (mit Mittelwert ca.~47~km/h), die rechtschiefe Poisson-Verteilung von
-\texttt{hard\_brakes} (häufig 0 oder 1 harte Bremsung, selten mehr) und die ausgeprägte Schiefe der lognormal verteilten \texttt{trip\_distance} (viele kurze Fahrten, wenige sehr
+\texttt{hard\_brakes} (häufig 1 oder 2 harte Bremsung, selten mehr) und die ausgeprägte Schiefe der lognormal verteilten \texttt{trip\_distance} (viele kurze Fahrten, wenige sehr
 lange). Die Boxplots zeigen, dass es bei \texttt{trip\_distance} einige Ausreißer (sehr lange Fahrten) gibt, während \texttt{avg\_speed} symmetrisch verteilt ist.
 \begin{figure}[H]
 \centering
@@ -252,20 +252,20 @@ von der Backwards Selection eliminiert.
 \noindent
 \newline
 Die geschätzten Regressionskoeffizienten des finalen Modells
-(im Folgenden $\hat{\beta}$) stimmten weitgehend mit den wahren Werten aus dem Generierungsmodell überein. Insbesondere waren alle verbleibenden Prädiktoren hochsignifikant
+(im Folgenden $\hat{\beta}$) stimmten weitgehend mit den wahren Werten aus dem Generierungsmodell überein. Ein Vergleich der Koeffizienten zeigt nur geringe Abweichungen aufgrund
-($p<0,001$). Ein Vergleich der Koeffizienten zeigt nur geringe Abweichungen aufgrund von Stichprobenfluktuation:
+von Stichprobenfluktuation:
 \begin{itemize}
-  \item Für \texttt{avg\_speed} ergab sich $\hat{\beta}_{avg\_speed} \approx 0{,}0174$ (gegenüber wahr $0{,}015$). Dieser leichte Überschätzung ist mit dem Stichprobenzufall
+  \item Für \texttt{avg\_speed} ergab sich $\hat{\beta}_{avg\_speed} \approx 0{,}0189$ (gegenüber wahr $0{,}015$). Dieser leichte Überschätzung ist mit dem Stichprobenzufall
  erklärbar, liegt aber in derselben Größenordnung.
-  \item Für \texttt{hard\_brakes} wurde $\hat{\beta}_{hard\_brakes} \approx 0{,}0817$ geschätzt (wahr $0{,}10$). Auch hier ist der Unterschied gering; das Vorzeichen und die
+  \item Für \texttt{hard\_brakes} wurde $\hat{\beta}_{hard\_brakes} \approx 0{,}0966$ geschätzt (wahr $0{,}10$). Auch hier ist der Unterschied gering; das Vorzeichen und die
  Effektstärke (positiv, deutlicher Einfluss) wurden korrekt erkannt.
-  \item Die Dummyeffekte für das Schaltverhalten wurden zu $\hat{\beta}_{frueh} \approx -0{,}815$ und $\hat{\beta}_{normal} \approx -0{,}808$ geschätzt (Referenz \emph{spät}
+  \item Die Dummyeffekte für das Schaltverhalten wurden zu $\hat{\beta}_{frueh} \approx -0{,}7952$ und $\hat{\beta}_{normal} \approx -0{,}8065$ geschätzt (Referenz \emph{spät}
  mit $\hat{\beta}_{spaet} = 0$). Die wahren Unterschiede (Früh/Normal vs.~Spät) betrugen $-0{,}8$. Somit liegen die Schätzungen praktisch genau auf den erwarteten Werten.
-  \item Für die Speeding-Kategorien ergaben sich $\hat{\beta}_{selten} \approx -0{,}834$ und \newline $\hat{\beta}_{manchmal} \approx -0{,}834$ (Referenz \emph{häufig}).
+  \item Für die Speeding-Kategorien ergaben sich $\hat{\beta}_{selten} \approx -0{,}4647$ und \newline $\hat{\beta}_{manchmal} \approx -0{,}5039$ (Referenz \emph{häufig}).
-  Die wahren Unterschiede zu \emph{häufig} waren $-0{,}8$. Auch hier stimmen Richtung und Größe nahezu überein.
+  Die wahren Unterschiede zu \emph{häufig} waren $-0{,}8$. Hier stimmt das Vorzeichen, aber die Schätzungen sind etwas höher als erwartet.
-  \item Den Interzept schätzte das Modell mit $\hat{\beta}_{0} \approx -1{,}05$ (wahr $-2$). Diese Abweichung erklärt sich durch die Dummy-Kodierung der Kategorien:
+  \item Den Interzept schätzte das Modell mit $\hat{\beta}_{0} \approx -1{,}175$ (wahr $-2$). Diese Abweichung erklärt sich durch die Dummy-Kodierung der Kategorien:
-  Im generativen Modell hatten die Referenzkategorien \emph{spät} und \emph{häufig} jeweils einen positiven Beitrag von $+0{,}5$,
+  Im generativen Modell hatten die Referenzkategorien \emph{spät} und \emph{häufig} jeweils einen positiven Beitrag,
-  welcher im geschätzten Modell im Interzept aufgefangen wird. Berücksichtigt man diese Verschiebung, liegt der Interzept im Rahmen.
+  welcher im geschätzten Modell im Interzept aufgefangen wird. Berücksichtigt man diese Verschiebung, liegt der Interzept ungefähr im Rahmen.
 \end{itemize}
 Somit hat der Data Scientist durch das systematische Vorgehen tatsächlich das zugrunde liegende Modell (bis auf Zufallsschwankungen) wiederentdeckt.
 Insbesondere wurden keine falschen Variablen im Endmodell behalten und keine echten Einflüsse übersehen. Die logistische Regressionsgleichung aus der Stichprobe stimmt inhaltlich
@@ -288,7 +288,7 @@ ein typisches Klassifikationsproblem: Das Modell erkennt normale Fahrten sehr zu
 \noindent
 \newline
-Diese Missklassifikation resultiert primär aus der begrenzten Stichprobengröße von 20.000 Beobachtungen bei einer unbalancierten Klassenverteilung (ca. 25\,\% Diebstähle).
+Diese Missklassifikation resultiert primär aus der begrenzten Stichprobengröße von 20.000 Beobachtungen bei einer unbalancierten Klassenverteilung (ca. 30\,\% Diebstähle).
 Das Modell neigt dadurch zur Klassifikation in Richtung der Mehrheitsklasse.
 \section{Güte der Modellparameter}