reutlingen-university/1_data_science/simulationsstudie/latex/yann_ahlgrim_ergebnisbericht.tex

\documentclass[12pt,a4paper]{article}
\usepackage[utf8]{inputenc}
\usepackage[T1]{fontenc}
\usepackage[ngerman]{babel}
\usepackage{graphicx}
\usepackage{amsmath}
\usepackage{booktabs}
\usepackage{caption}
\usepackage{hyperref}
\usepackage{float}
\usepackage[style=authoryear,backend=biber]{biblatex}
\addbibresource{references.bib}

\title{Simulationsstudie: Diebstahlerkennung eines Autos in~Echtzeit}
\author{Yann Ahlgrim\\Matrikelnummer: 818296}
\date{\today}

\begin{document}
\maketitle
\thispagestyle{empty}
\begin{center}
\vfill
\textbf{Statistical Learning SoSe 2025 -- Ergebnisbericht}
\vfill
\end{center}
\clearpage

\tableofcontents
\clearpage

\section{Fachthema: Diebstahlerkennung im Auto}
Moderne Fahrzeuge erfassen in Echtzeit vielfältige Daten zum Fahrverhalten. Diese Studie untersucht, inwiefern sich anhand dieser Daten mit einem statistischen Modell erkennen
lässt, ob statt des gewöhnlichen Fahrers eine andere Person am Steuer sitzt -- was auf einen \emph{Diebstahl} hindeuten würde. Konkret soll ein Modell die
Wahrscheinlichkeit $P(\text{Diebstahl})$ schätzen und bei Überschreiten eines Schwellwerts einen Alarm auslösen. Die Zielvariable (abhängige Variable) ist
dabei binär (0 = kein Diebstahl, 1 = Diebstahl). Ein Diebstahl wird angenommen, wenn das Fahrverhalten signifikant vom üblichen Fahrerprofil abweicht.

\noindent
\newline
Für das Fachthema wurden insgesamt 8 Einflussgrößen (potenziell erklärende Variablen) definiert, welche typische Aspekte des Fahrverhaltens und Umfelds
repräsentieren. Davon sind 4 Variablen als tatsächlich erklärungsrelevant für die Zielvariable angenommen, während die übrigen 4 Variablen keinen Einfluss auf einen
Fahrerwechsel (Diebstahl) haben. Zur Erfüllung der Aufgabenstellung sind unter den relevanten Prädiktoren zwei Variablen kategorial (ordinal) mit mindestens 3 Ausprägungen,
die übrigen relevanten Variablen sind metrisch. Im Folgenden werden alle Variablen beschrieben:

\begin{description}
  \item[\textbf{Durchschnittsgeschwindigkeit} (metrisch, \textit{erklärend})] Mittlere Fahrgeschwindigkeit (z.\,B.~über einen Tag). Unterschiedliche Fahrer weisen
  charakteristische Tempoprofile auf. Ein deutlich höheres Durchschnittstempo kann somit auf einen fremden, ggf.\ aggressiveren Fahrer hinweisen. Typische Werte liegen um
  etwa 47~km/h mit großer Streuung (\cite{nhtsa2006}).
  \item[\textbf{Schaltverhalten} (ordinal, \textit{erklärend})] Gewohnheiten beim Gangwechsel (bei Schaltgetriebe), insbesondere der Drehzahlbereich, bei dem hochgeschaltet wird.
  Es werden drei Ausprägungen unterschieden: \emph{früh} (sehr niedrige Drehzahlen, ökonomisch), \emph{normal} und \emph{spät} (hohe Drehzahlen, sportlich). Diese Variable ist
  relevant, da Fahrende ein individuelles Schaltmuster haben. Studien zeigen, dass das Schaltverhalten zur Fahreridentifikation genutzt werden kann (\cite{gearshift2023}).
  \item[\textbf{Harte Bremsmanöver} (metrisch, \textit{erklärend})] Anzahl starker Bremsungen (mit Verzögerung $>0{,}3g$) pro Strecke (\cite{tesla_safety_score_2023}).
  Dieses Maß korreliert mit einer aggressiven Fahrweise -- viele Vollbremsungen deuten auf einen ungewohnten bzw.\ risikoreicheren Fahrer hin. g ist eine Einheit der
  Beschleunigung (1g $\approx 9{,}81$~m/s²).
  \item[\textbf{Geschwindigkeitsüberschreitungen} (ordinal, \textit{erklärend})] Häufigkeit \newline bzw.\ Ausmaß von Tempoverstößen. Kategorisiert als \emph{selten},
  \emph{manchmal} oder \emph{häufig} zu schnell. Ein fremder Fahrer könnte andere Risikoneigungen beim Schnellfahren zeigen. Laut einer AAA-Verkehrssicherheitsstudie geben rund
  50\,\% der Fahrer an, in letzter Zeit auf Autobahnen mindestens 24~km/h über dem Limit gefahren zu sein (\cite{aaa2016}), was die allgemeine Relevanz dieser Variable
  für das Fahrverhalten unterstreicht.
  \item[\textbf{Wetterbedingungen} (nominal)] Wetter während der Fahrt: \emph{trocken}, \emph{nass} oder \emph{winterlich} (Glätte/Schnee). Diese Kontextvariable dient zur Kontrolle
  äußerer Bedingungen. Erwartungsgemäß hat das Wetter keinen direkten Einfluss auf einen Fahrerwechsel.
  \item[\textbf{Fahrstrecke} (metrisch)] Die zurückgelegte Distanz einer Fahrt (in km). Diese Variable (etwa lognormal verteilt um 16~km) repräsentiert typische Wege. Sie steht
  nicht in direktem Zusammenhang mit der Fahreridentität, sondern charakterisiert den Nutzungskontext (\cite{mobilitaet2017}).
  \item[\textbf{Straßentyp} (nominal)] Vorherrschender Streckentyp: \emph{Autobahn}, \emph{Außerorts} oder \emph{Innerorts}. Diese Variable bietet Kontext (Stadtverkehr vs.\
  Fernstraße), hat aber für sich genommen keinen Einfluss bezüglich eines Fahrerwechsels (\cite{openumwelt2024})
  \item[\textbf{Wochentag} (nominal)] Tag der Woche bzw.\ Kategorie \emph{Werktag} vs \emph{Wochenende} (\cite{mobilitaet2017}). Auch dies ist eine Kontextgröße ohne direkten
  Einfluss auf die Diebstahlwahrscheinlichkeit (daher ebenfalls nicht erklärend).
\end{description}

\noindent
Zusammenfassend stellen \emph{Durchschnittsgeschwindigkeit}, \emph{Schaltverhalten}, \emph{Harte Bremsmanöver} und \emph{Geschwindigkeitsüberschreitungen} die fachlich ausgewählten
Schlüsselvariablen dar, die einen Fahrerwechsel anzeigen können. Die übrigen vier Größen (Wetter, Fahrstrecke, Straßentyp, Wochentag) dienen als Kontrolle und potentielle Störgrößen,
besitzen aber per Annahme keinen Erklärungsgehalt für die Zielvariable.

\section{Erzeugung der Grundgesamtheit}
Für die Simulation wurde eine Grundgesamtheit von $N = 1.000.000$ Fahrten generiert. Jede Fahrt hat einen binären Indikator (Zielvariable \emph{Diebstahl ja/nein}) und 8
zugehörige Merkmalswerte (die oben definierten Variablen). Die Werte wurden mittels geeigneter Zufallsverteilungen erzeugt, basierend auf realistischen Annahmen und empirischen
Daten, jedoch so, dass die Abhängigkeitsstruktur kontrolliert vorgegeben ist. Die Zielvariable hängt funktional von genau 4 der 8 Variablen ab (den erklärenden), während die
restlichen 4 keinen Einfluss auf den Diebstahl haben. Zudem wurden zwei inhaltlich sinnvolle Korrelationen zwischen ausgewählten Variablen eingeführt, ohne jedoch Multikollinearität
zu verursachen (alle Varianzinflationsfaktoren $\text{VIF} < 5$).

\subsection*{Verteilungen der Variablen}
\begin{itemize}
  \item \textbf{Durchschnittsgeschwindigkeit:} Normalverteilung mit $\mu \approx 47$~km/h und $\sigma \approx 10$~km/h, begrenzt auf plausible Werte $[10,130]$~km/h (keine negativen
  oder extrem hohen Geschwindigkeiten).
  \item \textbf{Schaltverhalten:} Kategorisch (ordinal) mit drei Stufen \emph{früh}, \emph{normal}, \emph{spät}. Es wurden 40\,\% für \emph{früh}, 40\,\% \emph{normal} und
  20\,\% \emph{spät} simuliert, d.\,h. die meisten Fahrer schalten gewöhnlich früh oder durchschnittlich, während nur etwa jeder fünfte spät schaltet.
  \item \textbf{Harte Bremsmanöver:} Poisson-verteilte Zufallsvariable mit $\lambda = 2$ pro definierter Strecke (z.\,B.~pro 100\,km). Diese Verteilung ergibt meist wenige
  bis keine harten Bremsungen pro Fahrt, aber mit einer gewissen Wahrscheinlichkeit auch Ausreißer mit mehreren Bremsmanövern (rechtsschiefe Verteilung).
  \item \textbf{Geschwindigkeitsüberschreitungen:} Ordinal mit drei Stufen (\emph{selten}, \emph{manchmal}, \emph{häufig}). Diese Variable wurde \emph{nicht unabhängig} gezogen,
  sondern abhängig von der Durchschnittsgeschwindigkeit generiert: Fahrer mit höherer \texttt{avg\_speed} erhielten mit größerer Wahrscheinlichkeit die Kategorie \emph{häufig} zu
  schnell, während sehr langsame Fahrer überwiegend als \emph{selten} zu schnell eingeordnet wurden. Die Umsetzung erfolgte über eine gewichtete Zufallsauswahl (Softmax-Funktion auf
  Basis von \texttt{avg\_speed}). Dadurch besteht eine inhaltlich sinnvolle Korrelation zwischen \texttt{avg\_speed} und \texttt{speeding}, die jedoch moderat genug ist
  (VIF $\approx 2.57$ für \texttt{avg\_speed}, $< 2$ für \texttt{speeding}-Dummies), um Multikollinearität nicht zum Problem werden zu lassen.
  \item \textbf{Wetterbedingungen:} Für jedes Fahrt wurde das Wetter zufällig gemäß empirischer Häufigkeiten zugeordnet: ca.~75\,\% \emph{trocken}, 20\,\% \emph{nass} (Regen)
  und 5\,\% \emph{winterlich} (Schnee/Eis). Diese Werte sind basierend auf Annahmen zu typischen Fahrbedingungen in Deutschland gewählt.
  \item \textbf{Fahrstrecke:} Lognormalverteilung mit $\mu_{\log} = \ln(16)$ und $\sigma_{\log} = 0{,}7$, um die Verteilung typischer Fahrtlängen abzubilden.
  Diese Parameter führen zu einer rechtsschiefen Verteilung: Viele kürzere Fahrten um einige wenige Kilometer, und seltener auch sehr lange Fahrten ($>50$~km).
  (Die Annahmen basieren auf Studien zur täglichen Weglänge \cite{mobilitaet2017}.)
  \item \textbf{Straßentyp:} Diese Variable wurde abhängig von der Fahrstrecke generiert. Intuitiv werden sehr lange Fahrten eher auf Autobahnen stattfinden,
  während kurze Fahrten überproportional innerorts sind. Um dies zu modellieren, wurde ein stochastischer Zusammenhang erzeugt: Zunächst wurde \texttt{trip\_distance}
  auf $[0,1]$ skaliert; dann wurde mittels einer Softmax-Wahrscheinlichkeitsfunktion daraus der Straßentyp gezogen, sodass z.\,B.\ bei sehr großen Distanzen die Wahrscheinlichkeit
  für \emph{Autobahn} deutlich höher ist als für \emph{Innerorts}. Dadurch ergibt sich eine leichte Korrelation zwischen \texttt{trip\_distance} und \texttt{road\_type}
  ($VIF \approx 1.68$ für \texttt{trip\_distance}).
  \item \textbf{Wochentag:} Festgelegte Verteilung von ca.~70\,\% \emph{Werktag} (Mo-Fr) und je 15\,\% \emph{Samstag} und \emph{Sonntag}. Damit wird berücksichtigt,
  dass die meisten Fahrten werktags stattfinden (\cite{mobilitaet2017}). Diese Variable wurde unabhängig von den übrigen generiert.
\end{itemize}
Durch diese Vorgehensweise bilden die generierten Daten nahezu realistische Verteilungen und Beziehungen der Variablen ab, wobei genau zwei inhaltlich plausible Korrelationen eingebaut
wurden. Beide Abhängigkeiten sind so kalibriert, dass im optimalen Regressionsmodell keine Multikollinearität auftritt ($\text{VIF} < 5$ in allen Fällen).

\subsection*{Modellierung der Zielvariable und der $p_i$-Werte}
Die Zielvariable \emph{Diebstahl} wurde als Zufallsvariable auf Basis eines logistischen Regressionsmodells generiert. Dazu wurde zunächst für jede Fahrt $i$ die
Diebstahl-Wahrscheinlichkeit $p_i = P(Y_i=1)$ berechnet als
\[
p_i = \frac{1}{1 + \exp(- ( \beta_0 + \beta_1 x_{1i} + \cdots + \beta_8 x_{8i} + \varepsilon_i ) )}~,
\]
wobei $x_{1},\dots,x_{8}$ die Merkmalswerte (erklärende Variablen) der Fahrt sind, $\beta_0,\dots,\beta_8$ die zugrunde liegenden Regressionskoeffizienten und $\varepsilon_i$ ein
zufälliger Fehlerterm. Für den vorliegenden Klassifikationsfall entspricht $\varepsilon_i$ einem impliziten Rauschen. In der Simulation wurde
$\varepsilon_i \sim \mathcal{N}(0, 0.2^2)$ addiert.
Anschließend wurde $Y_i$ durch einen Bernoulli-Zufall mit Parameter $p_i$ realisiert (d.\,h. \texttt{Diebstahl}~=~1 mit Wahrscheinlichkeit $p_i$).

\noindent
\newline
Die gewählten Koeffizienten ($\beta$-Werte) für das Generierungsmodell sind in Tabelle~\ref{tab:true_betas} aufgeführt. Diese wurden so festgelegt, dass sie plausible
Einflussstärken der erklärenden Variablen widerspiegeln, ohne die Zielvariable extrem zu dominieren. Insbesondere wurde ein niedriger Basiswert
(\emph{Intercept} $\beta_0=-18$) gewählt, sodass bei unauffälligen Merkmalen die Diebstahl-Wahrscheinlichkeit sehr gering ist. Die erklärenden Variablen erhöhen bzw.\
verringern diese Grundwahrscheinlichkeit wie folgt:
\begin{itemize}
 \item \textbf{Durchschnittsgeschwindigkeit:} $\beta_{avg\_speed} = 0{,}3$. Ein positiver Koeffizient - eine ungewöhnlich hohe Durchschnittsgeschwindigkeit erhöht
 die Diebstahl-Wahrscheinlichkeit, da sie auf einen anderen (rasanteren) Fahrstil hindeuten kann.
 \item \textbf{Harte Bremsmanöver:} $\beta_{hard\_brakes} = 0{,}6$. Häufige Vollbremsungen haben einen deutlichen positiven Effekt auf $P(\text{Diebstahl})$, da sie ein Indiz für
 einen risikoreicheren Fahrstil sind.
 \item \textbf{Schaltverhalten:} Das Schaltverhalten ist ein wichtiger Prädiktor für den Fahrer. Für die kategorialen Ausprägungen wurden folgende Koeffizienten gewählt:
 $\beta_{\text{früh}} = -0{,}8$, $\beta_{\text{normal}} = -0{,}8$ und $\beta_{\text{spät}} = +1{,}5$. Besonders \emph{spät} schalten wird mit einem hohen positiven Beta gewichtet,
 da es einen aggressiveren Fahrstil beschreibt. \emph{Früh} und \emph{normal} schalten erhalten einen negativen Einfluss, da sie auf einen defensiveren oder gewohnten Fahrstil
 hindeuten.
 \item \textbf{Geschwindigkeitsüberschreitungen:} Die Häufigkeit von Geschwindigkeitsüberschreitungen ist ein wichtiger Indikator für den Fahrstil. Die Koeffizienten wurden
 festgelegt als: $\beta_{\text{selten}} = -0{,}8$, $\beta_{\text{manchmal}} = -0{,}8$ und $\beta_{\text{häufig}} = +1{,}5$. Besonders \emph{häufig} zu schnell fahren ist ein
 starkes Signal für einen Fahrerwechsel, da dies ein sehr auffälliges Verhalten darstellt. \emph{Selten} und \emph{manchmal} werden negativ gewichtet, da sie auf einen defensiveren
 Fahrstil hindeuten.
 \item \textbf{Kontextvariablen (Wetter, Strecke, Straßentyp, Wochentag):} Diese wurden \emph{alle mit $\beta=0$} angesetzt, d.\,h.\ sie haben per Konstruktion keinen Einfluss auf
 die Diebstahl-Wahrscheinlichkeit.
\end{itemize}

\begin{table}[H]
\centering
\caption{Wahre $\beta$-Werte des Regressionsmodells}
\label{tab:true_betas}
\begin{tabular}{lr}
\toprule
\textbf{Variable} & \textbf{Beta-Wert}\\
\midrule
Intercept & $-18{,}0$ \\
Durchschnittsgeschwindigkeit & $+0{,}3$ \\
Harte Bremsmanöver & $+0{,}6$ \\
Fahrstrecke & $0{,}0$ \\
Schaltverhalten (früh) & $-0{,}8$ \\
Schaltverhalten (normal) & $-0{,}8$ \\
Schaltverhalten (spät) & $+1{,}5$ \\
Geschwindigkeitsüberschreitung (häufig) & $+1{,}5$ \\
Geschwindigkeitsüberschreitung (manchmal) & $-0{,}8$ \\
Geschwindigkeitsüberschreitung (selten) & $-0{,}8$ \\
Wetter (alle Kategorien) & $0{,}00$ \\
Straßentyp (alle Kategorien) & $0{,}00$ \\
Wochentag (alle Kategorien) & $0{,}00$ \\
\bottomrule
\end{tabular}
\end{table}

\noindent
Durch die gewählten $\beta$-Gewichte resultiert eine Verteilung der Zielvariable, bei der Diebstahl relativ selten vorkommt, aber nicht vernachlässigbar: Im generierten
Datensatz sind etwa 21{,}8\,\% der Fahrten als Diebstahl deklariert worden (d.\,h. $Y=1$ in 218290 von 1.000.000 Fällen), was in Abb.~\ref{fig:target_dist} dargestellt ist.
Diebstähle sollen deutlich seltener als normale Fahrten sein,
jedoch häufig genug, um ein Modell daran zu trainieren.
\newline
\newline
Die zugrunde liegenden individuellen Diebstahl-Wahrscheinlichkeiten $p_i$ waren überwiegend niedrig: Im Mittel ergaben sich $\bar{p} \approx 0{,}2179$ mit einer
Standardabweichung von $0{,}3093$ und eine rechtsschiefe Verteilung
der $p_i$ über alle Fahrten (siehe Abb.~\ref{fig:fig_pi_dist}).

\begin{figure}[H]
\centering
\includegraphics[width=0.8\textwidth]{fig_target_variable_dist.png}
\caption{Verteilung der Zielvariable in der Grundgesamtheit}
\label{fig:target_dist}
\end{figure}

\begin{figure}[H]
\centering
\includegraphics[width=0.8\textwidth]{fig_pi_dist.png}
\caption{Verteilung der Diebstahl-Wahrscheinlichkeiten $p_i$}
\label{fig:fig_pi_dist}
\end{figure}

\section{Simulation der Perspektive des Data Scientist}
Es wurde aus den 1.000.000 generierten Fällen eine Zufallsstichprobe von $n = 20.000$ Fahrten gezogen. Der Data Scientist würde
zunächst eine explorative Datenanalyse und Vorverarbeitung durchführen, dann ein geeignetes Regressionsmodell (logistische Regression im Klassifikationsfall) schätzen und mittels
Variablenselektion optimieren. Abschließend würde er die Modellgüte bewerten.

\subsection*{Datenexploration und Aufbereitung}
Zunächst wurde die Stichprobe auf Vollständigkeit und Ausreißer geprüft. Es traten keine fehlenden Werte auf (da simuliert). Ein \emph{Abgleich der Verteilungen} bestätigte,
dass die Stichprobe die Grundgesamtheits-Charakteristika widerspiegelt. Beispielsweise sind die Verteilungen der metrischen Variablen in Abb.~\ref{fig:dist_vars} dargestellt
(Histogramme und Boxplots): Man erkennt die angenommene Normalverteilung der \texttt{avg\_speed} (mit Mittelwert ca.~47~km/h), die rechtschiefe Poisson-Verteilung von
\texttt{hard\_brakes} (häufig 1 oder 2 harte Bremsung, selten mehr) und die ausgeprägte Schiefe der lognormal verteilten \texttt{trip\_distance} (viele kurze Fahrten, wenige sehr
lange). Die Boxplots zeigen, dass es bei \texttt{trip\_distance} einige Ausreißer (sehr lange Fahrten) gibt, während \texttt{avg\_speed} symmetrisch verteilt ist.
\begin{figure}[H]
\centering
\includegraphics[width=\textwidth]{fig_variable_distributions.png}
\caption{Verteilungen der metrischen Variablen}
\label{fig:dist_vars}
\end{figure}

\noindent
\newline
Für die kategorialen Merkmale (Schaltverhalten, Geschwindigkeitsüberschreitungen, Wetter, Straßentyp, Wochentag) wurden Balkendiagramme betrachtet
(siehe Abb.~\ref{fig:fig_barplots_cats}).
Auch diese entsprachen den Simulationseinstellungen. Zur Vorbereitung der Regression wurde ein One-Hot-Encoding der kategorialen Variablen durchgeführt und eine Konstante für den
Interzept ergänzt.

\begin{figure}[H]
\centering
\includegraphics[width=\textwidth]{fig_barplots_cats.png}
\caption{Balkendiagramme der kategorialen Variablen}
\label{fig:fig_barplots_cats}
\end{figure}

\noindent
\newline
Daraufhin wurde die lineare Korrelation zwischen den Variablen untersucht. Die Korrelationen der Variablen sind in Abb.~\ref{fig:fig_corr_matrix} dargestellt.
Die Korrelationen sind erwartungsgemäß gering, da die Variablen weitgehend unabhängig sind. Lediglich die Dummykodierten Variablen weisen untereinander moderate Korrelationen auf,
weil sie sich gegenseitig ausschließen (z.\,B. eine 0 für \emph{früh} impliziert eine 1 für \emph{normal} oder \emph{spät}).

\begin{figure}[H]
\centering
\includegraphics[width=0.8\textwidth]{fig_corr_matrix.png}
\caption{Korrelationsmatrix der Variablen}
\label{fig:fig_corr_matrix}
\end{figure}


\subsection*{Logistische Regression und Variablenselektion}
Ohne Kenntnis des wahren generativen Modells würde der Data Scientist zunächst alle verfügbaren Variablen als Prädiktoren in ein Modell einbeziehen. Daher wurde auf den
Trainingsdaten eine logistische Regressionsanalyse mit allen 8 ursprünglichen Merkmalen
durchgeführt. Um ein optimales Modell zu finden wurde ein schrittweises Selektionsverfahren
(Backward Selection) angewandt: beginnend mit dem vollen Modell wurden die am wenigsten signifikanten Variablen sukzessive
entfernt, bis nur noch prädiktive (p-Wert $<0,05$) Variablen verblieben.

\noindent
\newline
Das Ergebnis der Variablenselektion war, dass genau die 4 fachlich erwarteten Einflüsse im Modell verblieben, während die irrelevanten Merkmale entfernt wurden. Es
blieben \texttt{avg\_speed}, \texttt{hard\_brakes}, \texttt{shift\_behavior} (mit zwei Dummy-Variablen) und \texttt{speeding} (ebenfalls zwei Dummies) im finalen Modell.
Ausgeschlossen wurden dagegen \texttt{weather}, \texttt{trip\_distance}, \texttt{road\_type} und \texttt{weekday}, da deren Effekt auf die Zielvariable statistisch insignifikant
war. Dieses Resultat deckt sich mit der Konstruktion der Daten: Die irrelevanten Kontextvariablen bieten keine Erklärungskraft und wurden richtigerweise
von der Backwards Selection eliminiert.

\noindent
\newline
Die geschätzten Regressionskoeffizienten des finalen Modells
(im Folgenden $\hat{\beta}$) stimmten weitgehend mit den wahren Werten aus dem Generierungsmodell überein. Tabelle~\ref{tab:beta_comparison} zeigt einen detaillierten
Vergleich der geschätzten und wahren Koeffizienten:

\begin{table}[H]
\centering
\caption{Vergleich der geschätzten und wahren Koeffizienten}
\label{tab:beta_comparison}
\begin{tabular}{lrr}
\toprule
\textbf{Variable} & \textbf{Geschätzt} & \textbf{Wahr}\\
\midrule
Intercept & $-14{,}414$ & $-18{,}0$ \\
Durchschnittsgeschwindigkeit & $+0{,}288$ & $+0{,}3$ \\
Harte Bremsmanöver & $+0{,}584$ & $+0{,}6$ \\
Schaltverhalten (früh) & $-2{,}263$ & $-0{,}8$ \\
Schaltverhalten (normal) & $-2{,}281$ & $-0{,}8$ \\
Geschwindigkeitsüberschreitung (manchmal) & $-2{,}235$ & $-0{,}8$ \\
Geschwindigkeitsüberschreitung (selten) & $-2{,}136$ & $-0{,}8$ \\
\bottomrule
\end{tabular}
\end{table}

\noindent
Ein Vergleich der Koeffizienten zeigt erwartungsgemäß gewisse Abweichungen aufgrund
von Stichprobenfluktuation und der unterschiedlichen Dummy-Kodierung:
\begin{itemize}
  \item Für \texttt{avg\_speed} ergab sich $\hat{\beta}_{avg\_speed} = 0{,}288$ (gegenüber wahr $0{,}3$). Die Schätzung liegt sehr nah am wahren Wert und zeigt die richtige
  Richtung des Effekts.
  \item Für \texttt{hard\_brakes} wurde $\hat{\beta}_{hard\_brakes} = 0{,}584$ geschätzt (wahr $0{,}6$). Auch hier ist der Unterschied gering; das Vorzeichen und die
  Effektstärke wurden korrekt erkannt.
  \item Schaltverhalten und Geschwindigkeitsüberschreitung weichen von den ursprünglichen Werten ab. Beachtet man aber, dass Schaltverhalten (spät) und Geschwindigkeitsüberschreitung
  (häufig) in der Backward Selection verworfen wurden ist dies nicht überraschend: Schaltverhalten (spät) und Geschwindigkeitsüberschreitung (häufig) haben im erstellten Modell
  einen Koeffizienten von jeweils $-1{,}5$. $-1{,}5$ + $-0{,}8$ (für die anderen Kategorien) ergibt $-2{,}3$. Demnach ist die Schätzung für \texttt{shift\_behavior} und
  \texttt{speeding} nahezu identisch mit dem wahren Wert.
\end{itemize}
Somit hat der Data Scientist durch das systematische Vorgehen tatsächlich das zugrunde liegende Modell (bis auf Zufallsschwankungen) wiederentdeckt.
Insbesondere wurden keine falschen Variablen im Endmodell behalten und keine echten Einflüsse übersehen. Die logistische Regressionsgleichung aus der Stichprobe stimmt inhaltlich
mit der zur Datengenerierung überein.

\subsection*{Evaluierung auf den Testdaten}
Das finale Modell wurde auf den zurückgehaltenen Testdaten (80:20 Split) evaluiert, um die Generalisierungsfähigkeit zu bewerten. Abbildung~\ref{fig:roc_conf} zeigt die ROC-Kurve
und die Confusion Matrix der Modellvorhersagen.

\begin{figure}[H]
\centering
\includegraphics[width=\textwidth]{fig_roc_conf.png}
\caption{ROC-Kurve und Confusion Matrix der Modellevaluation auf Testdaten}
\label{fig:roc_conf}
\end{figure}

\noindent
Die ROC-Kurve zeigt mit einem AUC-Wert von 0{,}94 eine sehr gute Diskriminierungsfähigkeit des Modells. Dieser hohe AUC-Wert deutet darauf hin, dass das Modell sehr gut zwischen
Diebstahl und normalen Fahrten unterscheiden kann. Die Confusion Matrix offenbart dennoch
ein typisches Klassifikationsproblem: Das Modell erkennt normale Fahrten sehr zuverlässig, hat aber Schwierigkeiten bei der Diebstahlerkennung.

\noindent
\newline
Diese Missklassifikation resultiert primär aus der begrenzten Stichprobengröße von 20.000 Beobachtungen bei einer unbalancierten Klassenverteilung (ca. 21{,}8\,\% Diebstähle).
Das Modell neigt dadurch zur Klassifikation in Richtung der Mehrheitsklasse.

\section{Güte der Modellparameter}
In einem letzten Schritt wurde untersucht, wie verlässlich die Modellschätzung bei unterschiedlicher Datenmenge ist. Insbesondere stellt sich die Frage, welchen Einfluss der
Stichprobenumfang $n$ auf die Präzision der geschätzten Regressionskoeffizienten hat. Hierzu wurde ein Monte-Carlo-Simulationsansatz gewählt: Aus der Grundgesamtheit wurden für
verschiedene Umfangswerte $n$ jeweils $k = 1000$ Zufallsstichproben gezogen, darauf jeweils das optimale Modell aus Abschnitt~3 (mit den 4 relevanten Variablen) erneut trainiert,
und die Verteilungen der resultierenden $\hat{\beta}$-Koeffizienten analysiert.

\noindent
\newline
Untersucht wurde exemplarisch der Koeffizient $\beta_{avg\_speed}$, der Effekt der Durchschnittsgeschwindigkeit. Die Ergebnisse sind in Abbildung~\ref{fig:beta_dist} dargestellt,
welche die Verteilungen von $\hat{\beta}_{avg\_speed}$ für drei verschiedene Stichprobenumfänge gegenüberstellt. Man erkennt deutlich, dass
mit wachsendem $n$ die Verteilung der Koeffizientenschätzungen immer schmaler wird und sich enger um den wahren Wert konzentriert. Für kleine Stichproben ($n=1000$)
schwanken die geschätzten $\beta$ noch sehr stark -- die Verteilung ist breit und umfasst Werte von nahe -0,01 bis etwa 0,04. Bei mittlerer Stichprobe ($n=11000$) ist die Streuung
bereits deutlich geringer. Im Fall $n=46000$ liegen nahezu alle Schätzungen dicht bei $\beta\approx0{,}3$. Diese Beobachtung entspricht der
erwarteten Verbesserung der Schätzgenauigkeit: Je mehr Daten zur Verfügung stehen, desto weniger zufällig streuen die geschätzten Parameter um den wahren Wert.

\begin{figure}[H]
\centering
\includegraphics[width=0.8\textwidth]{fig_beta_distribution.png}
\caption{Verteilungen des geschätzten Koeffizienten $\hat{\beta}_{avg\_speed}$ aus 1000 Simulationen für drei Stichprobenumfänge ($n=1000$, $n=11000$, $n=46000$)}
\label{fig:beta_dist}
\end{figure}

\noindent
\newline
Zur Quantifizierung wurde für jede Stichprobengröße $n$ die empirische Standardabweichung der $\hat{\beta}_{avg\_speed}$-Schätzungen aus den 1000 Wiederholungen bestimmt.
Abbildung~\ref{fig:std_n} zeigt die Entwicklung dieser Streuung in Abhängigkeit von $n$. Deutlich ist ein abnehmender Verlauf erkennbar. Die Kurve folgt näherungsweise der
theoretischen Proportionalität $\sigma(\hat{\beta}) \sim \frac{1}{\sqrt{n}}$ (rot eingezeichnet). Die in der Simulation gemessenen Werte (blaue Punkte) liegen dicht auf der
$1/\sqrt{n}$-Linie, was die theoretische Erwartung bestätigt.

\begin{figure}[H]
\centering
\includegraphics[width=0.8\textwidth]{fig_std_vs_n.png}
\caption{Standardabweichung von $\hat{\beta}_{avg\_speed}$ in Abhängigkeit des Stichprobenumfangs $n$}
\label{fig:std_n}
\end{figure}

\noindent
\newline
Diese Ergebnisse illustrieren den wichtigen Zusammenhang zwischen Datenmenge und Lernqualität des Modells. Bereits zwischen $n=1000$ und $n=10000$ verbessert sich die
Präzision der Koeffizientenschätzung erheblich. Noch größere Datenmengen führen zu weiter sinkender Unsicherheit, allerdings mit abnehmendem Grenznutzen (die Kurve flacht ab).
\newline
\newline
Insgesamt zeigt die Simulation, dass zur zuverlässigen Identifikation von Effekten (wie $\beta_{avg\_speed}\approx0{,}3$) eine ausreichend große Stichprobe notwendig ist.
Mit $n \to 50.000$ nähert sich die Streuung einem Wert an. Für das vorliegende
Problem bedeutet dies: Je mehr Fahrten der Data Scientist zur Verfügung hat, desto genauer kann er die wahren Fahrerwechsel-Einflüsse schätzen und desto vertrauenswürdiger sind die
vom Modell ausgegebenen Diebstahlwahrscheinlichkeiten.

\clearpage
\printbibliography[title=Literaturverzeichnis]

\end{document}