\documentclass[12pt,a4paper]{article} \usepackage[utf8]{inputenc} \usepackage[T1]{fontenc} \usepackage[ngerman]{babel} \usepackage{graphicx} \usepackage{amsmath} \usepackage{booktabs} \usepackage{caption} \usepackage{hyperref} \usepackage{float} \usepackage[style=authoryear,backend=biber]{biblatex} \addbibresource{references.bib} \title{Simulationsstudie: Diebstahlerkennung eines Autos in~Echtzeit} \author{Yann Ahlgrim\\Matrikelnummer: 818296} \date{\today} \begin{document} \maketitle \thispagestyle{empty} \begin{center} \vfill \textbf{Statistical Learning SoSe 2025 -- Ergebnisbericht} \vfill \end{center} \clearpage \tableofcontents \clearpage \section{Fachthema: Diebstahlerkennung im Auto} Moderne Fahrzeuge erfassen in Echtzeit vielfältige Daten zum Fahrverhalten. Diese Studie untersucht, inwiefern sich anhand dieser Daten mit einem statistischen Modell erkennen lässt, ob statt des gewöhnlichen Fahrers eine andere Person am Steuer sitzt -- was auf einen \emph{Diebstahl} hindeuten würde. Konkret soll ein Modell die Wahrscheinlichkeit $P(\text{Diebstahl})$ schätzen und bei Überschreiten eines Schwellwerts einen Alarm auslösen. Die Zielvariable (abhängige Variable) ist dabei binär (0 = kein Diebstahl, 1 = Diebstahl). Ein Diebstahl wird angenommen, wenn das Fahrverhalten signifikant vom üblichen Fahrerprofil abweicht. \noindent \newline Für das Fachthema wurden insgesamt 8 Einflussgrößen (potenziell erklärende Variablen) definiert, welche typische Aspekte des Fahrverhaltens und Umfelds repräsentieren. Davon sind 4 Variablen als tatsächlich erklärungsrelevant für die Zielvariable angenommen, während die übrigen 4 Variablen keinen Einfluss auf einen Fahrerwechsel (Diebstahl) haben. Zur Erfüllung der Aufgabenstellung sind unter den relevanten Prädiktoren zwei Variablen kategorial (ordinal) mit mindestens 3 Ausprägungen, die übrigen relevanten Variablen sind metrisch. Im Folgenden werden alle Variablen beschrieben: \begin{description} \item[\textbf{Durchschnittsgeschwindigkeit} (metrisch, \textit{erklärend})] Mittlere Fahrgeschwindigkeit (z.\,B.~über einen Tag). Unterschiedliche Fahrer weisen charakteristische Tempoprofile auf. Ein deutlich höheres Durchschnittstempo kann somit auf einen fremden, ggf.\ aggressiveren Fahrer hinweisen. Typische Werte liegen um etwa 47~km/h mit großer Streuung (\cite{nhtsa2006}). \item[\textbf{Schaltverhalten} (ordinal, \textit{erklärend})] Gewohnheiten beim Gangwechsel (bei Schaltgetriebe), insbesondere der Drehzahlbereich, bei dem hochgeschaltet wird. Es werden drei Ausprägungen unterschieden: \emph{früh} (sehr niedrige Drehzahlen, ökonomisch), \emph{normal} und \emph{spät} (hohe Drehzahlen, sportlich). Diese Variable ist relevant, da Fahrende ein individuelles Schaltmuster haben. Studien zeigen, dass das Schaltverhalten zur Fahreridentifikation genutzt werden kann (\cite{gearshift2023}). \item[\textbf{Harte Bremsmanöver} (metrisch, \textit{erklärend})] Anzahl starker Bremsungen (mit Verzögerung $>0{,}3g$) pro Strecke (\cite{tesla_safety_score_2023}). Dieses Maß korreliert mit einer aggressiven Fahrweise -- viele Vollbremsungen deuten auf einen ungewohnten bzw.\ risikoreicheren Fahrer hin. g ist eine Einheit der Beschleunigung (1g $\approx 9{,}81$~m/s²). \item[\textbf{Geschwindigkeitsüberschreitungen} (ordinal, \textit{erklärend})] Häufigkeit \newline bzw.\ Ausmaß von Tempoverstößen. Kategorisiert als \emph{selten}, \emph{manchmal} oder \emph{häufig} zu schnell. Ein fremder Fahrer könnte andere Risikoneigungen beim Schnellfahren zeigen. Laut einer AAA-Verkehrssicherheitsstudie geben rund 50\,\% der Fahrer an, in letzter Zeit auf Autobahnen mindestens 24~km/h über dem Limit gefahren zu sein (\cite{aaa2016}), was die allgemeine Relevanz dieser Variable für das Fahrverhalten unterstreicht. \item[\textbf{Wetterbedingungen} (nominal)] Wetter während der Fahrt: \emph{trocken}, \emph{nass} oder \emph{winterlich} (Glätte/Schnee). Diese Kontextvariable dient zur Kontrolle äußerer Bedingungen. Erwartungsgemäß hat das Wetter keinen direkten Einfluss auf einen Fahrerwechsel. \item[\textbf{Fahrstrecke} (metrisch)] Die zurückgelegte Distanz einer Fahrt (in km). Diese Variable (etwa lognormal verteilt um 16~km) repräsentiert typische Wege. Sie steht nicht in direktem Zusammenhang mit der Fahreridentität, sondern charakterisiert den Nutzungskontext (\cite{mobilitaet2017}). \item[\textbf{Straßentyp} (nominal)] Vorherrschender Streckentyp: \emph{Autobahn}, \emph{Außerorts} oder \emph{Innerorts}. Diese Variable bietet Kontext (Stadtverkehr vs.\ Fernstraße), hat aber für sich genommen keinen Einfluss bezüglich eines Fahrerwechsels (\cite{openumwelt2024}) \item[\textbf{Wochentag} (nominal)] Tag der Woche bzw.\ Kategorie \emph{Werktag} vs \emph{Wochenende} (\cite{mobilitaet2017}). Auch dies ist eine Kontextgröße ohne direkten Einfluss auf die Diebstahlwahrscheinlichkeit (daher ebenfalls nicht erklärend). \end{description} \noindent Zusammenfassend stellen \emph{Durchschnittsgeschwindigkeit}, \emph{Schaltverhalten}, \emph{Harte Bremsmanöver} und \emph{Geschwindigkeitsüberschreitungen} die fachlich ausgewählten Schlüsselvariablen dar, die einen Fahrerwechsel anzeigen können. Die übrigen vier Größen (Wetter, Fahrstrecke, Straßentyp, Wochentag) dienen als Kontrolle und potentielle Störgrößen, besitzen aber per Annahme keinen Erklärungsgehalt für die Zielvariable. \section{Erzeugung der Grundgesamtheit} Für die Simulation wurde eine Grundgesamtheit von $N = 1.000.000$ Fahrten generiert. Jede Fahrt hat einen binären Indikator (Zielvariable \emph{Diebstahl ja/nein}) und 8 zugehörige Merkmalswerte (die oben definierten Variablen). Die Werte wurden mittels geeigneter Zufallsverteilungen erzeugt, basierend auf realistischen Annahmen und empirischen Daten, jedoch so, dass die Abhängigkeitsstruktur kontrolliert vorgegeben ist. Die Zielvariable hängt funktional von genau 4 der 8 Variablen ab (den erklärenden), während die restlichen 4 keinen Einfluss auf den Diebstahl haben. Zudem wurden zwei inhaltlich sinnvolle Korrelationen zwischen ausgewählten Variablen eingeführt, ohne jedoch Multikollinearität zu verursachen (alle Varianzinflationsfaktoren $\text{VIF} < 5$). \subsection*{Verteilungen der Variablen} \begin{itemize} \item \textbf{Durchschnittsgeschwindigkeit:} Normalverteilung mit $\mu \approx 47$~km/h und $\sigma \approx 10$~km/h, begrenzt auf plausible Werte $[10,130]$~km/h (keine negativen oder extrem hohen Geschwindigkeiten). \item \textbf{Schaltverhalten:} Kategorisch (ordinal) mit drei Stufen \emph{früh}, \emph{normal}, \emph{spät}. Es wurden 40\,\% für \emph{früh}, 40\,\% \emph{normal} und 20\,\% \emph{spät} simuliert, d.\,h. die meisten Fahrer schalten gewöhnlich früh oder durchschnittlich, während nur etwa jeder fünfte spät schaltet. \item \textbf{Harte Bremsmanöver:} Poisson-verteilte Zufallsvariable mit $\lambda = 2$ pro definierter Strecke (z.\,B.~pro 100\,km). Diese Verteilung ergibt meist wenige bis keine harten Bremsungen pro Fahrt, aber mit einer gewissen Wahrscheinlichkeit auch Ausreißer mit mehreren Bremsmanövern (rechtsschiefe Verteilung). \item \textbf{Geschwindigkeitsüberschreitungen:} Ordinal mit drei Stufen (\emph{selten}, \emph{manchmal}, \emph{häufig}). Diese Variable wurde \emph{nicht unabhängig} gezogen, sondern abhängig von der Durchschnittsgeschwindigkeit generiert: Fahrer mit höherer \texttt{avg\_speed} erhielten mit größerer Wahrscheinlichkeit die Kategorie \emph{häufig} zu schnell, während sehr langsame Fahrer überwiegend als \emph{selten} zu schnell eingeordnet wurden. Die Umsetzung erfolgte über eine gewichtete Zufallsauswahl (Softmax-Funktion auf Basis von \texttt{avg\_speed}). Dadurch besteht eine inhaltlich sinnvolle Korrelation zwischen \texttt{avg\_speed} und \texttt{speeding}, die jedoch moderat genug ist (VIF $\approx 2.57$ für \texttt{avg\_speed}, $< 2$ für \texttt{speeding}-Dummies), um Multikollinearität nicht zum Problem werden zu lassen. \item \textbf{Wetterbedingungen:} Für jedes Fahrt wurde das Wetter zufällig gemäß empirischer Häufigkeiten zugeordnet: ca.~75\,\% \emph{trocken}, 20\,\% \emph{nass} (Regen) und 5\,\% \emph{winterlich} (Schnee/Eis). Diese Werte sind basierend auf Annahmen zu typischen Fahrbedingungen in Deutschland gewählt. \item \textbf{Fahrstrecke:} Lognormalverteilung mit $\mu_{\log} = \ln(16)$ und $\sigma_{\log} = 0{,}7$, um die Verteilung typischer Fahrtlängen abzubilden. Diese Parameter führen zu einer rechtsschiefen Verteilung: Viele kürzere Fahrten um einige wenige Kilometer, und seltener auch sehr lange Fahrten ($>50$~km). (Die Annahmen basieren auf Studien zur täglichen Weglänge \cite{mobilitaet2017}.) \item \textbf{Straßentyp:} Diese Variable wurde abhängig von der Fahrstrecke generiert. Intuitiv werden sehr lange Fahrten eher auf Autobahnen stattfinden, während kurze Fahrten überproportional innerorts sind. Um dies zu modellieren, wurde ein stochastischer Zusammenhang erzeugt: Zunächst wurde \texttt{trip\_distance} auf $[0,1]$ skaliert; dann wurde mittels einer Softmax-Wahrscheinlichkeitsfunktion daraus der Straßentyp gezogen, sodass z.\,B.\ bei sehr großen Distanzen die Wahrscheinlichkeit für \emph{Autobahn} deutlich höher ist als für \emph{Innerorts}. Dadurch ergibt sich eine leichte Korrelation zwischen \texttt{trip\_distance} und \texttt{road\_type} ($VIF \approx 1.68$ für \texttt{trip\_distance}). \item \textbf{Wochentag:} Festgelegte Verteilung von ca.~70\,\% \emph{Werktag} (Mo-Fr) und je 15\,\% \emph{Samstag} und \emph{Sonntag}. Damit wird berücksichtigt, dass die meisten Fahrten werktags stattfinden (\cite{mobilitaet2017}). Diese Variable wurde unabhängig von den übrigen generiert. \end{itemize} Durch diese Vorgehensweise bilden die generierten Daten nahezu realistische Verteilungen und Beziehungen der Variablen ab, wobei genau zwei inhaltlich plausible Korrelationen eingebaut wurden. Beide Abhängigkeiten sind so kalibriert, dass im optimalen Regressionsmodell keine Multikollinearität auftritt ($\text{VIF} < 5$ in allen Fällen). \subsection*{Modellierung der Zielvariable und der $p_i$-Werte} Die Zielvariable \emph{Diebstahl} wurde als Zufallsvariable auf Basis eines logistischen Regressionsmodells generiert. Dazu wurde zunächst für jede Fahrt $i$ die Diebstahl-Wahrscheinlichkeit $p_i = P(Y_i=1)$ berechnet als \[ p_i = \frac{1}{1 + \exp(- ( \beta_0 + \beta_1 x_{1i} + \cdots + \beta_8 x_{8i} + \varepsilon_i ) )}~, \] wobei $x_{1},\dots,x_{8}$ die Merkmalswerte (erklärende Variablen) der Fahrt sind, $\beta_0,\dots,\beta_8$ die zugrunde liegenden Regressionskoeffizienten und $\varepsilon_i$ ein zufälliger Fehlerterm. Für den vorliegenden Klassifikationsfall entspricht $\varepsilon_i$ einem impliziten Rauschen. In der Simulation wurde $\varepsilon_i \sim \mathcal{N}(0, 0.2^2)$ addiert. Anschließend wurde $Y_i$ durch einen Bernoulli-Zufall mit Parameter $p_i$ realisiert (d.\,h. \texttt{Diebstahl}~=~1 mit Wahrscheinlichkeit $p_i$). \noindent \newline Die gewählten Koeffizienten ($\beta$-Werte) für das Generierungsmodell sind in Tabelle~\ref{tab:true_betas} aufgeführt. Diese wurden so festgelegt, dass sie plausible Einflussstärken der erklärenden Variablen widerspiegeln, ohne die Zielvariable extrem zu dominieren. Insbesondere wurde ein niedriger Basiswert (\emph{Intercept} $\beta_0=-18$) gewählt, sodass bei unauffälligen Merkmalen die Diebstahl-Wahrscheinlichkeit sehr gering ist. Die erklärenden Variablen erhöhen bzw.\ verringern diese Grundwahrscheinlichkeit wie folgt: \begin{itemize} \item \textbf{Durchschnittsgeschwindigkeit:} $\beta_{avg\_speed} = 0{,}3$. Ein positiver Koeffizient - eine ungewöhnlich hohe Durchschnittsgeschwindigkeit erhöht die Diebstahl-Wahrscheinlichkeit, da sie auf einen anderen (rasanteren) Fahrstil hindeuten kann. \item \textbf{Harte Bremsmanöver:} $\beta_{hard\_brakes} = 0{,}6$. Häufige Vollbremsungen haben einen deutlichen positiven Effekt auf $P(\text{Diebstahl})$, da sie ein Indiz für einen risikoreicheren Fahrstil sind. \item \textbf{Schaltverhalten:} Das Schaltverhalten ist ein wichtiger Prädiktor für den Fahrer. Für die kategorialen Ausprägungen wurden folgende Koeffizienten gewählt: $\beta_{\text{früh}} = -0{,}8$, $\beta_{\text{normal}} = -0{,}8$ und $\beta_{\text{spät}} = +1{,}5$. Besonders \emph{spät} schalten wird mit einem hohen positiven Beta gewichtet, da es einen aggressiveren Fahrstil beschreibt. \emph{Früh} und \emph{normal} schalten erhalten einen negativen Einfluss, da sie auf einen defensiveren oder gewohnten Fahrstil hindeuten. \item \textbf{Geschwindigkeitsüberschreitungen:} Die Häufigkeit von Geschwindigkeitsüberschreitungen ist ein wichtiger Indikator für den Fahrstil. Die Koeffizienten wurden festgelegt als: $\beta_{\text{selten}} = -0{,}8$, $\beta_{\text{manchmal}} = -0{,}8$ und $\beta_{\text{häufig}} = +1{,}5$. Besonders \emph{häufig} zu schnell fahren ist ein starkes Signal für einen Fahrerwechsel, da dies ein sehr auffälliges Verhalten darstellt. \emph{Selten} und \emph{manchmal} werden negativ gewichtet, da sie auf einen defensiveren Fahrstil hindeuten. \item \textbf{Kontextvariablen (Wetter, Strecke, Straßentyp, Wochentag):} Diese wurden \emph{alle mit $\beta=0$} angesetzt, d.\,h.\ sie haben per Konstruktion keinen Einfluss auf die Diebstahl-Wahrscheinlichkeit. \end{itemize} \begin{table}[H] \centering \caption{Wahre $\beta$-Werte des Regressionsmodells} \label{tab:true_betas} \begin{tabular}{lr} \toprule \textbf{Variable} & \textbf{Beta-Wert}\\ \midrule Intercept & $-18{,}0$ \\ Durchschnittsgeschwindigkeit & $+0{,}3$ \\ Harte Bremsmanöver & $+0{,}6$ \\ Fahrstrecke & $0{,}0$ \\ Schaltverhalten (früh) & $-0{,}8$ \\ Schaltverhalten (normal) & $-0{,}8$ \\ Schaltverhalten (spät) & $+1{,}5$ \\ Geschwindigkeitsüberschreitung (häufig) & $+1{,}5$ \\ Geschwindigkeitsüberschreitung (manchmal) & $-0{,}8$ \\ Geschwindigkeitsüberschreitung (selten) & $-0{,}8$ \\ Wetter (alle Kategorien) & $0{,}00$ \\ Straßentyp (alle Kategorien) & $0{,}00$ \\ Wochentag (alle Kategorien) & $0{,}00$ \\ \bottomrule \end{tabular} \end{table} \noindent Durch die gewählten $\beta$-Gewichte resultiert eine Verteilung der Zielvariable, bei der Diebstahl relativ selten vorkommt, aber nicht vernachlässigbar: Im generierten Datensatz sind etwa 21{,}8\,\% der Fahrten als Diebstahl deklariert worden (d.\,h. $Y=1$ in 218290 von 1.000.000 Fällen), was in Abb.~\ref{fig:target_dist} dargestellt ist. Diebstähle sollen deutlich seltener als normale Fahrten sein, jedoch häufig genug, um ein Modell daran zu trainieren. \newline \newline Die zugrunde liegenden individuellen Diebstahl-Wahrscheinlichkeiten $p_i$ waren überwiegend niedrig: Im Mittel ergaben sich $\bar{p} \approx 0{,}2179$ mit einer Standardabweichung von $0{,}3093$ und eine rechtsschiefe Verteilung der $p_i$ über alle Fahrten (siehe Abb.~\ref{fig:fig_pi_dist}). \begin{figure}[H] \centering \includegraphics[width=0.8\textwidth]{fig_target_variable_dist.png} \caption{Verteilung der Zielvariable in der Grundgesamtheit} \label{fig:target_dist} \end{figure} \begin{figure}[H] \centering \includegraphics[width=0.8\textwidth]{fig_pi_dist.png} \caption{Verteilung der Diebstahl-Wahrscheinlichkeiten $p_i$} \label{fig:fig_pi_dist} \end{figure} \section{Simulation der Perspektive des Data Scientist} Es wurde aus den 1.000.000 generierten Fällen eine Zufallsstichprobe von $n = 20.000$ Fahrten gezogen. Der Data Scientist würde zunächst eine explorative Datenanalyse und Vorverarbeitung durchführen, dann ein geeignetes Regressionsmodell (logistische Regression im Klassifikationsfall) schätzen und mittels Variablenselektion optimieren. Abschließend würde er die Modellgüte bewerten. \subsection*{Datenexploration und Aufbereitung} Zunächst wurde die Stichprobe auf Vollständigkeit und Ausreißer geprüft. Es traten keine fehlenden Werte auf (da simuliert). Ein \emph{Abgleich der Verteilungen} bestätigte, dass die Stichprobe die Grundgesamtheits-Charakteristika widerspiegelt. Beispielsweise sind die Verteilungen der metrischen Variablen in Abb.~\ref{fig:dist_vars} dargestellt (Histogramme und Boxplots): Man erkennt die angenommene Normalverteilung der \texttt{avg\_speed} (mit Mittelwert ca.~47~km/h), die rechtschiefe Poisson-Verteilung von \texttt{hard\_brakes} (häufig 1 oder 2 harte Bremsung, selten mehr) und die ausgeprägte Schiefe der lognormal verteilten \texttt{trip\_distance} (viele kurze Fahrten, wenige sehr lange). Die Boxplots zeigen, dass es bei \texttt{trip\_distance} einige Ausreißer (sehr lange Fahrten) gibt, während \texttt{avg\_speed} symmetrisch verteilt ist. \begin{figure}[H] \centering \includegraphics[width=\textwidth]{fig_variable_distributions.png} \caption{Verteilungen der metrischen Variablen} \label{fig:dist_vars} \end{figure} \noindent \newline Für die kategorialen Merkmale (Schaltverhalten, Geschwindigkeitsüberschreitungen, Wetter, Straßentyp, Wochentag) wurden Balkendiagramme betrachtet (siehe Abb.~\ref{fig:fig_barplots_cats}). Auch diese entsprachen den Simulationseinstellungen. Zur Vorbereitung der Regression wurde ein One-Hot-Encoding der kategorialen Variablen durchgeführt und eine Konstante für den Interzept ergänzt. \begin{figure}[H] \centering \includegraphics[width=\textwidth]{fig_barplots_cats.png} \caption{Balkendiagramme der kategorialen Variablen} \label{fig:fig_barplots_cats} \end{figure} \noindent \newline Daraufhin wurde die lineare Korrelation zwischen den Variablen untersucht. Die Korrelationen der Variablen sind in Abb.~\ref{fig:fig_corr_matrix} dargestellt. Die Korrelationen sind erwartungsgemäß gering, da die Variablen weitgehend unabhängig sind. Lediglich die Dummykodierten Variablen weisen untereinander moderate Korrelationen auf, weil sie sich gegenseitig ausschließen (z.\,B. eine 0 für \emph{früh} impliziert eine 1 für \emph{normal} oder \emph{spät}). \begin{figure}[H] \centering \includegraphics[width=0.8\textwidth]{fig_corr_matrix.png} \caption{Korrelationsmatrix der Variablen} \label{fig:fig_corr_matrix} \end{figure} \subsection*{Logistische Regression und Variablenselektion} Ohne Kenntnis des wahren generativen Modells würde der Data Scientist zunächst alle verfügbaren Variablen als Prädiktoren in ein Modell einbeziehen. Daher wurde auf den Trainingsdaten eine logistische Regressionsanalyse mit allen 8 ursprünglichen Merkmalen durchgeführt. Um ein optimales Modell zu finden wurde ein schrittweises Selektionsverfahren (Backward Selection) angewandt: beginnend mit dem vollen Modell wurden die am wenigsten signifikanten Variablen sukzessive entfernt, bis nur noch prädiktive (p-Wert $<0,05$) Variablen verblieben. \noindent \newline Das Ergebnis der Variablenselektion war, dass genau die 4 fachlich erwarteten Einflüsse im Modell verblieben, während die irrelevanten Merkmale entfernt wurden. Es blieben \texttt{avg\_speed}, \texttt{hard\_brakes}, \texttt{shift\_behavior} (mit zwei Dummy-Variablen) und \texttt{speeding} (ebenfalls zwei Dummies) im finalen Modell. Ausgeschlossen wurden dagegen \texttt{weather}, \texttt{trip\_distance}, \texttt{road\_type} und \texttt{weekday}, da deren Effekt auf die Zielvariable statistisch insignifikant war. Dieses Resultat deckt sich mit der Konstruktion der Daten: Die irrelevanten Kontextvariablen bieten keine Erklärungskraft und wurden richtigerweise von der Backwards Selection eliminiert. \noindent \newline Die geschätzten Regressionskoeffizienten des finalen Modells (im Folgenden $\hat{\beta}$) stimmten weitgehend mit den wahren Werten aus dem Generierungsmodell überein. Tabelle~\ref{tab:beta_comparison} zeigt einen detaillierten Vergleich der geschätzten und wahren Koeffizienten: \begin{table}[H] \centering \caption{Vergleich der geschätzten und wahren Koeffizienten} \label{tab:beta_comparison} \begin{tabular}{lrr} \toprule \textbf{Variable} & \textbf{Geschätzt} & \textbf{Wahr}\\ \midrule Intercept & $-14{,}414$ & $-18{,}0$ \\ Durchschnittsgeschwindigkeit & $+0{,}288$ & $+0{,}3$ \\ Harte Bremsmanöver & $+0{,}584$ & $+0{,}6$ \\ Schaltverhalten (früh) & $-2{,}263$ & $-0{,}8$ \\ Schaltverhalten (normal) & $-2{,}281$ & $-0{,}8$ \\ Geschwindigkeitsüberschreitung (manchmal) & $-2{,}235$ & $-0{,}8$ \\ Geschwindigkeitsüberschreitung (selten) & $-2{,}136$ & $-0{,}8$ \\ \bottomrule \end{tabular} \end{table} \noindent Ein Vergleich der Koeffizienten zeigt erwartungsgemäß gewisse Abweichungen aufgrund von Stichprobenfluktuation und der unterschiedlichen Dummy-Kodierung: \begin{itemize} \item Für \texttt{avg\_speed} ergab sich $\hat{\beta}_{avg\_speed} = 0{,}288$ (gegenüber wahr $0{,}3$). Die Schätzung liegt sehr nah am wahren Wert und zeigt die richtige Richtung des Effekts. \item Für \texttt{hard\_brakes} wurde $\hat{\beta}_{hard\_brakes} = 0{,}584$ geschätzt (wahr $0{,}6$). Auch hier ist der Unterschied gering; das Vorzeichen und die Effektstärke wurden korrekt erkannt. \item Schaltverhalten und Geschwindigkeitsüberschreitung weichen von den ursprünglichen Werten ab. Beachtet man aber, dass Schaltverhalten (spät) und Geschwindigkeitsüberschreitung (häufig) in der Backward Selection verworfen wurden ist dies nicht überraschend: Schaltverhalten (spät) und Geschwindigkeitsüberschreitung (häufig) haben im erstellten Modell einen Koeffizienten von jeweils $-1{,}5$. $-1{,}5$ + $-0{,}8$ (für die anderen Kategorien) ergibt $-2{,}3$. Demnach ist die Schätzung für \texttt{shift\_behavior} und \texttt{speeding} nahezu identisch mit dem wahren Wert. \end{itemize} Somit hat der Data Scientist durch das systematische Vorgehen tatsächlich das zugrunde liegende Modell (bis auf Zufallsschwankungen) wiederentdeckt. Insbesondere wurden keine falschen Variablen im Endmodell behalten und keine echten Einflüsse übersehen. Die logistische Regressionsgleichung aus der Stichprobe stimmt inhaltlich mit der zur Datengenerierung überein. \subsection*{Evaluierung auf den Testdaten} Das finale Modell wurde auf den zurückgehaltenen Testdaten (80:20 Split) evaluiert, um die Generalisierungsfähigkeit zu bewerten. Abbildung~\ref{fig:roc_conf} zeigt die ROC-Kurve und die Confusion Matrix der Modellvorhersagen. \begin{figure}[H] \centering \includegraphics[width=\textwidth]{fig_roc_conf.png} \caption{ROC-Kurve und Confusion Matrix der Modellevaluation auf Testdaten} \label{fig:roc_conf} \end{figure} \noindent Die ROC-Kurve zeigt mit einem AUC-Wert von 0{,}94 eine sehr gute Diskriminierungsfähigkeit des Modells. Dieser hohe AUC-Wert deutet darauf hin, dass das Modell sehr gut zwischen Diebstahl und normalen Fahrten unterscheiden kann. Die Confusion Matrix offenbart dennoch ein typisches Klassifikationsproblem: Das Modell erkennt normale Fahrten sehr zuverlässig, hat aber Schwierigkeiten bei der Diebstahlerkennung. \noindent \newline Diese Missklassifikation resultiert primär aus der begrenzten Stichprobengröße von 20.000 Beobachtungen bei einer unbalancierten Klassenverteilung (ca. 21{,}8\,\% Diebstähle). Das Modell neigt dadurch zur Klassifikation in Richtung der Mehrheitsklasse. \section{Güte der Modellparameter} In einem letzten Schritt wurde untersucht, wie verlässlich die Modellschätzung bei unterschiedlicher Datenmenge ist. Insbesondere stellt sich die Frage, welchen Einfluss der Stichprobenumfang $n$ auf die Präzision der geschätzten Regressionskoeffizienten hat. Hierzu wurde ein Monte-Carlo-Simulationsansatz gewählt: Aus der Grundgesamtheit wurden für verschiedene Umfangswerte $n$ jeweils $k = 1000$ Zufallsstichproben gezogen, darauf jeweils das optimale Modell aus Abschnitt~3 (mit den 4 relevanten Variablen) erneut trainiert, und die Verteilungen der resultierenden $\hat{\beta}$-Koeffizienten analysiert. \noindent \newline Untersucht wurde exemplarisch der Koeffizient $\beta_{avg\_speed}$, der Effekt der Durchschnittsgeschwindigkeit. Die Ergebnisse sind in Abbildung~\ref{fig:beta_dist} dargestellt, welche die Verteilungen von $\hat{\beta}_{avg\_speed}$ für drei verschiedene Stichprobenumfänge gegenüberstellt. Man erkennt deutlich, dass mit wachsendem $n$ die Verteilung der Koeffizientenschätzungen immer schmaler wird und sich enger um den wahren Wert konzentriert. Für kleine Stichproben ($n=1000$) schwanken die geschätzten $\beta$ noch sehr stark -- die Verteilung ist breit und umfasst Werte von nahe -0,01 bis etwa 0,04. Bei mittlerer Stichprobe ($n=11000$) ist die Streuung bereits deutlich geringer. Im Fall $n=46000$ liegen nahezu alle Schätzungen dicht bei $\beta\approx0{,}3$. Diese Beobachtung entspricht der erwarteten Verbesserung der Schätzgenauigkeit: Je mehr Daten zur Verfügung stehen, desto weniger zufällig streuen die geschätzten Parameter um den wahren Wert. \begin{figure}[H] \centering \includegraphics[width=0.8\textwidth]{fig_beta_distribution.png} \caption{Verteilungen des geschätzten Koeffizienten $\hat{\beta}_{avg\_speed}$ aus 1000 Simulationen für drei Stichprobenumfänge ($n=1000$, $n=11000$, $n=46000$)} \label{fig:beta_dist} \end{figure} \noindent \newline Zur Quantifizierung wurde für jede Stichprobengröße $n$ die empirische Standardabweichung der $\hat{\beta}_{avg\_speed}$-Schätzungen aus den 1000 Wiederholungen bestimmt. Abbildung~\ref{fig:std_n} zeigt die Entwicklung dieser Streuung in Abhängigkeit von $n$. Deutlich ist ein abnehmender Verlauf erkennbar. Die Kurve folgt näherungsweise der theoretischen Proportionalität $\sigma(\hat{\beta}) \sim \frac{1}{\sqrt{n}}$ (rot eingezeichnet). Die in der Simulation gemessenen Werte (blaue Punkte) liegen dicht auf der $1/\sqrt{n}$-Linie, was die theoretische Erwartung bestätigt. \begin{figure}[H] \centering \includegraphics[width=0.8\textwidth]{fig_std_vs_n.png} \caption{Standardabweichung von $\hat{\beta}_{avg\_speed}$ in Abhängigkeit des Stichprobenumfangs $n$} \label{fig:std_n} \end{figure} \noindent \newline Diese Ergebnisse illustrieren den wichtigen Zusammenhang zwischen Datenmenge und Lernqualität des Modells. Bereits zwischen $n=1000$ und $n=10000$ verbessert sich die Präzision der Koeffizientenschätzung erheblich. Noch größere Datenmengen führen zu weiter sinkender Unsicherheit, allerdings mit abnehmendem Grenznutzen (die Kurve flacht ab). \newline \newline Insgesamt zeigt die Simulation, dass zur zuverlässigen Identifikation von Effekten (wie $\beta_{avg\_speed}\approx0{,}3$) eine ausreichend große Stichprobe notwendig ist. Mit $n \to 50.000$ nähert sich die Streuung einem Wert an. Für das vorliegende Problem bedeutet dies: Je mehr Fahrten der Data Scientist zur Verfügung hat, desto genauer kann er die wahren Fahrerwechsel-Einflüsse schätzen und desto vertrauenswürdiger sind die vom Modell ausgegebenen Diebstahlwahrscheinlichkeiten. \clearpage \printbibliography[title=Literaturverzeichnis] \end{document}