325 lines
25 KiB
TeX
325 lines
25 KiB
TeX
\documentclass[12pt,a4paper]{article}
|
|
\usepackage[utf8]{inputenc}
|
|
\usepackage[T1]{fontenc}
|
|
\usepackage[ngerman]{babel}
|
|
\usepackage{graphicx}
|
|
\usepackage{amsmath}
|
|
\usepackage{booktabs}
|
|
\usepackage{caption}
|
|
\usepackage{hyperref}
|
|
\usepackage{float}
|
|
\usepackage[style=authoryear,backend=biber]{biblatex}
|
|
\addbibresource{references.bib}
|
|
|
|
\title{Simulationsstudie: Diebstahlerkennung eines Autos in~Echtzeit}
|
|
\author{Yann Ahlgrim}
|
|
\date{\today}
|
|
|
|
\begin{document}
|
|
\maketitle
|
|
\thispagestyle{empty}
|
|
\begin{center}
|
|
\vfill
|
|
\textbf{Statistical Learning SoSe 2025 -- Ergebnisbericht}
|
|
\vfill
|
|
\end{center}
|
|
\clearpage
|
|
|
|
\tableofcontents
|
|
\clearpage
|
|
|
|
\section{Fachthema: Diebstahlerkennung im Auto}
|
|
Moderne Fahrzeuge erfassen in Echtzeit vielfältige Daten zum Fahrverhalten. Diese Studie untersucht, inwiefern sich anhand dieser Daten mit einem statistischen Modell erkennen
|
|
lässt, ob statt des gewöhnlichen Fahrers eine andere Person am Steuer sitzt -- was auf einen \emph{Diebstahl} hindeuten würde. Konkret soll ein Modell die
|
|
Wahrscheinlichkeit $P(\text{Diebstahl})$ schätzen und bei Überschreiten eines Schwellwerts einen Alarm auslösen. Die \textbf{Zielvariable} (abhängige Variable) ist
|
|
dabei binär (0 = kein Diebstahl, 1 = Diebstahl). Ein Diebstahl wird angenommen, wenn das Fahrverhalten signifikant vom üblichen Fahrerprofil abweicht.
|
|
|
|
\noindent
|
|
\newline
|
|
Für das Fachthema wurden insgesamt \textbf{8 Einflussgrößen} (potenziell erklärende Variablen) definiert, welche typische Aspekte des Fahrverhaltens und Umfelds
|
|
repräsentieren. Davon sind 4 Variablen als tatsächlich erklärungsrelevant für die Zielvariable angenommen, während die übrigen 4 Variablen keinen Einfluss auf einen
|
|
Fahrerwechsel (Diebstahl) haben. Zur Erfüllung der Aufgabenstellung sind unter den relevanten Prädiktoren zwei Variablen kategorial (ordinal) mit mindestens 3 Ausprägungen,
|
|
die übrigen relevanten Variablen sind metrisch. Im Folgenden werden alle Variablen beschrieben:
|
|
|
|
\begin{description}
|
|
\item[\textbf{Durchschnittsgeschwindigkeit} (metrisch, \textit{erklärend})] Mittlere Fahrgeschwindigkeit (z.\,B.~über einen Tag). Unterschiedliche Fahrer weisen
|
|
charakteristische Tempoprofile auf. Ein deutlich höheres Durchschnittstempo kann somit auf einen fremden, ggf.\ aggressiveren Fahrer hinweisen. Typische Werte liegen um
|
|
etwa 47~km/h mit großer Streuung (\cite{nhtsa2006}).
|
|
\item[\textbf{Schaltverhalten} (ordinal, \textit{erklärend})] Gewohnheiten beim Gangwechsel (bei Schaltgetriebe), insbesondere der Drehzahlbereich, bei dem hochgeschaltet wird.
|
|
Es werden drei Ausprägungen unterschieden: \emph{früh} (sehr niedrige Drehzahlen, ökonomisch), \emph{normal} und \emph{spät} (hohe Drehzahlen, sportlich). Diese Variable ist
|
|
relevant, da Fahrende ein individuelles Schaltmuster haben. Studien zeigen, dass das Schaltverhalten zur Fahreridentifikation genutzt werden kann (\cite{gearshift2023}).
|
|
\item[\textbf{Harte Bremsmanöver} (metrisch, \textit{erklärend})] Anzahl starker Bremsungen (mit Verzögerung $>0{,}3g$) pro Strecke (\cite{tesla_safety_score_2023}).
|
|
Dieses Maß korreliert mit einer aggressiven Fahrweise -- viele Vollbremsungen deuten auf einen ungewohnten bzw.\ risikoreicheren Fahrer hin. g ist eine Einheit der
|
|
Beschleunigung (1g $\approx 9{,}81$~m/s²).
|
|
\item[\textbf{Geschwindigkeitsüberschreitungen} (ordinal, \textit{erklärend})] Häufigkeit \newline bzw.\ Ausmaß von Tempoverstößen. Kategorisiert als \emph{selten},
|
|
\emph{manchmal} oder \emph{häufig} zu schnell. Ein fremder Fahrer könnte andere Risikoneigungen beim Schnellfahren zeigen. Laut einer AAA-Verkehrssicherheitsstudie geben rund
|
|
50\,\% der Fahrer an, in letzter Zeit auf Autobahnen mindestens 24~km/h über dem Limit gefahren zu sein (\cite{aaa2016}), was die allgemeine Relevanz dieser Variable
|
|
für das Fahrverhalten unterstreicht.
|
|
\item[\textbf{Wetterbedingungen} (nominal)] Wetter während der Fahrt: \emph{trocken}, \emph{nass} oder \emph{winterlich} (Glätte/Schnee). Diese Kontextvariable dient zur Kontrolle
|
|
äußerer Bedingungen. Erwartungsgemäß hat das Wetter keinen direkten Einfluss auf einen Fahrerwechsel.
|
|
\item[\textbf{Fahrstrecke} (metrisch)] Die zurückgelegte Distanz einer Fahrt (in km). Diese Variable (etwa lognormal verteilt um 16~km) repräsentiert typische Wege. Sie steht
|
|
nicht in direktem Zusammenhang mit der Fahreridentität, sondern charakterisiert den Nutzungskontext (\cite{mobilitaet2017}).
|
|
\item[\textbf{Straßentyp} (nominal)] Vorherrschender Streckentyp: \emph{Autobahn}, \emph{Außerorts} oder \emph{Innerorts}. Diese Variable bietet Kontext (Stadtverkehr vs.\
|
|
Fernstraße), hat aber für sich genommen keinen Einfluss bezüglich eines Fahrerwechsels (\cite{openumwelt2024})
|
|
\item[\textbf{Wochentag} (nominal)] Tag der Woche bzw.\ Kategorie \emph{Werktag} vs \emph{Wochenende} (\cite{mobilitaet2017}). Auch dies ist eine Kontextgröße ohne direkten
|
|
Einfluss auf die Diebstahlwahrscheinlichkeit (daher ebenfalls nicht erklärend).
|
|
\end{description}
|
|
|
|
\noindent
|
|
Zusammenfassend stellen \emph{Durchschnittsgeschwindigkeit}, \emph{Schaltverhalten}, \emph{Harte Bremsmanöver} und \emph{Geschwindigkeitsüberschreitungen} die fachlich ausgewählten
|
|
Schlüsselvariablen dar, die einen Fahrerwechsel anzeigen können. Die übrigen vier Größen (Wetter, Fahrstrecke, Straßentyp, Wochentag) dienen als Kontrolle und potentielle Störgrößen,
|
|
besitzen aber per Annahme keinen Erklärungsgehalt für die Zielvariable.
|
|
|
|
\section{Erzeugung der Grundgesamtheit}
|
|
Für die Simulation wurde eine \textbf{Grundgesamtheit} von $N = 1.000.000$ Fahrten generiert. Jede Fahrt hat einen binären Indikator (Zielvariable \emph{Diebstahl ja/nein}) und 8
|
|
zugehörige Merkmalswerte (die oben definierten Variablen). Die Werte wurden mittels geeigneter Zufallsverteilungen erzeugt, basierend auf realistischen Annahmen und empirischen
|
|
Daten, jedoch so, dass die Abhängigkeitsstruktur kontrolliert vorgegeben ist. Die Zielvariable hängt funktional von genau 4 der 8 Variablen ab (den erklärenden), während die
|
|
restlichen 4 keinen Einfluss auf den Diebstahl haben. Zudem wurden zwei inhaltlich sinnvolle Korrelationen zwischen ausgewählten Variablen eingeführt, ohne jedoch Multikollinearität
|
|
zu verursachen (alle Varianzinflationsfaktoren $\text{VIF} < 5$).
|
|
|
|
\subsubsection*{Verteilungen der Variablen}
|
|
\begin{itemize}
|
|
\item \textbf{Durchschnittsgeschwindigkeit:} Normalverteilung mit $\mu \approx 47$~km/h und $\sigma \approx 10$~km/h, begrenzt auf plausible Werte $[10,130]$~km/h (keine negativen
|
|
oder extrem hohen Geschwindigkeiten).
|
|
\item \textbf{Schaltverhalten:} Kategorisch (ordinal) mit drei Stufen \emph{früh}, \emph{normal}, \emph{spät}. Es wurden 40\,\% für \emph{früh}, 40\,\% \emph{normal} und
|
|
20\,\% \emph{spät} simuliert, d.\,h. die meisten Fahrer schalten gewöhnlich früh oder durchschnittlich, während nur etwa jeder fünfte spät schaltet.
|
|
\item \textbf{Harte Bremsmanöver:} Poisson-verteilte Zufallsvariable mit $\lambda = 2$ pro definierter Strecke (z.\,B.~pro 100\,km). Diese Verteilung ergibt meist wenige
|
|
bis keine harten Bremsungen pro Fahrt, aber mit einer gewissen Wahrscheinlichkeit auch Ausreißer mit mehreren Bremsmanövern (rechtsschiefe Verteilung).
|
|
\item \textbf{Geschwindigkeitsüberschreitungen:} Ordinal mit drei Stufen (\emph{selten}, \emph{manchmal}, \emph{häufig}). Diese Variable wurde \emph{nicht unabhängig} gezogen,
|
|
sondern abhängig von der Durchschnittsgeschwindigkeit generiert: Fahrer mit höherer \texttt{avg\_speed} erhielten mit größerer Wahrscheinlichkeit die Kategorie \emph{häufig} zu
|
|
schnell, während sehr langsame Fahrer überwiegend als \emph{selten} zu schnell eingeordnet wurden. Die Umsetzung erfolgte über eine gewichtete Zufallsauswahl (Softmax-Funktion auf
|
|
Basis von \texttt{avg\_speed}). Dadurch besteht eine inhaltlich sinnvolle Korrelation zwischen \texttt{avg\_speed} und \texttt{speeding}, die jedoch moderat genug ist
|
|
(VIF $\approx 2.57$ für \texttt{avg\_speed}, $< 2$ für \texttt{speeding}-Dummies), um Multikollinearität nicht zum Problem werden zu lassen.
|
|
\item \textbf{Wetterbedingungen:} Für jedes Fahrt wurde das Wetter zufällig gemäß empirischer Häufigkeiten zugeordnet: ca.~75\,\% \emph{trocken}, 20\,\% \emph{nass} (Regen)
|
|
und 5\,\% \emph{winterlich} (Schnee/Eis). Diese Werte sind basierend auf Annahmen zu typischen Fahrbedingungen in Deutschland gewählt.
|
|
\item \textbf{Fahrstrecke:} Lognormalverteilung mit $\mu_{\log} = \ln(16)$ und $\sigma_{\log} = 0{,}7$, um die Verteilung typischer Fahrtlängen abzubilden.
|
|
Diese Parameter führen zu einer rechtsschiefen Verteilung: Viele kürzere Fahrten um einige wenige Kilometer, und seltener auch sehr lange Fahrten ($>50$~km).
|
|
(Die Annahmen basieren auf Studien zur täglichen Weglänge \cite{mobilitaet2017}.)
|
|
\item \textbf{Straßentyp:} Diese Variable wurde abhängig von der Fahrstrecke generiert. Intuitiv werden sehr lange Fahrten eher auf Autobahnen stattfinden,
|
|
während kurze Fahrten überproportional innerorts sind. Um dies zu modellieren, wurde ein stochastischer Zusammenhang erzeugt: Zunächst wurde \texttt{trip\_distance}
|
|
auf $[0,1]$ skaliert; dann wurde mittels einer Softmax-Wahrscheinlichkeitsfunktion daraus der Straßentyp gezogen, sodass z.\,B.\ bei sehr großen Distanzen die Wahrscheinlichkeit
|
|
für \emph{Autobahn} deutlich höher ist als für \emph{Innerorts}. Dadurch ergibt sich eine leichte Korrelation zwischen \texttt{trip\_distance} und \texttt{road\_type}
|
|
($VIF \approx 1.68$ für \texttt{trip\_distance}).
|
|
\item \textbf{Wochentag:} Festgelegte Verteilung von ca.~70\,\% \emph{Werktag} (Mo-Fr) und je 15\,\% \emph{Samstag} und \emph{Sonntag}. Damit wird berücksichtigt,
|
|
dass die meisten Fahrten werktags stattfinden (\cite{mobilitaet2017}). Diese Variable wurde unabhängig von den übrigen generiert.
|
|
\end{itemize}
|
|
Durch diese Vorgehensweise bilden die generierten Daten nahezu realistische Verteilungen und Beziehungen der Variablen ab, wobei genau zwei inhaltlich plausible Korrelationen eingebaut
|
|
wurden. Beide Abhängigkeiten sind so kalibriert, dass im optimalen Regressionsmodell keine Multikollinearität auftritt ($\text{VIF} < 5$ in allen Fällen).
|
|
|
|
\subsubsection*{Modellierung der Zielvariable und der $\pi$-Werte}
|
|
Die Zielvariable \emph{Diebstahl} wurde als Zufallsvariable auf Basis eines logistischen Regressionsmodells generiert. Dazu wurde zunächst für jede Fahrt $i$ die
|
|
Diebstahl-Wahrscheinlichkeit $p_i = P(Y_i=1)$ berechnet als
|
|
\[
|
|
p_i = \frac{1}{1 + \exp(- ( \beta_0 + \beta_1 x_{1i} + \cdots + \beta_8 x_{8i} + \varepsilon_i ) )}~,
|
|
\]
|
|
wobei $x_{1},\dots,x_{8}$ die Merkmalswerte (erklärende Variablen) der Fahrt sind, $\beta_0,\dots,\beta_8$ die zugrunde liegenden Regressionskoeffizienten und $\varepsilon_i$ ein
|
|
zufälliger Fehlerterm. Für den vorliegenden Klassifikationsfall entspricht $\varepsilon_i$ einem impliziten Rauschen. In der Simulation wurde
|
|
$\varepsilon_i \sim \mathcal{N}(0, 0.2^2)$ addiert.
|
|
Anschließend wurde $Y_i$ durch einen Bernoulli-Zufall mit Parameter $p_i$ realisiert (d.\,h. \texttt{Diebstahl}~=~1 mit Wahrscheinlichkeit $p_i$).
|
|
|
|
\noindent
|
|
\newline
|
|
Die \textbf{gewählten Koeffizienten ($\beta$-Werte)} für das Generierungsmodell sind in Tabelle~\ref{tab:true_betas} aufgeführt. Diese wurden so festgelegt, dass sie plausible
|
|
Einflussstärken der erklärenden Variablen widerspiegeln, ohne die Zielvariable extrem zu dominieren. Insbesondere wurde ein relativ niedriger Basiswert
|
|
(\emph{Intercept} $\beta_0=-2$) gewählt, sodass bei unauffälligen Merkmalen die Diebstahl-Wahrscheinlichkeit sehr gering ist. Die erklärenden Variablen erhöhen bzw.\
|
|
verringern diese Grundwahrscheinlichkeit wie folgt:
|
|
\begin{itemize}
|
|
\item \textbf{Durchschnittsgeschwindigkeit:} $\beta_{avg\_speed} = 0{,}015$. Ein leicht positiver Koeffizient - eine ungewöhnlich hohe Durchschnittsgeschwindigkeit erhöht also
|
|
geringfügig die Diebstahl-Wkt., da sie auf einen anderen (rasanteren) Fahrstil hindeuten kann.
|
|
\item \textbf{Harte Bremsmanöver:} $\beta_{hard\_brakes} = 0{,}1$. Häufige Vollbremsungen haben einen deutlichen positiven Effekt auf $P(\text{Diebstahl})$, da sie ein Indiz für
|
|
einen risikoreicheren Fahrstil sind.
|
|
\item \textbf{Schaltverhalten:} Das Schaltverhalten ist ein starker Prädiktor für den Fahrer. Für die kategorialen Ausprägungen wurden Dummy-Variablen erstellt:
|
|
$\beta_{\text{früh}} = -0{,}3$, $\beta_{\text{normal}} = -0{,}3$ und $\beta_{\text{spät}} = +0{,}5$. Besonders \emph{spät} schalten wird mit einem hohen positiven Beta gewichtet,
|
|
da es einen aggressiveren Fahrstil beschreibt. \emph{Früh} und \emph{normal} schalten erhalten einen negativen Einfluss, da sie auf einen defensiveren oder gewohnten Fahrstil
|
|
hindeuten.
|
|
\item \textbf{Geschwindigkeitsüberschreitungen:} Die Häufigkeit von Geschwindigkeitsüberschreitungen ist ein wichtiger Indikator für den Fahrstil. Die Koeffizienten wurden
|
|
festgelegt als: $\beta_{\text{selten}} = -0{,}3$, $\beta_{\text{manchmal}} = -0{,}3$ und $\beta_{\text{häufig}} = +0{,}5$. Besonders \emph{häufig} zu schnell fahren ist ein
|
|
starkes Signal für einen Fahrerwechsel, da dies ein sehr auffälliges Verhalten darstellt. \emph{Selten} und \emph{manchmal} werden negativ gewichtet, da sie auf einen defensiveren
|
|
Fahrstil hindeuten.
|
|
\item \textbf{Kontextvariablen (Wetter, Strecke, Straßentyp, Wochentag):} Diese wurden \emph{alle mit $\beta=0$} angesetzt, d.\,h.\ sie haben per Konstruktion keinen Einfluss auf
|
|
die Diebstahl-Wahrscheinlichkeit.
|
|
\end{itemize}
|
|
|
|
\begin{table}[H]
|
|
\centering
|
|
\caption{Wahre $\beta$-Werte des Regressionsmodells}
|
|
\label{tab:true_betas}
|
|
\begin{tabular}{lr}
|
|
\toprule
|
|
\textbf{Variable} & \textbf{Beta-Wert}\\
|
|
\midrule
|
|
Intercept & $-2{,}0$ \\
|
|
Durchschnittsgeschwindigkeit & $+0{,}015$ \\
|
|
Harte Bremsmanöver & $+0{,}10$ \\
|
|
Schaltverhalten (früh) & $-0{,}30$ \\
|
|
Schaltverhalten (normal) & $-0{,}30$ \\
|
|
Schaltverhalten (spät) & $+0{,}00$ \\
|
|
Geschwindigkeitsüberschreitung (selten) & $-0{,}30$ \\
|
|
Geschwindigkeitsüberschreitung (manchmal) & $-0{,}30$ \\
|
|
Geschwindigkeitsüberschreitung (häufig) & $+0{,}00$ \\
|
|
Wetter (alle Kategorien) & $0{,}00$ \\
|
|
Straßentyp (alle Kategorien) & $0{,}00$ \\
|
|
Wochentag (alle Kategorien) & $0{,}00$ \\
|
|
\bottomrule
|
|
\end{tabular}
|
|
\end{table}
|
|
|
|
\noindent
|
|
Durch die gewählten $\beta$-Gewichte resultiert eine Verteilung der Zielvariable, bei der Diebstahl relativ selten vorkommt, aber nicht vernachlässigbar: Im generierten
|
|
Datensatz sind etwa 23\,\% der Fahrten als Diebstahl deklariert worden (d.\,h. $Y=1$ in 229.973 von 1.000.000 Fällen), was in Abb.~\ref{fig:target_dist} dargestellt ist.
|
|
Diebstähle sollen deutlich seltener als normale Fahrten sein,
|
|
jedoch häufig genug, um ein Modell daran zu trainieren.
|
|
\newline
|
|
\newline
|
|
Die zugrunde liegenden individuellen Diebstahl-Wahrscheinlichkeiten $p_i$ waren überwiegend niedrig: Im Mittel ergaben sich $\bar{p} \approx 0,23$ und eine rechtsschiefe Verteilung
|
|
der $p_i$ über alle Fahrten (siehe Abb.~\ref{fig:fig_pi_dist}).
|
|
|
|
\begin{figure}[H]
|
|
\centering
|
|
\includegraphics[width=0.8\textwidth]{fig_pi_dist.png}
|
|
\caption{Verteilung der Diebstahl-Wahrscheinlichkeiten $p_i$}
|
|
\label{fig:fig_pi_dist}
|
|
\end{figure}
|
|
|
|
\begin{figure}[H]
|
|
\centering
|
|
\includegraphics[width=0.8\textwidth]{fig_target_variable_dist.png}
|
|
\caption{Verteilung der Zielvariable in der Grundgesamtheit}
|
|
\label{fig:target_dist}
|
|
\end{figure}
|
|
|
|
\section{Simulation der Perspektive des Data Scientist}
|
|
Es wurde aus den 1.000.000 generierten Fällen eine Zufallsstichprobe von $n = 20.000$ Fahrten gezogen. Der Data Scientist würde
|
|
zunächst eine explorative Datenanalyse und Vorverarbeitung durchführen, dann ein geeignetes Regressionsmodell (logistische Regression im Klassifikationsfall) schätzen und mittels
|
|
Variablenselektion optimieren. Abschließend würde er die Modellgüte bewerten.
|
|
|
|
\subsection*{Datenexploration und Aufbereitung}
|
|
Zunächst wurde die Stichprobe auf Vollständigkeit und Ausreißer geprüft. Es traten keine fehlenden Werte auf (da simuliert). Ein \emph{Abgleich der Verteilungen} bestätigte,
|
|
dass die Stichprobe die Grundgesamtheits-Charakteristika widerspiegelt. Beispielsweise sind die Verteilungen der metrischen Variablen in Abb.~\ref{fig:dist_vars} dargestellt
|
|
(Histogramme und Boxplots): Man erkennt die angenommene Normalverteilung der \texttt{avg\_speed} (mit Mittelwert ca.~47~km/h), die rechtschiefe Poisson-Verteilung von
|
|
\texttt{hard\_brakes} (häufig 0 oder 1 harte Bremsung, selten mehr) und die ausgeprägte Schiefe der lognormal verteilten \texttt{trip\_distance} (viele kurze Fahrten, wenige sehr
|
|
lange). Die Boxplots zeigen, dass es bei \texttt{trip\_distance} einige Ausreißer (sehr lange Fahrten) gibt, während \texttt{avg\_speed} symmetrisch verteilt ist.
|
|
\begin{figure}[H]
|
|
\centering
|
|
\includegraphics[width=\textwidth]{fig_variable_distributions.png}
|
|
\caption{Verteilungen der metrischen Variablen}
|
|
\label{fig:dist_vars}
|
|
\end{figure}
|
|
|
|
\noindent
|
|
\newline
|
|
Für die kategorialen Merkmale (Schaltverhalten, Geschwindigkeitsüberschreitungen, Wetter, Straßentyp, Wochentag) wurden Balkendiagramme betrachtet
|
|
(siehe Abb.~\ref{fig:fig_barplots_cats}).
|
|
Auch diese entsprachen den Simulationseinstellungen. Zur Vorbereitung der Regression wurde ein One-Hot-Encoding der kategorialen Variablen durchgeführt und eine Konstante für den
|
|
Interzept ergänzt.
|
|
|
|
\begin{figure}[H]
|
|
\centering
|
|
\includegraphics[width=\textwidth]{fig_barplots_cats.png}
|
|
\caption{Balkendiagramme der kategorialen Variablen}
|
|
\label{fig:fig_barplots_cats}
|
|
\end{figure}
|
|
|
|
\noindent
|
|
\newline
|
|
Daraufhin wurde die lineare Korrelation zwischen den Variablen untersucht. Die Korrelationen der Variablen sind in Abb.~\ref{fig:fig_corr_matrix} dargestellt.
|
|
Die Korrelationen sind erwartungsgemäß gering, da die Variablen weitgehend unabhängig sind. Lediglich die Dummykodierten Variablen weisen untereinander moderate Korrelationen auf,
|
|
weil sie sich gegenseitig ausschließen (z.\,B. eine 0 für \emph{früh} impliziert eine 1 für \emph{normal} oder \emph{spät}).
|
|
|
|
\begin{figure}[H]
|
|
\centering
|
|
\includegraphics[width=0.8\textwidth]{fig_corr_matrix.png}
|
|
\caption{Korrelationsmatrix der Variablen}
|
|
\label{fig:fig_corr_matrix}
|
|
\end{figure}
|
|
|
|
|
|
\subsection*{Logistische Regression und Variablenselektion}
|
|
Ohne Kenntnis des wahren generativen Modells würde der Data Scientist zunächst alle verfügbaren Variablen als Prädiktoren in ein Modell einbeziehen. Daher wurde auf den
|
|
Trainingsdaten eine logistische Regressionsanalyse mit allen 8 ursprünglichen Merkmalen
|
|
durchgeführt. Um ein optimales Modell zu finden wurde ein schrittweises Selektionsverfahren
|
|
(Backward Selection) angewandt: beginnend mit dem vollen Modell wurden die am wenigsten signifikanten Variablen sukzessive
|
|
entfernt, bis nur noch prädiktive (p-Wert $<0,05$) Variablen verblieben.
|
|
|
|
\noindent
|
|
\newline
|
|
Das Ergebnis der Variablenselektion war, dass genau die 4 fachlich erwarteten Einflüsse im Modell verblieben, während die irrelevanten Merkmale entfernt wurden. Es
|
|
blieben \texttt{avg\_speed}, \texttt{hard\_brakes}, \texttt{shift\_behavior} (mit zwei Dummy-Variablen) und \texttt{speeding} (ebenfalls zwei Dummies) im finalen Modell.
|
|
Ausgeschlossen wurden dagegen \texttt{weather}, \texttt{trip\_distance}, \texttt{road\_type} und \texttt{weekday}, da deren Effekt auf die Zielvariable statistisch insignifikant
|
|
war. Dieses Resultat deckt sich mit der Konstruktion der Daten: Die irrelevanten Kontextvariablen bieten keine Erklärungskraft und wurden richtigerweise
|
|
von der Backwards Selection eliminiert.
|
|
|
|
\noindent
|
|
\newline
|
|
Die geschätzten Regressionskoeffizienten des finalen Modells
|
|
(im Folgenden $\hat{\beta}$) stimmten weitgehend mit den wahren Werten aus dem Generierungsmodell überein. Insbesondere waren alle verbleibenden Prädiktoren hochsignifikant
|
|
($p<0,001$). Ein Vergleich der Koeffizienten zeigt nur geringe Abweichungen aufgrund von Stichprobenfluktuation:
|
|
\begin{itemize}
|
|
\item Für \texttt{avg\_speed} ergab sich $\hat{\beta}_{avg\_speed} \approx 0{,}0174$ (gegenüber wahr $0{,}015$). Dieser leichte Überschätzung ist mit dem Stichprobenzufall
|
|
erklärbar, liegt aber in derselben Größenordnung.
|
|
\item Für \texttt{hard\_brakes} wurde $\hat{\beta}_{hard\_brakes} \approx 0{,}0817$ geschätzt (wahr $0{,}10$). Auch hier ist der Unterschied gering; das Vorzeichen und die
|
|
Effektstärke (positiv, deutlicher Einfluss) wurden korrekt erkannt.
|
|
\item Die Dummyeffekte für das Schaltverhalten wurden zu $\hat{\beta}_{frueh} \approx -0{,}815$ und $\hat{\beta}_{normal} \approx -0{,}808$ geschätzt (Referenz \emph{spät}
|
|
mit $\hat{\beta}_{spaet} = 0$). Die wahren Unterschiede (Früh/Normal vs.~Spät) betrugen $-0{,}8$. Somit liegen die Schätzungen praktisch genau auf den erwarteten Werten.
|
|
\item Für die Speeding-Kategorien ergaben sich $\hat{\beta}_{selten} \approx -0{,}834$ und \newline $\hat{\beta}_{manchmal} \approx -0{,}834$ (Referenz \emph{häufig}).
|
|
Die wahren Unterschiede zu \emph{häufig} waren $-0{,}8$. Auch hier stimmen Richtung und Größe nahezu überein.
|
|
\item Den Interzept schätzte das Modell mit $\hat{\beta}_{0} \approx -1{,}05$ (wahr $-2$). Diese Abweichung erklärt sich durch die Dummy-Kodierung der Kategorien:
|
|
Im generativen Modell hatten die Referenzkategorien \emph{spät} und \emph{häufig} jeweils einen positiven Beitrag von $+0{,}5$,
|
|
welcher im geschätzten Modell im Interzept aufgefangen wird. Berücksichtigt man diese Verschiebung, liegt der Interzept im Rahmen.
|
|
\end{itemize}
|
|
Somit hat der Data Scientist durch das systematische Vorgehen tatsächlich das zugrunde liegende Modell (bis auf Zufallsschwankungen) wiederentdeckt.
|
|
Insbesondere wurden keine falschen Variablen im Endmodell behalten und keine echten Einflüsse übersehen. Die logistische Regressionsgleichung aus der Stichprobe stimmt inhaltlich
|
|
mit der zur Datengenerierung überein.
|
|
|
|
\section{Güte der Modellparameter}
|
|
In einem letzten Schritt wurde untersucht, wie verlässlich die Modellschätzung bei unterschiedlicher Datenmenge ist. Insbesondere stellt sich die Frage, welchen Einfluss der
|
|
Stichprobenumfang $n$ auf die Präzision der geschätzten Regressionskoeffizienten hat. Hierzu wurde ein Monte-Carlo-Simulationsansatz gewählt: Aus der Grundgesamtheit wurden für
|
|
verschiedene Umfangswerte $n$ jeweils $k = 1000$ Zufallsstichproben gezogen, darauf jeweils das optimale Modell aus Abschnitt~3 (mit den 4 relevanten Variablen) erneut trainiert,
|
|
und die Verteilungen der resultierenden $\hat{\beta}$-Koeffizienten analysiert.
|
|
|
|
\noindent
|
|
\newline
|
|
Untersucht wurde exemplarisch der Koeffizient $\beta_{avg\_speed}$, der Effekt der Durchschnittsgeschwindigkeit. Die Ergebnisse sind in Abbildung~\ref{fig:beta_dist} dargestellt,
|
|
welche die Verteilungen von $\hat{\beta}_{avg\_speed}$ für drei verschiedene Stichprobenumfänge gegenüberstellt. Man erkennt deutlich, dass
|
|
mit wachsendem $n$ die Verteilung der Koeffizientenschätzungen immer schmaler wird und sich enger um den wahren Wert konzentriert. Für kleine Stichproben ($n=1000$)
|
|
schwanken die geschätzten $\beta$ noch sehr stark -- die Verteilung ist breit und umfasst Werte von nahe -0,01 bis etwa 0,04. Bei mittlerer Stichprobe ($n=11000$) ist die Streuung
|
|
bereits deutlich geringer. Im Fall $n=46000$ liegen nahezu alle Schätzungen dicht bei $\beta\approx0{,}015$. Diese Beobachtung entspricht der
|
|
erwarteten Verbesserung der Schätzgenauigkeit: Je mehr Daten zur Verfügung stehen, desto weniger zufällig streuen die geschätzten Parameter um den wahren Wert.
|
|
|
|
\begin{figure}[H]
|
|
\centering
|
|
\includegraphics[width=0.8\textwidth]{fig_beta_distribution.png}
|
|
\caption{Verteilungen des geschätzten Koeffizienten $\hat{\beta}_{avg\_speed}$ aus 1000 Simulationen für drei Stichprobenumfänge ($n=1000$, $n=11000$, $n=46000$)}
|
|
\label{fig:beta_dist}
|
|
\end{figure}
|
|
|
|
\noindent
|
|
\newline
|
|
Zur Quantifizierung wurde für jede Stichprobengröße $n$ die empirische Standardabweichung der $\hat{\beta}_{avg\_speed}$-Schätzungen aus den 1000 Wiederholungen bestimmt.
|
|
Abbildung~\ref{fig:std_n} zeigt die Entwicklung dieser Streuung in Abhängigkeit von $n$. Deutlich ist ein abnehmender Verlauf erkennbar. Die Kurve folgt näherungsweise der
|
|
theoretischen Proportionalität $\sigma(\hat{\beta}) \sim \frac{1}{\sqrt{n}}$ (rot eingezeichnet). Die in der Simulation gemessenen Werte (blaue Punkte) liegen dicht auf der
|
|
$1/\sqrt{n}$-Linie, was die theoretische Erwartung bestätigt.
|
|
|
|
\begin{figure}[H]
|
|
\centering
|
|
\includegraphics[width=0.8\textwidth]{fig_std_vs_n.png}
|
|
\caption{Standardabweichung von $\hat{\beta}_{avg\_speed}$ in Abhängigkeit des Stichprobenumfangs $n$}
|
|
\label{fig:std_n}
|
|
\end{figure}
|
|
|
|
\noindent
|
|
\newline
|
|
Diese Ergebnisse illustrieren den wichtigen Zusammenhang zwischen Datenmenge und Lernqualität des Modells. Bereits zwischen $n=1000$ und $n=10000$ verbessert sich die
|
|
Präzision der Koeffizientenschätzung erheblich. Noch größere Datenmengen führen zu weiter sinkender Unsicherheit, allerdings mit abnehmendem Grenznutzen (die Kurve flacht ab).
|
|
\newline
|
|
\newline
|
|
Insgesamt zeigt die Simulation, dass zur zuverlässigen Identifikation kleiner Effekte (wie $\beta_{avg\_speed}\approx0{,}015$) eine ausreichend große Stichprobe notwendig ist.
|
|
Mit $n \to 50.000$ nähert sich die Streuung einem Wert an, der durch die inhärente Ergebnisvarianz (bedingt durch den Rauschterm $\varepsilon$) begrenzt ist. Für das vorliegende
|
|
Problem bedeutet dies: Je mehr Fahrten der Data Scientist zur Verfügung hat, desto genauer kann er die wahren Fahrerwechsel-Einflüsse schätzen und desto vertrauenswürdiger sind die
|
|
vom Modell ausgegebenen Diebstahlwahrscheinlichkeiten.
|
|
|
|
\clearpage
|
|
\printbibliography[title=Literaturverzeichnis]
|
|
|
|
\end{document}
|