2nd iteration

2025-07-05 13:54:34 +02:00
parent 6e219b27bf
commit 822184ba65
4 changed files with 8256 additions and 119 deletions
@@ -31,12 +31,12 @@
 \section{Fachthema: Diebstahlerkennung im Auto}
 Moderne Fahrzeuge erfassen in Echtzeit vielfältige Daten zum Fahrverhalten. Diese Studie untersucht, inwiefern sich anhand dieser Daten mit einem statistischen Modell erkennen
 lässt, ob statt des gewöhnlichen Fahrers eine andere Person am Steuer sitzt -- was auf einen \emph{Diebstahl} hindeuten würde. Konkret soll ein Modell die
-Wahrscheinlichkeit $P(\text{Diebstahl})$ schätzen und bei Überschreiten eines Schwellwerts einen Alarm auslösen. Die \textbf{Zielvariable} (abhängige Variable) ist
+Wahrscheinlichkeit $P(\text{Diebstahl})$ schätzen und bei Überschreiten eines Schwellwerts einen Alarm auslösen. Die Zielvariable (abhängige Variable) ist
 dabei binär (0 = kein Diebstahl, 1 = Diebstahl). Ein Diebstahl wird angenommen, wenn das Fahrverhalten signifikant vom üblichen Fahrerprofil abweicht.

 \noindent
 \newline
-Für das Fachthema wurden insgesamt \textbf{8 Einflussgrößen} (potenziell erklärende Variablen) definiert, welche typische Aspekte des Fahrverhaltens und Umfelds
+Für das Fachthema wurden insgesamt 8 Einflussgrößen (potenziell erklärende Variablen) definiert, welche typische Aspekte des Fahrverhaltens und Umfelds
 repräsentieren. Davon sind 4 Variablen als tatsächlich erklärungsrelevant für die Zielvariable angenommen, während die übrigen 4 Variablen keinen Einfluss auf einen
 Fahrerwechsel (Diebstahl) haben. Zur Erfüllung der Aufgabenstellung sind unter den relevanten Prädiktoren zwei Variablen kategorial (ordinal) mit mindestens 3 Ausprägungen,
 die übrigen relevanten Variablen sind metrisch. Im Folgenden werden alle Variablen beschrieben:
@@ -71,13 +71,13 @@ Schlüsselvariablen dar, die einen Fahrerwechsel anzeigen können. Die übrigen
 besitzen aber per Annahme keinen Erklärungsgehalt für die Zielvariable.

 \section{Erzeugung der Grundgesamtheit}
-Für die Simulation wurde eine \textbf{Grundgesamtheit} von $N = 1.000.000$ Fahrten generiert. Jede Fahrt hat einen binären Indikator (Zielvariable \emph{Diebstahl ja/nein}) und 8
+Für die Simulation wurde eine Grundgesamtheit von $N = 1.000.000$ Fahrten generiert. Jede Fahrt hat einen binären Indikator (Zielvariable \emph{Diebstahl ja/nein}) und 8
 zugehörige Merkmalswerte (die oben definierten Variablen). Die Werte wurden mittels geeigneter Zufallsverteilungen erzeugt, basierend auf realistischen Annahmen und empirischen
 Daten, jedoch so, dass die Abhängigkeitsstruktur kontrolliert vorgegeben ist. Die Zielvariable hängt funktional von genau 4 der 8 Variablen ab (den erklärenden), während die
 restlichen 4 keinen Einfluss auf den Diebstahl haben. Zudem wurden zwei inhaltlich sinnvolle Korrelationen zwischen ausgewählten Variablen eingeführt, ohne jedoch Multikollinearität
 zu verursachen (alle Varianzinflationsfaktoren $\text{VIF} < 5$).

-\subsubsection*{Verteilungen der Variablen}
+\subsection*{Verteilungen der Variablen}
 \begin{itemize}
  \item \textbf{Durchschnittsgeschwindigkeit:} Normalverteilung mit $\mu \approx 47$~km/h und $\sigma \approx 10$~km/h, begrenzt auf plausible Werte $[10,130]$~km/h (keine negativen
  oder extrem hohen Geschwindigkeiten).
@@ -106,7 +106,7 @@ zu verursachen (alle Varianzinflationsfaktoren $\text{VIF} < 5$).
 Durch diese Vorgehensweise bilden die generierten Daten nahezu realistische Verteilungen und Beziehungen der Variablen ab, wobei genau zwei inhaltlich plausible Korrelationen eingebaut
 wurden. Beide Abhängigkeiten sind so kalibriert, dass im optimalen Regressionsmodell keine Multikollinearität auftritt ($\text{VIF} < 5$ in allen Fällen).

-\subsubsection*{Modellierung der Zielvariable und der $\pi$-Werte}
+\subsection*{Modellierung der Zielvariable und der $p_i$-Werte}
 Die Zielvariable \emph{Diebstahl} wurde als Zufallsvariable auf Basis eines logistischen Regressionsmodells generiert. Dazu wurde zunächst für jede Fahrt $i$ die
 Diebstahl-Wahrscheinlichkeit $p_i = P(Y_i=1)$ berechnet als
 \[
@@ -119,7 +119,7 @@ Anschließend wurde $Y_i$ durch einen Bernoulli-Zufall mit Parameter $p_i$ reali

 \noindent
 \newline
-Die \textbf{gewählten Koeffizienten ($\beta$-Werte)} für das Generierungsmodell sind in Tabelle~\ref{tab:true_betas} aufgeführt. Diese wurden so festgelegt, dass sie plausible
+Die gewählten Koeffizienten ($\beta$-Werte) für das Generierungsmodell sind in Tabelle~\ref{tab:true_betas} aufgeführt. Diese wurden so festgelegt, dass sie plausible
 Einflussstärken der erklärenden Variablen widerspiegeln, ohne die Zielvariable extrem zu dominieren. Insbesondere wurde ein relativ niedriger Basiswert
 (\emph{Intercept} $\beta_0=-2$) gewählt, sodass bei unauffälligen Merkmalen die Diebstahl-Wahrscheinlichkeit sehr gering ist. Die erklärenden Variablen erhöhen bzw.\
 verringern diese Grundwahrscheinlichkeit wie folgt:
@@ -153,10 +153,10 @@ Durchschnittsgeschwindigkeit & $+0{,}015$ \\
 Harte Bremsmanöver & $+0{,}10$ \\
 Schaltverhalten (früh) & $-0{,}30$ \\
 Schaltverhalten (normal) & $-0{,}30$ \\
-Schaltverhalten (spät) & $+0{,}00$ \\
+Schaltverhalten (spät) & $+0{,}50$ \\
 Geschwindigkeitsüberschreitung (selten) & $-0{,}30$ \\
 Geschwindigkeitsüberschreitung (manchmal) & $-0{,}30$ \\
-Geschwindigkeitsüberschreitung (häufig) & $+0{,}00$ \\
+Geschwindigkeitsüberschreitung (häufig) & $+0{,}50$ \\
 Wetter (alle Kategorien) & $0{,}00$ \\
 Straßentyp (alle Kategorien) & $0{,}00$ \\
 Wochentag (alle Kategorien) & $0{,}00$ \\
@@ -176,16 +176,16 @@ der $p_i$ über alle Fahrten (siehe Abb.~\ref{fig:fig_pi_dist}).

 \begin{figure}[H]
 \centering
-\includegraphics[width=0.8\textwidth]{fig_pi_dist.png}
-\caption{Verteilung der Diebstahl-Wahrscheinlichkeiten $p_i$}
-\label{fig:fig_pi_dist}
+\includegraphics[width=0.8\textwidth]{fig_target_variable_dist.png}
+\caption{Verteilung der Zielvariable in der Grundgesamtheit}
+\label{fig:target_dist}
 \end{figure}

 \begin{figure}[H]
 \centering
-\includegraphics[width=0.8\textwidth]{fig_target_variable_dist.png}
-\caption{Verteilung der Zielvariable in der Grundgesamtheit}
-\label{fig:target_dist}
+\includegraphics[width=0.8\textwidth]{fig_pi_dist.png}
+\caption{Verteilung der Diebstahl-Wahrscheinlichkeiten $p_i$}
+\label{fig:fig_pi_dist}
 \end{figure}

 \section{Simulation der Perspektive des Data Scientist}
@@ -271,6 +271,26 @@ Somit hat der Data Scientist durch das systematische Vorgehen tatsächlich das z
 Insbesondere wurden keine falschen Variablen im Endmodell behalten und keine echten Einflüsse übersehen. Die logistische Regressionsgleichung aus der Stichprobe stimmt inhaltlich
 mit der zur Datengenerierung überein.

+\subsection*{Evaluierung auf den Testdaten}
+Das finale Modell wurde auf den zurückgehaltenen Testdaten (80:20 Split) evaluiert, um die Generalisierungsfähigkeit zu bewerten. Abbildung~\ref{fig:roc_conf} zeigt die ROC-Kurve
+und die Confusion Matrix der Modellvorhersagen.
+
+\begin{figure}[H]
+\centering
+\includegraphics[width=\textwidth]{fig_roc_conf.png}
+\caption{ROC-Kurve und Confusion Matrix der Modellevaluation auf Testdaten}
+\label{fig:roc_conf}
+\end{figure}
+
+\noindent
+Die ROC-Kurve zeigt mit einem AUC-Wert deutlich über 0,5 eine gute Diskriminierungsfähigkeit des Modells gegenüber einem Zufallsklassifikator. Die Confusion Matrix offenbart jedoch
+ein typisches Klassifikationsproblem: Das Modell erkennt normale Fahrten sehr zuverlässig, hat aber Schwierigkeiten bei der Diebstahlerkennung.
+
+\noindent
+\newline
+Diese Missklassifikation resultiert primär aus der begrenzten Stichprobengröße von 20.000 Beobachtungen bei einer unbalancierten Klassenverteilung (ca. 25\,\% Diebstähle).
+Das Modell neigt dadurch zur Klassifikation in Richtung der Mehrheitsklasse.
+
 \section{Güte der Modellparameter}
 In einem letzten Schritt wurde untersucht, wie verlässlich die Modellschätzung bei unterschiedlicher Datenmenge ist. Insbesondere stellt sich die Frage, welchen Einfluss der
 Stichprobenumfang $n$ auf die Präzision der geschätzten Regressionskoeffizienten hat. Hierzu wurde ein Monte-Carlo-Simulationsansatz gewählt: Aus der Grundgesamtheit wurden für
@@ -314,7 +334,7 @@ Präzision der Koeffizientenschätzung erheblich. Noch größere Datenmengen fü
 \newline
 \newline
 Insgesamt zeigt die Simulation, dass zur zuverlässigen Identifikation kleiner Effekte (wie $\beta_{avg\_speed}\approx0{,}015$) eine ausreichend große Stichprobe notwendig ist.
-Mit $n \to 50.000$ nähert sich die Streuung einem Wert an, der durch die inhärente Ergebnisvarianz (bedingt durch den Rauschterm $\varepsilon$) begrenzt ist. Für das vorliegende
+Mit $n \to 50.000$ nähert sich die Streuung einem Wert an. Für das vorliegende
 Problem bedeutet dies: Je mehr Fahrten der Data Scientist zur Verfügung hat, desto genauer kann er die wahren Fahrerwechsel-Einflüsse schätzen und desto vertrauenswürdiger sind die
 vom Modell ausgegebenen Diebstahlwahrscheinlichkeiten.