2nd iteration

This commit is contained in:
YannAhlgrim
2025-07-05 13:54:34 +02:00
parent 6e219b27bf
commit 822184ba65
4 changed files with 8256 additions and 119 deletions
Binary file not shown.

After

Width:  |  Height:  |  Size: 65 KiB

@@ -31,12 +31,12 @@
\section{Fachthema: Diebstahlerkennung im Auto} \section{Fachthema: Diebstahlerkennung im Auto}
Moderne Fahrzeuge erfassen in Echtzeit vielfältige Daten zum Fahrverhalten. Diese Studie untersucht, inwiefern sich anhand dieser Daten mit einem statistischen Modell erkennen Moderne Fahrzeuge erfassen in Echtzeit vielfältige Daten zum Fahrverhalten. Diese Studie untersucht, inwiefern sich anhand dieser Daten mit einem statistischen Modell erkennen
lässt, ob statt des gewöhnlichen Fahrers eine andere Person am Steuer sitzt -- was auf einen \emph{Diebstahl} hindeuten würde. Konkret soll ein Modell die lässt, ob statt des gewöhnlichen Fahrers eine andere Person am Steuer sitzt -- was auf einen \emph{Diebstahl} hindeuten würde. Konkret soll ein Modell die
Wahrscheinlichkeit $P(\text{Diebstahl})$ schätzen und bei Überschreiten eines Schwellwerts einen Alarm auslösen. Die \textbf{Zielvariable} (abhängige Variable) ist Wahrscheinlichkeit $P(\text{Diebstahl})$ schätzen und bei Überschreiten eines Schwellwerts einen Alarm auslösen. Die Zielvariable (abhängige Variable) ist
dabei binär (0 = kein Diebstahl, 1 = Diebstahl). Ein Diebstahl wird angenommen, wenn das Fahrverhalten signifikant vom üblichen Fahrerprofil abweicht. dabei binär (0 = kein Diebstahl, 1 = Diebstahl). Ein Diebstahl wird angenommen, wenn das Fahrverhalten signifikant vom üblichen Fahrerprofil abweicht.
\noindent \noindent
\newline \newline
Für das Fachthema wurden insgesamt \textbf{8 Einflussgrößen} (potenziell erklärende Variablen) definiert, welche typische Aspekte des Fahrverhaltens und Umfelds Für das Fachthema wurden insgesamt 8 Einflussgrößen (potenziell erklärende Variablen) definiert, welche typische Aspekte des Fahrverhaltens und Umfelds
repräsentieren. Davon sind 4 Variablen als tatsächlich erklärungsrelevant für die Zielvariable angenommen, während die übrigen 4 Variablen keinen Einfluss auf einen repräsentieren. Davon sind 4 Variablen als tatsächlich erklärungsrelevant für die Zielvariable angenommen, während die übrigen 4 Variablen keinen Einfluss auf einen
Fahrerwechsel (Diebstahl) haben. Zur Erfüllung der Aufgabenstellung sind unter den relevanten Prädiktoren zwei Variablen kategorial (ordinal) mit mindestens 3 Ausprägungen, Fahrerwechsel (Diebstahl) haben. Zur Erfüllung der Aufgabenstellung sind unter den relevanten Prädiktoren zwei Variablen kategorial (ordinal) mit mindestens 3 Ausprägungen,
die übrigen relevanten Variablen sind metrisch. Im Folgenden werden alle Variablen beschrieben: die übrigen relevanten Variablen sind metrisch. Im Folgenden werden alle Variablen beschrieben:
@@ -71,13 +71,13 @@ Schlüsselvariablen dar, die einen Fahrerwechsel anzeigen können. Die übrigen
besitzen aber per Annahme keinen Erklärungsgehalt für die Zielvariable. besitzen aber per Annahme keinen Erklärungsgehalt für die Zielvariable.
\section{Erzeugung der Grundgesamtheit} \section{Erzeugung der Grundgesamtheit}
Für die Simulation wurde eine \textbf{Grundgesamtheit} von $N = 1.000.000$ Fahrten generiert. Jede Fahrt hat einen binären Indikator (Zielvariable \emph{Diebstahl ja/nein}) und 8 Für die Simulation wurde eine Grundgesamtheit von $N = 1.000.000$ Fahrten generiert. Jede Fahrt hat einen binären Indikator (Zielvariable \emph{Diebstahl ja/nein}) und 8
zugehörige Merkmalswerte (die oben definierten Variablen). Die Werte wurden mittels geeigneter Zufallsverteilungen erzeugt, basierend auf realistischen Annahmen und empirischen zugehörige Merkmalswerte (die oben definierten Variablen). Die Werte wurden mittels geeigneter Zufallsverteilungen erzeugt, basierend auf realistischen Annahmen und empirischen
Daten, jedoch so, dass die Abhängigkeitsstruktur kontrolliert vorgegeben ist. Die Zielvariable hängt funktional von genau 4 der 8 Variablen ab (den erklärenden), während die Daten, jedoch so, dass die Abhängigkeitsstruktur kontrolliert vorgegeben ist. Die Zielvariable hängt funktional von genau 4 der 8 Variablen ab (den erklärenden), während die
restlichen 4 keinen Einfluss auf den Diebstahl haben. Zudem wurden zwei inhaltlich sinnvolle Korrelationen zwischen ausgewählten Variablen eingeführt, ohne jedoch Multikollinearität restlichen 4 keinen Einfluss auf den Diebstahl haben. Zudem wurden zwei inhaltlich sinnvolle Korrelationen zwischen ausgewählten Variablen eingeführt, ohne jedoch Multikollinearität
zu verursachen (alle Varianzinflationsfaktoren $\text{VIF} < 5$). zu verursachen (alle Varianzinflationsfaktoren $\text{VIF} < 5$).
\subsubsection*{Verteilungen der Variablen} \subsection*{Verteilungen der Variablen}
\begin{itemize} \begin{itemize}
\item \textbf{Durchschnittsgeschwindigkeit:} Normalverteilung mit $\mu \approx 47$~km/h und $\sigma \approx 10$~km/h, begrenzt auf plausible Werte $[10,130]$~km/h (keine negativen \item \textbf{Durchschnittsgeschwindigkeit:} Normalverteilung mit $\mu \approx 47$~km/h und $\sigma \approx 10$~km/h, begrenzt auf plausible Werte $[10,130]$~km/h (keine negativen
oder extrem hohen Geschwindigkeiten). oder extrem hohen Geschwindigkeiten).
@@ -106,7 +106,7 @@ zu verursachen (alle Varianzinflationsfaktoren $\text{VIF} < 5$).
Durch diese Vorgehensweise bilden die generierten Daten nahezu realistische Verteilungen und Beziehungen der Variablen ab, wobei genau zwei inhaltlich plausible Korrelationen eingebaut Durch diese Vorgehensweise bilden die generierten Daten nahezu realistische Verteilungen und Beziehungen der Variablen ab, wobei genau zwei inhaltlich plausible Korrelationen eingebaut
wurden. Beide Abhängigkeiten sind so kalibriert, dass im optimalen Regressionsmodell keine Multikollinearität auftritt ($\text{VIF} < 5$ in allen Fällen). wurden. Beide Abhängigkeiten sind so kalibriert, dass im optimalen Regressionsmodell keine Multikollinearität auftritt ($\text{VIF} < 5$ in allen Fällen).
\subsubsection*{Modellierung der Zielvariable und der $\pi$-Werte} \subsection*{Modellierung der Zielvariable und der $p_i$-Werte}
Die Zielvariable \emph{Diebstahl} wurde als Zufallsvariable auf Basis eines logistischen Regressionsmodells generiert. Dazu wurde zunächst für jede Fahrt $i$ die Die Zielvariable \emph{Diebstahl} wurde als Zufallsvariable auf Basis eines logistischen Regressionsmodells generiert. Dazu wurde zunächst für jede Fahrt $i$ die
Diebstahl-Wahrscheinlichkeit $p_i = P(Y_i=1)$ berechnet als Diebstahl-Wahrscheinlichkeit $p_i = P(Y_i=1)$ berechnet als
\[ \[
@@ -119,7 +119,7 @@ Anschließend wurde $Y_i$ durch einen Bernoulli-Zufall mit Parameter $p_i$ reali
\noindent \noindent
\newline \newline
Die \textbf{gewählten Koeffizienten ($\beta$-Werte)} für das Generierungsmodell sind in Tabelle~\ref{tab:true_betas} aufgeführt. Diese wurden so festgelegt, dass sie plausible Die gewählten Koeffizienten ($\beta$-Werte) für das Generierungsmodell sind in Tabelle~\ref{tab:true_betas} aufgeführt. Diese wurden so festgelegt, dass sie plausible
Einflussstärken der erklärenden Variablen widerspiegeln, ohne die Zielvariable extrem zu dominieren. Insbesondere wurde ein relativ niedriger Basiswert Einflussstärken der erklärenden Variablen widerspiegeln, ohne die Zielvariable extrem zu dominieren. Insbesondere wurde ein relativ niedriger Basiswert
(\emph{Intercept} $\beta_0=-2$) gewählt, sodass bei unauffälligen Merkmalen die Diebstahl-Wahrscheinlichkeit sehr gering ist. Die erklärenden Variablen erhöhen bzw.\ (\emph{Intercept} $\beta_0=-2$) gewählt, sodass bei unauffälligen Merkmalen die Diebstahl-Wahrscheinlichkeit sehr gering ist. Die erklärenden Variablen erhöhen bzw.\
verringern diese Grundwahrscheinlichkeit wie folgt: verringern diese Grundwahrscheinlichkeit wie folgt:
@@ -153,10 +153,10 @@ Durchschnittsgeschwindigkeit & $+0{,}015$ \\
Harte Bremsmanöver & $+0{,}10$ \\ Harte Bremsmanöver & $+0{,}10$ \\
Schaltverhalten (früh) & $-0{,}30$ \\ Schaltverhalten (früh) & $-0{,}30$ \\
Schaltverhalten (normal) & $-0{,}30$ \\ Schaltverhalten (normal) & $-0{,}30$ \\
Schaltverhalten (spät) & $+0{,}00$ \\ Schaltverhalten (spät) & $+0{,}50$ \\
Geschwindigkeitsüberschreitung (selten) & $-0{,}30$ \\ Geschwindigkeitsüberschreitung (selten) & $-0{,}30$ \\
Geschwindigkeitsüberschreitung (manchmal) & $-0{,}30$ \\ Geschwindigkeitsüberschreitung (manchmal) & $-0{,}30$ \\
Geschwindigkeitsüberschreitung (häufig) & $+0{,}00$ \\ Geschwindigkeitsüberschreitung (häufig) & $+0{,}50$ \\
Wetter (alle Kategorien) & $0{,}00$ \\ Wetter (alle Kategorien) & $0{,}00$ \\
Straßentyp (alle Kategorien) & $0{,}00$ \\ Straßentyp (alle Kategorien) & $0{,}00$ \\
Wochentag (alle Kategorien) & $0{,}00$ \\ Wochentag (alle Kategorien) & $0{,}00$ \\
@@ -176,16 +176,16 @@ der $p_i$ über alle Fahrten (siehe Abb.~\ref{fig:fig_pi_dist}).
\begin{figure}[H] \begin{figure}[H]
\centering \centering
\includegraphics[width=0.8\textwidth]{fig_pi_dist.png} \includegraphics[width=0.8\textwidth]{fig_target_variable_dist.png}
\caption{Verteilung der Diebstahl-Wahrscheinlichkeiten $p_i$} \caption{Verteilung der Zielvariable in der Grundgesamtheit}
\label{fig:fig_pi_dist} \label{fig:target_dist}
\end{figure} \end{figure}
\begin{figure}[H] \begin{figure}[H]
\centering \centering
\includegraphics[width=0.8\textwidth]{fig_target_variable_dist.png} \includegraphics[width=0.8\textwidth]{fig_pi_dist.png}
\caption{Verteilung der Zielvariable in der Grundgesamtheit} \caption{Verteilung der Diebstahl-Wahrscheinlichkeiten $p_i$}
\label{fig:target_dist} \label{fig:fig_pi_dist}
\end{figure} \end{figure}
\section{Simulation der Perspektive des Data Scientist} \section{Simulation der Perspektive des Data Scientist}
@@ -271,6 +271,26 @@ Somit hat der Data Scientist durch das systematische Vorgehen tatsächlich das z
Insbesondere wurden keine falschen Variablen im Endmodell behalten und keine echten Einflüsse übersehen. Die logistische Regressionsgleichung aus der Stichprobe stimmt inhaltlich Insbesondere wurden keine falschen Variablen im Endmodell behalten und keine echten Einflüsse übersehen. Die logistische Regressionsgleichung aus der Stichprobe stimmt inhaltlich
mit der zur Datengenerierung überein. mit der zur Datengenerierung überein.
\subsection*{Evaluierung auf den Testdaten}
Das finale Modell wurde auf den zurückgehaltenen Testdaten (80:20 Split) evaluiert, um die Generalisierungsfähigkeit zu bewerten. Abbildung~\ref{fig:roc_conf} zeigt die ROC-Kurve
und die Confusion Matrix der Modellvorhersagen.
\begin{figure}[H]
\centering
\includegraphics[width=\textwidth]{fig_roc_conf.png}
\caption{ROC-Kurve und Confusion Matrix der Modellevaluation auf Testdaten}
\label{fig:roc_conf}
\end{figure}
\noindent
Die ROC-Kurve zeigt mit einem AUC-Wert deutlich über 0,5 eine gute Diskriminierungsfähigkeit des Modells gegenüber einem Zufallsklassifikator. Die Confusion Matrix offenbart jedoch
ein typisches Klassifikationsproblem: Das Modell erkennt normale Fahrten sehr zuverlässig, hat aber Schwierigkeiten bei der Diebstahlerkennung.
\noindent
\newline
Diese Missklassifikation resultiert primär aus der begrenzten Stichprobengröße von 20.000 Beobachtungen bei einer unbalancierten Klassenverteilung (ca. 25\,\% Diebstähle).
Das Modell neigt dadurch zur Klassifikation in Richtung der Mehrheitsklasse.
\section{Güte der Modellparameter} \section{Güte der Modellparameter}
In einem letzten Schritt wurde untersucht, wie verlässlich die Modellschätzung bei unterschiedlicher Datenmenge ist. Insbesondere stellt sich die Frage, welchen Einfluss der In einem letzten Schritt wurde untersucht, wie verlässlich die Modellschätzung bei unterschiedlicher Datenmenge ist. Insbesondere stellt sich die Frage, welchen Einfluss der
Stichprobenumfang $n$ auf die Präzision der geschätzten Regressionskoeffizienten hat. Hierzu wurde ein Monte-Carlo-Simulationsansatz gewählt: Aus der Grundgesamtheit wurden für Stichprobenumfang $n$ auf die Präzision der geschätzten Regressionskoeffizienten hat. Hierzu wurde ein Monte-Carlo-Simulationsansatz gewählt: Aus der Grundgesamtheit wurden für
@@ -314,7 +334,7 @@ Präzision der Koeffizientenschätzung erheblich. Noch größere Datenmengen fü
\newline \newline
\newline \newline
Insgesamt zeigt die Simulation, dass zur zuverlässigen Identifikation kleiner Effekte (wie $\beta_{avg\_speed}\approx0{,}015$) eine ausreichend große Stichprobe notwendig ist. Insgesamt zeigt die Simulation, dass zur zuverlässigen Identifikation kleiner Effekte (wie $\beta_{avg\_speed}\approx0{,}015$) eine ausreichend große Stichprobe notwendig ist.
Mit $n \to 50.000$ nähert sich die Streuung einem Wert an, der durch die inhärente Ergebnisvarianz (bedingt durch den Rauschterm $\varepsilon$) begrenzt ist. Für das vorliegende Mit $n \to 50.000$ nähert sich die Streuung einem Wert an. Für das vorliegende
Problem bedeutet dies: Je mehr Fahrten der Data Scientist zur Verfügung hat, desto genauer kann er die wahren Fahrerwechsel-Einflüsse schätzen und desto vertrauenswürdiger sind die Problem bedeutet dies: Je mehr Fahrten der Data Scientist zur Verfügung hat, desto genauer kann er die wahren Fahrerwechsel-Einflüsse schätzen und desto vertrauenswürdiger sind die
vom Modell ausgegebenen Diebstahlwahrscheinlichkeiten. vom Modell ausgegebenen Diebstahlwahrscheinlichkeiten.
File diff suppressed because one or more lines are too long