2nd iteration
This commit is contained in:
Binary file not shown.
|
After Width: | Height: | Size: 65 KiB |
Binary file not shown.
@@ -31,12 +31,12 @@
|
||||
\section{Fachthema: Diebstahlerkennung im Auto}
|
||||
Moderne Fahrzeuge erfassen in Echtzeit vielfältige Daten zum Fahrverhalten. Diese Studie untersucht, inwiefern sich anhand dieser Daten mit einem statistischen Modell erkennen
|
||||
lässt, ob statt des gewöhnlichen Fahrers eine andere Person am Steuer sitzt -- was auf einen \emph{Diebstahl} hindeuten würde. Konkret soll ein Modell die
|
||||
Wahrscheinlichkeit $P(\text{Diebstahl})$ schätzen und bei Überschreiten eines Schwellwerts einen Alarm auslösen. Die \textbf{Zielvariable} (abhängige Variable) ist
|
||||
Wahrscheinlichkeit $P(\text{Diebstahl})$ schätzen und bei Überschreiten eines Schwellwerts einen Alarm auslösen. Die Zielvariable (abhängige Variable) ist
|
||||
dabei binär (0 = kein Diebstahl, 1 = Diebstahl). Ein Diebstahl wird angenommen, wenn das Fahrverhalten signifikant vom üblichen Fahrerprofil abweicht.
|
||||
|
||||
\noindent
|
||||
\newline
|
||||
Für das Fachthema wurden insgesamt \textbf{8 Einflussgrößen} (potenziell erklärende Variablen) definiert, welche typische Aspekte des Fahrverhaltens und Umfelds
|
||||
Für das Fachthema wurden insgesamt 8 Einflussgrößen (potenziell erklärende Variablen) definiert, welche typische Aspekte des Fahrverhaltens und Umfelds
|
||||
repräsentieren. Davon sind 4 Variablen als tatsächlich erklärungsrelevant für die Zielvariable angenommen, während die übrigen 4 Variablen keinen Einfluss auf einen
|
||||
Fahrerwechsel (Diebstahl) haben. Zur Erfüllung der Aufgabenstellung sind unter den relevanten Prädiktoren zwei Variablen kategorial (ordinal) mit mindestens 3 Ausprägungen,
|
||||
die übrigen relevanten Variablen sind metrisch. Im Folgenden werden alle Variablen beschrieben:
|
||||
@@ -71,13 +71,13 @@ Schlüsselvariablen dar, die einen Fahrerwechsel anzeigen können. Die übrigen
|
||||
besitzen aber per Annahme keinen Erklärungsgehalt für die Zielvariable.
|
||||
|
||||
\section{Erzeugung der Grundgesamtheit}
|
||||
Für die Simulation wurde eine \textbf{Grundgesamtheit} von $N = 1.000.000$ Fahrten generiert. Jede Fahrt hat einen binären Indikator (Zielvariable \emph{Diebstahl ja/nein}) und 8
|
||||
Für die Simulation wurde eine Grundgesamtheit von $N = 1.000.000$ Fahrten generiert. Jede Fahrt hat einen binären Indikator (Zielvariable \emph{Diebstahl ja/nein}) und 8
|
||||
zugehörige Merkmalswerte (die oben definierten Variablen). Die Werte wurden mittels geeigneter Zufallsverteilungen erzeugt, basierend auf realistischen Annahmen und empirischen
|
||||
Daten, jedoch so, dass die Abhängigkeitsstruktur kontrolliert vorgegeben ist. Die Zielvariable hängt funktional von genau 4 der 8 Variablen ab (den erklärenden), während die
|
||||
restlichen 4 keinen Einfluss auf den Diebstahl haben. Zudem wurden zwei inhaltlich sinnvolle Korrelationen zwischen ausgewählten Variablen eingeführt, ohne jedoch Multikollinearität
|
||||
zu verursachen (alle Varianzinflationsfaktoren $\text{VIF} < 5$).
|
||||
|
||||
\subsubsection*{Verteilungen der Variablen}
|
||||
\subsection*{Verteilungen der Variablen}
|
||||
\begin{itemize}
|
||||
\item \textbf{Durchschnittsgeschwindigkeit:} Normalverteilung mit $\mu \approx 47$~km/h und $\sigma \approx 10$~km/h, begrenzt auf plausible Werte $[10,130]$~km/h (keine negativen
|
||||
oder extrem hohen Geschwindigkeiten).
|
||||
@@ -106,7 +106,7 @@ zu verursachen (alle Varianzinflationsfaktoren $\text{VIF} < 5$).
|
||||
Durch diese Vorgehensweise bilden die generierten Daten nahezu realistische Verteilungen und Beziehungen der Variablen ab, wobei genau zwei inhaltlich plausible Korrelationen eingebaut
|
||||
wurden. Beide Abhängigkeiten sind so kalibriert, dass im optimalen Regressionsmodell keine Multikollinearität auftritt ($\text{VIF} < 5$ in allen Fällen).
|
||||
|
||||
\subsubsection*{Modellierung der Zielvariable und der $\pi$-Werte}
|
||||
\subsection*{Modellierung der Zielvariable und der $p_i$-Werte}
|
||||
Die Zielvariable \emph{Diebstahl} wurde als Zufallsvariable auf Basis eines logistischen Regressionsmodells generiert. Dazu wurde zunächst für jede Fahrt $i$ die
|
||||
Diebstahl-Wahrscheinlichkeit $p_i = P(Y_i=1)$ berechnet als
|
||||
\[
|
||||
@@ -119,7 +119,7 @@ Anschließend wurde $Y_i$ durch einen Bernoulli-Zufall mit Parameter $p_i$ reali
|
||||
|
||||
\noindent
|
||||
\newline
|
||||
Die \textbf{gewählten Koeffizienten ($\beta$-Werte)} für das Generierungsmodell sind in Tabelle~\ref{tab:true_betas} aufgeführt. Diese wurden so festgelegt, dass sie plausible
|
||||
Die gewählten Koeffizienten ($\beta$-Werte) für das Generierungsmodell sind in Tabelle~\ref{tab:true_betas} aufgeführt. Diese wurden so festgelegt, dass sie plausible
|
||||
Einflussstärken der erklärenden Variablen widerspiegeln, ohne die Zielvariable extrem zu dominieren. Insbesondere wurde ein relativ niedriger Basiswert
|
||||
(\emph{Intercept} $\beta_0=-2$) gewählt, sodass bei unauffälligen Merkmalen die Diebstahl-Wahrscheinlichkeit sehr gering ist. Die erklärenden Variablen erhöhen bzw.\
|
||||
verringern diese Grundwahrscheinlichkeit wie folgt:
|
||||
@@ -153,10 +153,10 @@ Durchschnittsgeschwindigkeit & $+0{,}015$ \\
|
||||
Harte Bremsmanöver & $+0{,}10$ \\
|
||||
Schaltverhalten (früh) & $-0{,}30$ \\
|
||||
Schaltverhalten (normal) & $-0{,}30$ \\
|
||||
Schaltverhalten (spät) & $+0{,}00$ \\
|
||||
Schaltverhalten (spät) & $+0{,}50$ \\
|
||||
Geschwindigkeitsüberschreitung (selten) & $-0{,}30$ \\
|
||||
Geschwindigkeitsüberschreitung (manchmal) & $-0{,}30$ \\
|
||||
Geschwindigkeitsüberschreitung (häufig) & $+0{,}00$ \\
|
||||
Geschwindigkeitsüberschreitung (häufig) & $+0{,}50$ \\
|
||||
Wetter (alle Kategorien) & $0{,}00$ \\
|
||||
Straßentyp (alle Kategorien) & $0{,}00$ \\
|
||||
Wochentag (alle Kategorien) & $0{,}00$ \\
|
||||
@@ -176,16 +176,16 @@ der $p_i$ über alle Fahrten (siehe Abb.~\ref{fig:fig_pi_dist}).
|
||||
|
||||
\begin{figure}[H]
|
||||
\centering
|
||||
\includegraphics[width=0.8\textwidth]{fig_pi_dist.png}
|
||||
\caption{Verteilung der Diebstahl-Wahrscheinlichkeiten $p_i$}
|
||||
\label{fig:fig_pi_dist}
|
||||
\includegraphics[width=0.8\textwidth]{fig_target_variable_dist.png}
|
||||
\caption{Verteilung der Zielvariable in der Grundgesamtheit}
|
||||
\label{fig:target_dist}
|
||||
\end{figure}
|
||||
|
||||
\begin{figure}[H]
|
||||
\centering
|
||||
\includegraphics[width=0.8\textwidth]{fig_target_variable_dist.png}
|
||||
\caption{Verteilung der Zielvariable in der Grundgesamtheit}
|
||||
\label{fig:target_dist}
|
||||
\includegraphics[width=0.8\textwidth]{fig_pi_dist.png}
|
||||
\caption{Verteilung der Diebstahl-Wahrscheinlichkeiten $p_i$}
|
||||
\label{fig:fig_pi_dist}
|
||||
\end{figure}
|
||||
|
||||
\section{Simulation der Perspektive des Data Scientist}
|
||||
@@ -271,6 +271,26 @@ Somit hat der Data Scientist durch das systematische Vorgehen tatsächlich das z
|
||||
Insbesondere wurden keine falschen Variablen im Endmodell behalten und keine echten Einflüsse übersehen. Die logistische Regressionsgleichung aus der Stichprobe stimmt inhaltlich
|
||||
mit der zur Datengenerierung überein.
|
||||
|
||||
\subsection*{Evaluierung auf den Testdaten}
|
||||
Das finale Modell wurde auf den zurückgehaltenen Testdaten (80:20 Split) evaluiert, um die Generalisierungsfähigkeit zu bewerten. Abbildung~\ref{fig:roc_conf} zeigt die ROC-Kurve
|
||||
und die Confusion Matrix der Modellvorhersagen.
|
||||
|
||||
\begin{figure}[H]
|
||||
\centering
|
||||
\includegraphics[width=\textwidth]{fig_roc_conf.png}
|
||||
\caption{ROC-Kurve und Confusion Matrix der Modellevaluation auf Testdaten}
|
||||
\label{fig:roc_conf}
|
||||
\end{figure}
|
||||
|
||||
\noindent
|
||||
Die ROC-Kurve zeigt mit einem AUC-Wert deutlich über 0,5 eine gute Diskriminierungsfähigkeit des Modells gegenüber einem Zufallsklassifikator. Die Confusion Matrix offenbart jedoch
|
||||
ein typisches Klassifikationsproblem: Das Modell erkennt normale Fahrten sehr zuverlässig, hat aber Schwierigkeiten bei der Diebstahlerkennung.
|
||||
|
||||
\noindent
|
||||
\newline
|
||||
Diese Missklassifikation resultiert primär aus der begrenzten Stichprobengröße von 20.000 Beobachtungen bei einer unbalancierten Klassenverteilung (ca. 25\,\% Diebstähle).
|
||||
Das Modell neigt dadurch zur Klassifikation in Richtung der Mehrheitsklasse.
|
||||
|
||||
\section{Güte der Modellparameter}
|
||||
In einem letzten Schritt wurde untersucht, wie verlässlich die Modellschätzung bei unterschiedlicher Datenmenge ist. Insbesondere stellt sich die Frage, welchen Einfluss der
|
||||
Stichprobenumfang $n$ auf die Präzision der geschätzten Regressionskoeffizienten hat. Hierzu wurde ein Monte-Carlo-Simulationsansatz gewählt: Aus der Grundgesamtheit wurden für
|
||||
@@ -314,7 +334,7 @@ Präzision der Koeffizientenschätzung erheblich. Noch größere Datenmengen fü
|
||||
\newline
|
||||
\newline
|
||||
Insgesamt zeigt die Simulation, dass zur zuverlässigen Identifikation kleiner Effekte (wie $\beta_{avg\_speed}\approx0{,}015$) eine ausreichend große Stichprobe notwendig ist.
|
||||
Mit $n \to 50.000$ nähert sich die Streuung einem Wert an, der durch die inhärente Ergebnisvarianz (bedingt durch den Rauschterm $\varepsilon$) begrenzt ist. Für das vorliegende
|
||||
Mit $n \to 50.000$ nähert sich die Streuung einem Wert an. Für das vorliegende
|
||||
Problem bedeutet dies: Je mehr Fahrten der Data Scientist zur Verfügung hat, desto genauer kann er die wahren Fahrerwechsel-Einflüsse schätzen und desto vertrauenswürdiger sind die
|
||||
vom Modell ausgegebenen Diebstahlwahrscheinlichkeiten.
|
||||
|
||||
|
||||
File diff suppressed because one or more lines are too long
Reference in New Issue
Block a user