3rd iteration
This commit is contained in:
Binary file not shown.
|
Before Width: | Height: | Size: 36 KiB After Width: | Height: | Size: 34 KiB |
Binary file not shown.
|
Before Width: | Height: | Size: 24 KiB After Width: | Height: | Size: 22 KiB |
Binary file not shown.
@@ -12,7 +12,7 @@
|
|||||||
\addbibresource{references.bib}
|
\addbibresource{references.bib}
|
||||||
|
|
||||||
\title{Simulationsstudie: Diebstahlerkennung eines Autos in~Echtzeit}
|
\title{Simulationsstudie: Diebstahlerkennung eines Autos in~Echtzeit}
|
||||||
\author{Yann Ahlgrim}
|
\author{Yann Ahlgrim\\Matrikelnummer: 818296}
|
||||||
\date{\today}
|
\date{\today}
|
||||||
|
|
||||||
\begin{document}
|
\begin{document}
|
||||||
@@ -166,12 +166,12 @@ Wochentag (alle Kategorien) & $0{,}00$ \\
|
|||||||
|
|
||||||
\noindent
|
\noindent
|
||||||
Durch die gewählten $\beta$-Gewichte resultiert eine Verteilung der Zielvariable, bei der Diebstahl relativ selten vorkommt, aber nicht vernachlässigbar: Im generierten
|
Durch die gewählten $\beta$-Gewichte resultiert eine Verteilung der Zielvariable, bei der Diebstahl relativ selten vorkommt, aber nicht vernachlässigbar: Im generierten
|
||||||
Datensatz sind etwa 23\,\% der Fahrten als Diebstahl deklariert worden (d.\,h. $Y=1$ in 229.973 von 1.000.000 Fällen), was in Abb.~\ref{fig:target_dist} dargestellt ist.
|
Datensatz sind etwa 30\,\% der Fahrten als Diebstahl deklariert worden (d.\,h. $Y=1$ in 301381 von 1.000.000 Fällen), was in Abb.~\ref{fig:target_dist} dargestellt ist.
|
||||||
Diebstähle sollen deutlich seltener als normale Fahrten sein,
|
Diebstähle sollen deutlich seltener als normale Fahrten sein,
|
||||||
jedoch häufig genug, um ein Modell daran zu trainieren.
|
jedoch häufig genug, um ein Modell daran zu trainieren.
|
||||||
\newline
|
\newline
|
||||||
\newline
|
\newline
|
||||||
Die zugrunde liegenden individuellen Diebstahl-Wahrscheinlichkeiten $p_i$ waren überwiegend niedrig: Im Mittel ergaben sich $\bar{p} \approx 0,23$ und eine rechtsschiefe Verteilung
|
Die zugrunde liegenden individuellen Diebstahl-Wahrscheinlichkeiten $p_i$ waren überwiegend niedrig: Im Mittel ergaben sich $\bar{p} \approx 0,30$ und eine rechtsschiefe Verteilung
|
||||||
der $p_i$ über alle Fahrten (siehe Abb.~\ref{fig:fig_pi_dist}).
|
der $p_i$ über alle Fahrten (siehe Abb.~\ref{fig:fig_pi_dist}).
|
||||||
|
|
||||||
\begin{figure}[H]
|
\begin{figure}[H]
|
||||||
@@ -197,7 +197,7 @@ Variablenselektion optimieren. Abschließend würde er die Modellgüte bewerten.
|
|||||||
Zunächst wurde die Stichprobe auf Vollständigkeit und Ausreißer geprüft. Es traten keine fehlenden Werte auf (da simuliert). Ein \emph{Abgleich der Verteilungen} bestätigte,
|
Zunächst wurde die Stichprobe auf Vollständigkeit und Ausreißer geprüft. Es traten keine fehlenden Werte auf (da simuliert). Ein \emph{Abgleich der Verteilungen} bestätigte,
|
||||||
dass die Stichprobe die Grundgesamtheits-Charakteristika widerspiegelt. Beispielsweise sind die Verteilungen der metrischen Variablen in Abb.~\ref{fig:dist_vars} dargestellt
|
dass die Stichprobe die Grundgesamtheits-Charakteristika widerspiegelt. Beispielsweise sind die Verteilungen der metrischen Variablen in Abb.~\ref{fig:dist_vars} dargestellt
|
||||||
(Histogramme und Boxplots): Man erkennt die angenommene Normalverteilung der \texttt{avg\_speed} (mit Mittelwert ca.~47~km/h), die rechtschiefe Poisson-Verteilung von
|
(Histogramme und Boxplots): Man erkennt die angenommene Normalverteilung der \texttt{avg\_speed} (mit Mittelwert ca.~47~km/h), die rechtschiefe Poisson-Verteilung von
|
||||||
\texttt{hard\_brakes} (häufig 0 oder 1 harte Bremsung, selten mehr) und die ausgeprägte Schiefe der lognormal verteilten \texttt{trip\_distance} (viele kurze Fahrten, wenige sehr
|
\texttt{hard\_brakes} (häufig 1 oder 2 harte Bremsung, selten mehr) und die ausgeprägte Schiefe der lognormal verteilten \texttt{trip\_distance} (viele kurze Fahrten, wenige sehr
|
||||||
lange). Die Boxplots zeigen, dass es bei \texttt{trip\_distance} einige Ausreißer (sehr lange Fahrten) gibt, während \texttt{avg\_speed} symmetrisch verteilt ist.
|
lange). Die Boxplots zeigen, dass es bei \texttt{trip\_distance} einige Ausreißer (sehr lange Fahrten) gibt, während \texttt{avg\_speed} symmetrisch verteilt ist.
|
||||||
\begin{figure}[H]
|
\begin{figure}[H]
|
||||||
\centering
|
\centering
|
||||||
@@ -252,20 +252,20 @@ von der Backwards Selection eliminiert.
|
|||||||
\noindent
|
\noindent
|
||||||
\newline
|
\newline
|
||||||
Die geschätzten Regressionskoeffizienten des finalen Modells
|
Die geschätzten Regressionskoeffizienten des finalen Modells
|
||||||
(im Folgenden $\hat{\beta}$) stimmten weitgehend mit den wahren Werten aus dem Generierungsmodell überein. Insbesondere waren alle verbleibenden Prädiktoren hochsignifikant
|
(im Folgenden $\hat{\beta}$) stimmten weitgehend mit den wahren Werten aus dem Generierungsmodell überein. Ein Vergleich der Koeffizienten zeigt nur geringe Abweichungen aufgrund
|
||||||
($p<0,001$). Ein Vergleich der Koeffizienten zeigt nur geringe Abweichungen aufgrund von Stichprobenfluktuation:
|
von Stichprobenfluktuation:
|
||||||
\begin{itemize}
|
\begin{itemize}
|
||||||
\item Für \texttt{avg\_speed} ergab sich $\hat{\beta}_{avg\_speed} \approx 0{,}0174$ (gegenüber wahr $0{,}015$). Dieser leichte Überschätzung ist mit dem Stichprobenzufall
|
\item Für \texttt{avg\_speed} ergab sich $\hat{\beta}_{avg\_speed} \approx 0{,}0189$ (gegenüber wahr $0{,}015$). Dieser leichte Überschätzung ist mit dem Stichprobenzufall
|
||||||
erklärbar, liegt aber in derselben Größenordnung.
|
erklärbar, liegt aber in derselben Größenordnung.
|
||||||
\item Für \texttt{hard\_brakes} wurde $\hat{\beta}_{hard\_brakes} \approx 0{,}0817$ geschätzt (wahr $0{,}10$). Auch hier ist der Unterschied gering; das Vorzeichen und die
|
\item Für \texttt{hard\_brakes} wurde $\hat{\beta}_{hard\_brakes} \approx 0{,}0966$ geschätzt (wahr $0{,}10$). Auch hier ist der Unterschied gering; das Vorzeichen und die
|
||||||
Effektstärke (positiv, deutlicher Einfluss) wurden korrekt erkannt.
|
Effektstärke (positiv, deutlicher Einfluss) wurden korrekt erkannt.
|
||||||
\item Die Dummyeffekte für das Schaltverhalten wurden zu $\hat{\beta}_{frueh} \approx -0{,}815$ und $\hat{\beta}_{normal} \approx -0{,}808$ geschätzt (Referenz \emph{spät}
|
\item Die Dummyeffekte für das Schaltverhalten wurden zu $\hat{\beta}_{frueh} \approx -0{,}7952$ und $\hat{\beta}_{normal} \approx -0{,}8065$ geschätzt (Referenz \emph{spät}
|
||||||
mit $\hat{\beta}_{spaet} = 0$). Die wahren Unterschiede (Früh/Normal vs.~Spät) betrugen $-0{,}8$. Somit liegen die Schätzungen praktisch genau auf den erwarteten Werten.
|
mit $\hat{\beta}_{spaet} = 0$). Die wahren Unterschiede (Früh/Normal vs.~Spät) betrugen $-0{,}8$. Somit liegen die Schätzungen praktisch genau auf den erwarteten Werten.
|
||||||
\item Für die Speeding-Kategorien ergaben sich $\hat{\beta}_{selten} \approx -0{,}834$ und \newline $\hat{\beta}_{manchmal} \approx -0{,}834$ (Referenz \emph{häufig}).
|
\item Für die Speeding-Kategorien ergaben sich $\hat{\beta}_{selten} \approx -0{,}4647$ und \newline $\hat{\beta}_{manchmal} \approx -0{,}5039$ (Referenz \emph{häufig}).
|
||||||
Die wahren Unterschiede zu \emph{häufig} waren $-0{,}8$. Auch hier stimmen Richtung und Größe nahezu überein.
|
Die wahren Unterschiede zu \emph{häufig} waren $-0{,}8$. Hier stimmt das Vorzeichen, aber die Schätzungen sind etwas höher als erwartet.
|
||||||
\item Den Interzept schätzte das Modell mit $\hat{\beta}_{0} \approx -1{,}05$ (wahr $-2$). Diese Abweichung erklärt sich durch die Dummy-Kodierung der Kategorien:
|
\item Den Interzept schätzte das Modell mit $\hat{\beta}_{0} \approx -1{,}175$ (wahr $-2$). Diese Abweichung erklärt sich durch die Dummy-Kodierung der Kategorien:
|
||||||
Im generativen Modell hatten die Referenzkategorien \emph{spät} und \emph{häufig} jeweils einen positiven Beitrag von $+0{,}5$,
|
Im generativen Modell hatten die Referenzkategorien \emph{spät} und \emph{häufig} jeweils einen positiven Beitrag,
|
||||||
welcher im geschätzten Modell im Interzept aufgefangen wird. Berücksichtigt man diese Verschiebung, liegt der Interzept im Rahmen.
|
welcher im geschätzten Modell im Interzept aufgefangen wird. Berücksichtigt man diese Verschiebung, liegt der Interzept ungefähr im Rahmen.
|
||||||
\end{itemize}
|
\end{itemize}
|
||||||
Somit hat der Data Scientist durch das systematische Vorgehen tatsächlich das zugrunde liegende Modell (bis auf Zufallsschwankungen) wiederentdeckt.
|
Somit hat der Data Scientist durch das systematische Vorgehen tatsächlich das zugrunde liegende Modell (bis auf Zufallsschwankungen) wiederentdeckt.
|
||||||
Insbesondere wurden keine falschen Variablen im Endmodell behalten und keine echten Einflüsse übersehen. Die logistische Regressionsgleichung aus der Stichprobe stimmt inhaltlich
|
Insbesondere wurden keine falschen Variablen im Endmodell behalten und keine echten Einflüsse übersehen. Die logistische Regressionsgleichung aus der Stichprobe stimmt inhaltlich
|
||||||
@@ -288,7 +288,7 @@ ein typisches Klassifikationsproblem: Das Modell erkennt normale Fahrten sehr zu
|
|||||||
|
|
||||||
\noindent
|
\noindent
|
||||||
\newline
|
\newline
|
||||||
Diese Missklassifikation resultiert primär aus der begrenzten Stichprobengröße von 20.000 Beobachtungen bei einer unbalancierten Klassenverteilung (ca. 25\,\% Diebstähle).
|
Diese Missklassifikation resultiert primär aus der begrenzten Stichprobengröße von 20.000 Beobachtungen bei einer unbalancierten Klassenverteilung (ca. 30\,\% Diebstähle).
|
||||||
Das Modell neigt dadurch zur Klassifikation in Richtung der Mehrheitsklasse.
|
Das Modell neigt dadurch zur Klassifikation in Richtung der Mehrheitsklasse.
|
||||||
|
|
||||||
\section{Güte der Modellparameter}
|
\section{Güte der Modellparameter}
|
||||||
|
|||||||
File diff suppressed because it is too large
Load Diff
Reference in New Issue
Block a user