finished
This commit is contained in:
@@ -286,7 +286,7 @@ von Stichprobenfluktuation und der unterschiedlichen Dummy-Kodierung:
|
||||
Effektstärke wurden korrekt erkannt.
|
||||
\item Schaltverhalten und Geschwindigkeitsüberschreitung weichen von den ursprünglichen Werten ab. Beachtet man aber, dass Schaltverhalten (spät) und Geschwindigkeitsüberschreitung
|
||||
(häufig) in der Backward Selection verworfen wurden ist dies nicht überraschend: Schaltverhalten (spät) und Geschwindigkeitsüberschreitung (häufig) haben im erstellten Modell
|
||||
einen Koeffizienten von jeweils $-1{,}5$. $-1{,}5$ + $-0{,}8$ (für die anderen Kategorien) ergibt $-2{,}3$. Demnach ist die Schätzung für \texttt{shift\_behavior} und
|
||||
einen Koeffizienten von jeweils $+1{,}5$. Die Differenz der Kategorien: $-0{,}8 - (+1{,}5) = -2{,}3$. Demnach ist die Schätzung für \texttt{shift\_behavior} und
|
||||
\texttt{speeding} nahezu identisch mit dem wahren Wert.
|
||||
\end{itemize}
|
||||
Somit hat der Data Scientist durch das systematische Vorgehen tatsächlich das zugrunde liegende Modell (bis auf Zufallsschwankungen) wiederentdeckt.
|
||||
@@ -307,12 +307,13 @@ und die Confusion Matrix der Modellvorhersagen.
|
||||
\noindent
|
||||
Die ROC-Kurve zeigt mit einem AUC-Wert von 0{,}94 eine sehr gute Diskriminierungsfähigkeit des Modells. Dieser hohe AUC-Wert deutet darauf hin, dass das Modell sehr gut zwischen
|
||||
Diebstahl und normalen Fahrten unterscheiden kann. Die Confusion Matrix offenbart dennoch
|
||||
ein typisches Klassifikationsproblem: Das Modell erkennt normale Fahrten sehr zuverlässig, hat aber Schwierigkeiten bei der Diebstahlerkennung.
|
||||
ein typisches Klassifikationsproblem: Das Modell erkennt normale Fahrten (Mehrheitsklasse) sehr zuverlässig, hat aber teils mehr Schwierigkeiten bei der Diebstahlerkennung
|
||||
(Minoritätsklasse).
|
||||
|
||||
\noindent
|
||||
\newline
|
||||
Diese Missklassifikation resultiert primär aus der begrenzten Stichprobengröße von 20.000 Beobachtungen bei einer unbalancierten Klassenverteilung (ca. 21{,}8\,\% Diebstähle).
|
||||
Das Modell neigt dadurch zur Klassifikation in Richtung der Mehrheitsklasse.
|
||||
Das Modell neigt dadurch zur Klassifikation in Richtung der Mehrheitsklasse, ist aber dennoch mit 94\,\% Genauigkeit insgesamt sehr performant.
|
||||
|
||||
\section{Güte der Modellparameter}
|
||||
In einem letzten Schritt wurde untersucht, wie verlässlich die Modellschätzung bei unterschiedlicher Datenmenge ist. Insbesondere stellt sich die Frage, welchen Einfluss der
|
||||
@@ -325,8 +326,8 @@ und die Verteilungen der resultierenden $\hat{\beta}$-Koeffizienten analysiert.
|
||||
Untersucht wurde exemplarisch der Koeffizient $\beta_{avg\_speed}$, der Effekt der Durchschnittsgeschwindigkeit. Die Ergebnisse sind in Abbildung~\ref{fig:beta_dist} dargestellt,
|
||||
welche die Verteilungen von $\hat{\beta}_{avg\_speed}$ für drei verschiedene Stichprobenumfänge gegenüberstellt. Man erkennt deutlich, dass
|
||||
mit wachsendem $n$ die Verteilung der Koeffizientenschätzungen immer schmaler wird und sich enger um den wahren Wert konzentriert. Für kleine Stichproben ($n=1000$)
|
||||
schwanken die geschätzten $\beta$ noch sehr stark -- die Verteilung ist breit und umfasst Werte von nahe -0,01 bis etwa 0,04. Bei mittlerer Stichprobe ($n=11000$) ist die Streuung
|
||||
bereits deutlich geringer. Im Fall $n=46000$ liegen nahezu alle Schätzungen dicht bei $\beta\approx0{,}3$. Diese Beobachtung entspricht der
|
||||
schwanken die geschätzten $\beta$ noch sehr stark -- die Verteilung ist breit und umfasst Werte von nahe $0{,}200$ bis etwa $0{,}400$. Bei mittlerer Stichprobe ($n=11000$) ist die
|
||||
Streuung bereits deutlich geringer. Im Fall $n=46000$ liegen nahezu alle Schätzungen dicht bei $\beta\approx0{,}3$. Diese Beobachtung entspricht der
|
||||
erwarteten Verbesserung der Schätzgenauigkeit: Je mehr Daten zur Verfügung stehen, desto weniger zufällig streuen die geschätzten Parameter um den wahren Wert.
|
||||
|
||||
\begin{figure}[H]
|
||||
|
||||
Reference in New Issue
Block a user