This commit is contained in:
YannAhlgrim
2025-07-06 10:33:12 +02:00
parent 8b6544e81e
commit e2e0c3a23f
3 changed files with 6 additions and 5 deletions
Binary file not shown.

Before

Width:  |  Height:  |  Size: 49 KiB

After

Width:  |  Height:  |  Size: 48 KiB

@@ -286,7 +286,7 @@ von Stichprobenfluktuation und der unterschiedlichen Dummy-Kodierung:
Effektstärke wurden korrekt erkannt. Effektstärke wurden korrekt erkannt.
\item Schaltverhalten und Geschwindigkeitsüberschreitung weichen von den ursprünglichen Werten ab. Beachtet man aber, dass Schaltverhalten (spät) und Geschwindigkeitsüberschreitung \item Schaltverhalten und Geschwindigkeitsüberschreitung weichen von den ursprünglichen Werten ab. Beachtet man aber, dass Schaltverhalten (spät) und Geschwindigkeitsüberschreitung
(häufig) in der Backward Selection verworfen wurden ist dies nicht überraschend: Schaltverhalten (spät) und Geschwindigkeitsüberschreitung (häufig) haben im erstellten Modell (häufig) in der Backward Selection verworfen wurden ist dies nicht überraschend: Schaltverhalten (spät) und Geschwindigkeitsüberschreitung (häufig) haben im erstellten Modell
einen Koeffizienten von jeweils $-1{,}5$. $-1{,}5$ + $-0{,}8$ (für die anderen Kategorien) ergibt $-2{,}3$. Demnach ist die Schätzung für \texttt{shift\_behavior} und einen Koeffizienten von jeweils $+1{,}5$. Die Differenz der Kategorien: $-0{,}8 - (+1{,}5) = -2{,}3$. Demnach ist die Schätzung für \texttt{shift\_behavior} und
\texttt{speeding} nahezu identisch mit dem wahren Wert. \texttt{speeding} nahezu identisch mit dem wahren Wert.
\end{itemize} \end{itemize}
Somit hat der Data Scientist durch das systematische Vorgehen tatsächlich das zugrunde liegende Modell (bis auf Zufallsschwankungen) wiederentdeckt. Somit hat der Data Scientist durch das systematische Vorgehen tatsächlich das zugrunde liegende Modell (bis auf Zufallsschwankungen) wiederentdeckt.
@@ -307,12 +307,13 @@ und die Confusion Matrix der Modellvorhersagen.
\noindent \noindent
Die ROC-Kurve zeigt mit einem AUC-Wert von 0{,}94 eine sehr gute Diskriminierungsfähigkeit des Modells. Dieser hohe AUC-Wert deutet darauf hin, dass das Modell sehr gut zwischen Die ROC-Kurve zeigt mit einem AUC-Wert von 0{,}94 eine sehr gute Diskriminierungsfähigkeit des Modells. Dieser hohe AUC-Wert deutet darauf hin, dass das Modell sehr gut zwischen
Diebstahl und normalen Fahrten unterscheiden kann. Die Confusion Matrix offenbart dennoch Diebstahl und normalen Fahrten unterscheiden kann. Die Confusion Matrix offenbart dennoch
ein typisches Klassifikationsproblem: Das Modell erkennt normale Fahrten sehr zuverlässig, hat aber Schwierigkeiten bei der Diebstahlerkennung. ein typisches Klassifikationsproblem: Das Modell erkennt normale Fahrten (Mehrheitsklasse) sehr zuverlässig, hat aber teils mehr Schwierigkeiten bei der Diebstahlerkennung
(Minoritätsklasse).
\noindent \noindent
\newline \newline
Diese Missklassifikation resultiert primär aus der begrenzten Stichprobengröße von 20.000 Beobachtungen bei einer unbalancierten Klassenverteilung (ca. 21{,}8\,\% Diebstähle). Diese Missklassifikation resultiert primär aus der begrenzten Stichprobengröße von 20.000 Beobachtungen bei einer unbalancierten Klassenverteilung (ca. 21{,}8\,\% Diebstähle).
Das Modell neigt dadurch zur Klassifikation in Richtung der Mehrheitsklasse. Das Modell neigt dadurch zur Klassifikation in Richtung der Mehrheitsklasse, ist aber dennoch mit 94\,\% Genauigkeit insgesamt sehr performant.
\section{Güte der Modellparameter} \section{Güte der Modellparameter}
In einem letzten Schritt wurde untersucht, wie verlässlich die Modellschätzung bei unterschiedlicher Datenmenge ist. Insbesondere stellt sich die Frage, welchen Einfluss der In einem letzten Schritt wurde untersucht, wie verlässlich die Modellschätzung bei unterschiedlicher Datenmenge ist. Insbesondere stellt sich die Frage, welchen Einfluss der
@@ -325,8 +326,8 @@ und die Verteilungen der resultierenden $\hat{\beta}$-Koeffizienten analysiert.
Untersucht wurde exemplarisch der Koeffizient $\beta_{avg\_speed}$, der Effekt der Durchschnittsgeschwindigkeit. Die Ergebnisse sind in Abbildung~\ref{fig:beta_dist} dargestellt, Untersucht wurde exemplarisch der Koeffizient $\beta_{avg\_speed}$, der Effekt der Durchschnittsgeschwindigkeit. Die Ergebnisse sind in Abbildung~\ref{fig:beta_dist} dargestellt,
welche die Verteilungen von $\hat{\beta}_{avg\_speed}$ für drei verschiedene Stichprobenumfänge gegenüberstellt. Man erkennt deutlich, dass welche die Verteilungen von $\hat{\beta}_{avg\_speed}$ für drei verschiedene Stichprobenumfänge gegenüberstellt. Man erkennt deutlich, dass
mit wachsendem $n$ die Verteilung der Koeffizientenschätzungen immer schmaler wird und sich enger um den wahren Wert konzentriert. Für kleine Stichproben ($n=1000$) mit wachsendem $n$ die Verteilung der Koeffizientenschätzungen immer schmaler wird und sich enger um den wahren Wert konzentriert. Für kleine Stichproben ($n=1000$)
schwanken die geschätzten $\beta$ noch sehr stark -- die Verteilung ist breit und umfasst Werte von nahe -0,01 bis etwa 0,04. Bei mittlerer Stichprobe ($n=11000$) ist die Streuung schwanken die geschätzten $\beta$ noch sehr stark -- die Verteilung ist breit und umfasst Werte von nahe $0{,}200$ bis etwa $0{,}400$. Bei mittlerer Stichprobe ($n=11000$) ist die
bereits deutlich geringer. Im Fall $n=46000$ liegen nahezu alle Schätzungen dicht bei $\beta\approx0{,}3$. Diese Beobachtung entspricht der Streuung bereits deutlich geringer. Im Fall $n=46000$ liegen nahezu alle Schätzungen dicht bei $\beta\approx0{,}3$. Diese Beobachtung entspricht der
erwarteten Verbesserung der Schätzgenauigkeit: Je mehr Daten zur Verfügung stehen, desto weniger zufällig streuen die geschätzten Parameter um den wahren Wert. erwarteten Verbesserung der Schätzgenauigkeit: Je mehr Daten zur Verfügung stehen, desto weniger zufällig streuen die geschätzten Parameter um den wahren Wert.
\begin{figure}[H] \begin{figure}[H]