1st iteration notebook/ergebnisbericht

This commit is contained in:
YannAhlgrim
2025-07-05 10:42:12 +02:00
parent 9114073466
commit 6e219b27bf
3 changed files with 121 additions and 134 deletions
@@ -237,21 +237,21 @@ weil sie sich gegenseitig ausschließen (z.\,B. eine 0 für \emph{früh} implizi
\subsection*{Logistische Regression und Variablenselektion} \subsection*{Logistische Regression und Variablenselektion}
Ohne Kenntnis des wahren generativen Modells würde der Data Scientist zunächst alle verfügbaren Variablen als Prädiktoren in ein Modell einbeziehen. Daher wurde auf den Ohne Kenntnis des wahren generativen Modells würde der Data Scientist zunächst alle verfügbaren Variablen als Prädiktoren in ein Modell einbeziehen. Daher wurde auf den
Trainingsdaten eine logistische Regressionsanalyse mit allen 8 ursprünglichen Merkmalen Trainingsdaten eine logistische Regressionsanalyse mit allen 8 ursprünglichen Merkmalen
durchgeführt. Dieses initiale Modell zeigte erwartungsgemäß, dass einige Prädiktoren keinen signifikanten Einfluss besitzen. Ein schrittweises Selektionsverfahren durchgeführt. Um ein optimales Modell zu finden wurde ein schrittweises Selektionsverfahren
(Backward Selection) wurde angewandt, um ein optimales Modell zu finden: beginnend mit dem vollen Modell wurden die am wenigsten signifikanten Variablen sukzessive (Backward Selection) angewandt: beginnend mit dem vollen Modell wurden die am wenigsten signifikanten Variablen sukzessive
entfernt, bis nur noch prädiktive (p-Wert $<0,05$) Variablen verblieben. entfernt, bis nur noch prädiktive (p-Wert $<0,05$) Variablen verblieben.
\noindent \noindent
\newline \newline
Das Ergebnis der Variablenselektion war, dass genau die 4 fachlich erwarteten Einflüsse im Modell verblieben, während die irrelevanten Merkmale entfernt wurden. Konkret Das Ergebnis der Variablenselektion war, dass genau die 4 fachlich erwarteten Einflüsse im Modell verblieben, während die irrelevanten Merkmale entfernt wurden. Es
blieben \texttt{avg\_speed}, \texttt{hard\_brakes}, \texttt{shift\_behavior} (mit zwei Dummy-Variablen) und \texttt{speeding} (ebenfalls zwei Dummies) im finalen Modell. blieben \texttt{avg\_speed}, \texttt{hard\_brakes}, \texttt{shift\_behavior} (mit zwei Dummy-Variablen) und \texttt{speeding} (ebenfalls zwei Dummies) im finalen Modell.
Ausgeschlossen wurden dagegen \texttt{weather}, \texttt{trip\_distance}, \texttt{road\_type} und \texttt{weekday}, da deren Effekt auf die Zielvariable statistisch insignifikant Ausgeschlossen wurden dagegen \texttt{weather}, \texttt{trip\_distance}, \texttt{road\_type} und \texttt{weekday}, da deren Effekt auf die Zielvariable statistisch insignifikant
war (p-Werte weit über 0,1). Dieses Resultat deckt sich mit der Konstruktion der Daten: Die irrelevanten Kontextvariablen bieten keine Erklärungskraft und wurden richtigerweise war. Dieses Resultat deckt sich mit der Konstruktion der Daten: Die irrelevanten Kontextvariablen bieten keine Erklärungskraft und wurden richtigerweise
vom modellselektiven Ansatz eliminiert. von der Backwards Selection eliminiert.
\noindent \noindent
\newline \newline
Das \textbf{finale Regressionsmodell} wurde anschließend neu auf der gesamten Stichprobe ($n=20.000$) geschätzt. Die geschätzten Regressionskoeffizienten Die geschätzten Regressionskoeffizienten des finalen Modells
(im Folgenden $\hat{\beta}$) stimmten weitgehend mit den wahren Werten aus dem Generierungsmodell überein. Insbesondere waren alle verbleibenden Prädiktoren hochsignifikant (im Folgenden $\hat{\beta}$) stimmten weitgehend mit den wahren Werten aus dem Generierungsmodell überein. Insbesondere waren alle verbleibenden Prädiktoren hochsignifikant
($p<0,001$). Ein Vergleich der Koeffizienten zeigt nur geringe Abweichungen aufgrund von Stichprobenfluktuation: ($p<0,001$). Ein Vergleich der Koeffizienten zeigt nur geringe Abweichungen aufgrund von Stichprobenfluktuation:
\begin{itemize} \begin{itemize}
@@ -267,16 +267,10 @@ Das \textbf{finale Regressionsmodell} wurde anschließend neu auf der gesamten S
Im generativen Modell hatten die Referenzkategorien \emph{spät} und \emph{häufig} jeweils einen positiven Beitrag von $+0{,}5$, Im generativen Modell hatten die Referenzkategorien \emph{spät} und \emph{häufig} jeweils einen positiven Beitrag von $+0{,}5$,
welcher im geschätzten Modell im Interzept aufgefangen wird. Berücksichtigt man diese Verschiebung, liegt der Interzept im Rahmen. welcher im geschätzten Modell im Interzept aufgefangen wird. Berücksichtigt man diese Verschiebung, liegt der Interzept im Rahmen.
\end{itemize} \end{itemize}
Somit hat der Data Scientist durch das systematische Vorgehen tatsächlich \textbf{das zugrunde liegende Modell (bis auf Zufallsschwankungen) wiederentdeckt}. Somit hat der Data Scientist durch das systematische Vorgehen tatsächlich das zugrunde liegende Modell (bis auf Zufallsschwankungen) wiederentdeckt.
Insbesondere wurden keine falschen Variablen im Endmodell behalten und keine echten Einflüsse übersehen. Die logistische Regressionsgleichung aus der Stichprobe stimmt inhaltlich Insbesondere wurden keine falschen Variablen im Endmodell behalten und keine echten Einflüsse übersehen. Die logistische Regressionsgleichung aus der Stichprobe stimmt inhaltlich
mit der zur Datengenerierung überein. mit der zur Datengenerierung überein.
\noindent
\newline
Abschließend wurde die Güte des Modells anhand der Testdaten (30\,\% der Stichprobe) überprüft. Die Vorhersagen der Diebstahlwahrscheinlichkeit zeigten eine gute Trennschärfe
zwischen Diebstahl- und Normalfahrten (AUC $>0,8$; ca.~77\,\% richtige Klassifikationen bei geeignetem Schwellenwert). Dies verdeutlicht, dass die identifizierten Merkmale
tatsächlich die Variation in der Zielvariable erklären können.
\section{Güte der Modellparameter} \section{Güte der Modellparameter}
In einem letzten Schritt wurde untersucht, wie verlässlich die Modellschätzung bei unterschiedlicher Datenmenge ist. Insbesondere stellt sich die Frage, welchen Einfluss der In einem letzten Schritt wurde untersucht, wie verlässlich die Modellschätzung bei unterschiedlicher Datenmenge ist. Insbesondere stellt sich die Frage, welchen Einfluss der
Stichprobenumfang $n$ auf die Präzision der geschätzten Regressionskoeffizienten hat. Hierzu wurde ein Monte-Carlo-Simulationsansatz gewählt: Aus der Grundgesamtheit wurden für Stichprobenumfang $n$ auf die Präzision der geschätzten Regressionskoeffizienten hat. Hierzu wurde ein Monte-Carlo-Simulationsansatz gewählt: Aus der Grundgesamtheit wurden für
@@ -287,38 +281,38 @@ und die Verteilungen der resultierenden $\hat{\beta}$-Koeffizienten analysiert.
\newline \newline
Untersucht wurde exemplarisch der Koeffizient $\beta_{avg\_speed}$, der Effekt der Durchschnittsgeschwindigkeit. Die Ergebnisse sind in Abbildung~\ref{fig:beta_dist} dargestellt, Untersucht wurde exemplarisch der Koeffizient $\beta_{avg\_speed}$, der Effekt der Durchschnittsgeschwindigkeit. Die Ergebnisse sind in Abbildung~\ref{fig:beta_dist} dargestellt,
welche die Verteilungen von $\hat{\beta}_{avg\_speed}$ für drei verschiedene Stichprobenumfänge gegenüberstellt. Man erkennt deutlich, dass welche die Verteilungen von $\hat{\beta}_{avg\_speed}$ für drei verschiedene Stichprobenumfänge gegenüberstellt. Man erkennt deutlich, dass
\textbf{mit wachsendem $n$ die Verteilung der Koeffizientenschätzungen immer schmaler wird} und sich enger um den wahren Wert konzentriert. Für kleine Stichproben ($n=1000$) mit wachsendem $n$ die Verteilung der Koeffizientenschätzungen immer schmaler wird und sich enger um den wahren Wert konzentriert. Für kleine Stichproben ($n=1000$)
schwanken die geschätzten $\beta$ noch sehr stark -- die Verteilung ist breit und umfasst Werte von nahe 0 bis etwa 0,03. Bei mittlerer Stichprobe ($n=11000$) ist die Streuung schwanken die geschätzten $\beta$ noch sehr stark -- die Verteilung ist breit und umfasst Werte von nahe -0,01 bis etwa 0,04. Bei mittlerer Stichprobe ($n=11000$) ist die Streuung
bereits deutlich geringer. Im Fall $n=46000$ liegen nahezu alle Schätzungen dicht bei $\beta\approx0{,}015$; die Kurve ist stark konzentriert. Diese Beobachtung entspricht der bereits deutlich geringer. Im Fall $n=46000$ liegen nahezu alle Schätzungen dicht bei $\beta\approx0{,}015$. Diese Beobachtung entspricht der
erwarteten Verbesserung der Schätzgenauigkeit: Je mehr Daten zur Verfügung stehen, desto weniger zufällig streuen die geschätzten Parameter um den wahren Wert. erwarteten Verbesserung der Schätzgenauigkeit: Je mehr Daten zur Verfügung stehen, desto weniger zufällig streuen die geschätzten Parameter um den wahren Wert.
\begin{figure}[h] \begin{figure}[H]
\centering \centering
\includegraphics[width=0.8\textwidth]{fig_beta_distribution.png} \includegraphics[width=0.8\textwidth]{fig_beta_distribution.png}
\caption{Verteilungen des geschätzten Koeffizienten $\hat{\beta}_{avg\_speed}$ aus 1000 Simulationen für drei Stichprobenumfänge ($n=1000$, $n=11000$, $n=46000$). Mit größerem $n$ \caption{Verteilungen des geschätzten Koeffizienten $\hat{\beta}_{avg\_speed}$ aus 1000 Simulationen für drei Stichprobenumfänge ($n=1000$, $n=11000$, $n=46000$)}
wird die Verteilung deutlich schmaler und konzentriert sich stärker um den wahren Wert ($\beta_{avg\_speed}=0{,}015$, gestrichelte Linie).}
\label{fig:beta_dist} \label{fig:beta_dist}
\end{figure} \end{figure}
\noindent \noindent
\newline \newline
Zur Quantifizierung wurde für jede Stichprobengröße $n$ die \textbf{empirische Standardabweichung} der $\hat{\beta}_{avg\_speed}$-Schätzungen aus den 1000 Wiederholungen bestimmt. Zur Quantifizierung wurde für jede Stichprobengröße $n$ die empirische Standardabweichung der $\hat{\beta}_{avg\_speed}$-Schätzungen aus den 1000 Wiederholungen bestimmt.
Abbildung~\ref{fig:std_n} zeigt die Entwicklung dieser Streuung in Abhängigkeit von $n$. Deutlich ist ein abnehmender Verlauf erkennbar. Die Kurve folgt näherungsweise der Abbildung~\ref{fig:std_n} zeigt die Entwicklung dieser Streuung in Abhängigkeit von $n$. Deutlich ist ein abnehmender Verlauf erkennbar. Die Kurve folgt näherungsweise der
theoretischen Proportionalität $\sigma(\hat{\beta}) \sim \frac{1}{\sqrt{n}}$ (rot eingezeichnet). Die in der Simulation gemessenen Werte (blaue Punkte) liegen dicht auf der theoretischen Proportionalität $\sigma(\hat{\beta}) \sim \frac{1}{\sqrt{n}}$ (rot eingezeichnet). Die in der Simulation gemessenen Werte (blaue Punkte) liegen dicht auf der
$1/\sqrt{n}$-Linie, was die theoretische Erwartung bestätigt. $1/\sqrt{n}$-Linie, was die theoretische Erwartung bestätigt.
\begin{figure}[h] \begin{figure}[H]
\centering \centering
\includegraphics[width=0.8\textwidth]{fig_std_vs_n.png} \includegraphics[width=0.8\textwidth]{fig_std_vs_n.png}
\caption{Standardabweichung von $\hat{\beta}_{avg\_speed}$ in Abhängigkeit des Stichprobenumfangs $n$. Gezeigte Punkte basieren auf $k=1000$ Simulationen je Umfang; die rote Kurve \caption{Standardabweichung von $\hat{\beta}_{avg\_speed}$ in Abhängigkeit des Stichprobenumfangs $n$}
visualisiert ein $1/\sqrt{n}$-Gesetz. Man erkennt, dass die Streuung der Schätzungen mit wachsendem $n$ deutlich abnimmt und sich näherungsweise nach $\propto n^{-1/2}$ verhält.}
\label{fig:std_n} \label{fig:std_n}
\end{figure} \end{figure}
\noindent \noindent
\newline \newline
Diese Ergebnisse illustrieren den wichtigen Zusammenhang zwischen Datenmenge und \textbf{Modelllernqualität}. Bereits zwischen $n=1000$ und $n=10000$ verbessert sich die Diese Ergebnisse illustrieren den wichtigen Zusammenhang zwischen Datenmenge und Lernqualität des Modells. Bereits zwischen $n=1000$ und $n=10000$ verbessert sich die
Präzision der Koeffizientenschätzung erheblich. Noch größere Datenmengen führen zu weiter sinkender Unsicherheit, allerdings mit abnehmendem Grenznutzen (die Kurve flacht ab). Präzision der Koeffizientenschätzung erheblich. Noch größere Datenmengen führen zu weiter sinkender Unsicherheit, allerdings mit abnehmendem Grenznutzen (die Kurve flacht ab).
\newline
\newline
Insgesamt zeigt die Simulation, dass zur zuverlässigen Identifikation kleiner Effekte (wie $\beta_{avg\_speed}\approx0{,}015$) eine ausreichend große Stichprobe notwendig ist. Insgesamt zeigt die Simulation, dass zur zuverlässigen Identifikation kleiner Effekte (wie $\beta_{avg\_speed}\approx0{,}015$) eine ausreichend große Stichprobe notwendig ist.
Mit $n \to 50.000$ nähert sich die Streuung einem Wert an, der durch die inhärente Ergebnisvarianz (bedingt durch den Rauschterm $\varepsilon$) begrenzt ist. Für das vorliegende Mit $n \to 50.000$ nähert sich die Streuung einem Wert an, der durch die inhärente Ergebnisvarianz (bedingt durch den Rauschterm $\varepsilon$) begrenzt ist. Für das vorliegende
Problem bedeutet dies: Je mehr Fahrten der Data Scientist zur Verfügung hat, desto genauer kann er die wahren Fahrerwechsel-Einflüsse schätzen und desto vertrauenswürdiger sind die Problem bedeutet dies: Je mehr Fahrten der Data Scientist zur Verfügung hat, desto genauer kann er die wahren Fahrerwechsel-Einflüsse schätzen und desto vertrauenswürdiger sind die
File diff suppressed because one or more lines are too long