1st iteration notebook/ergebnisbericht
This commit is contained in:
Binary file not shown.
@@ -237,21 +237,21 @@ weil sie sich gegenseitig ausschließen (z.\,B. eine 0 für \emph{früh} implizi
|
|||||||
\subsection*{Logistische Regression und Variablenselektion}
|
\subsection*{Logistische Regression und Variablenselektion}
|
||||||
Ohne Kenntnis des wahren generativen Modells würde der Data Scientist zunächst alle verfügbaren Variablen als Prädiktoren in ein Modell einbeziehen. Daher wurde auf den
|
Ohne Kenntnis des wahren generativen Modells würde der Data Scientist zunächst alle verfügbaren Variablen als Prädiktoren in ein Modell einbeziehen. Daher wurde auf den
|
||||||
Trainingsdaten eine logistische Regressionsanalyse mit allen 8 ursprünglichen Merkmalen
|
Trainingsdaten eine logistische Regressionsanalyse mit allen 8 ursprünglichen Merkmalen
|
||||||
durchgeführt. Dieses initiale Modell zeigte erwartungsgemäß, dass einige Prädiktoren keinen signifikanten Einfluss besitzen. Ein schrittweises Selektionsverfahren
|
durchgeführt. Um ein optimales Modell zu finden wurde ein schrittweises Selektionsverfahren
|
||||||
(Backward Selection) wurde angewandt, um ein optimales Modell zu finden: beginnend mit dem vollen Modell wurden die am wenigsten signifikanten Variablen sukzessive
|
(Backward Selection) angewandt: beginnend mit dem vollen Modell wurden die am wenigsten signifikanten Variablen sukzessive
|
||||||
entfernt, bis nur noch prädiktive (p-Wert $<0,05$) Variablen verblieben.
|
entfernt, bis nur noch prädiktive (p-Wert $<0,05$) Variablen verblieben.
|
||||||
|
|
||||||
\noindent
|
\noindent
|
||||||
\newline
|
\newline
|
||||||
Das Ergebnis der Variablenselektion war, dass genau die 4 fachlich erwarteten Einflüsse im Modell verblieben, während die irrelevanten Merkmale entfernt wurden. Konkret
|
Das Ergebnis der Variablenselektion war, dass genau die 4 fachlich erwarteten Einflüsse im Modell verblieben, während die irrelevanten Merkmale entfernt wurden. Es
|
||||||
blieben \texttt{avg\_speed}, \texttt{hard\_brakes}, \texttt{shift\_behavior} (mit zwei Dummy-Variablen) und \texttt{speeding} (ebenfalls zwei Dummies) im finalen Modell.
|
blieben \texttt{avg\_speed}, \texttt{hard\_brakes}, \texttt{shift\_behavior} (mit zwei Dummy-Variablen) und \texttt{speeding} (ebenfalls zwei Dummies) im finalen Modell.
|
||||||
Ausgeschlossen wurden dagegen \texttt{weather}, \texttt{trip\_distance}, \texttt{road\_type} und \texttt{weekday}, da deren Effekt auf die Zielvariable statistisch insignifikant
|
Ausgeschlossen wurden dagegen \texttt{weather}, \texttt{trip\_distance}, \texttt{road\_type} und \texttt{weekday}, da deren Effekt auf die Zielvariable statistisch insignifikant
|
||||||
war (p-Werte weit über 0,1). Dieses Resultat deckt sich mit der Konstruktion der Daten: Die irrelevanten Kontextvariablen bieten keine Erklärungskraft und wurden richtigerweise
|
war. Dieses Resultat deckt sich mit der Konstruktion der Daten: Die irrelevanten Kontextvariablen bieten keine Erklärungskraft und wurden richtigerweise
|
||||||
vom modellselektiven Ansatz eliminiert.
|
von der Backwards Selection eliminiert.
|
||||||
|
|
||||||
\noindent
|
\noindent
|
||||||
\newline
|
\newline
|
||||||
Das \textbf{finale Regressionsmodell} wurde anschließend neu auf der gesamten Stichprobe ($n=20.000$) geschätzt. Die geschätzten Regressionskoeffizienten
|
Die geschätzten Regressionskoeffizienten des finalen Modells
|
||||||
(im Folgenden $\hat{\beta}$) stimmten weitgehend mit den wahren Werten aus dem Generierungsmodell überein. Insbesondere waren alle verbleibenden Prädiktoren hochsignifikant
|
(im Folgenden $\hat{\beta}$) stimmten weitgehend mit den wahren Werten aus dem Generierungsmodell überein. Insbesondere waren alle verbleibenden Prädiktoren hochsignifikant
|
||||||
($p<0,001$). Ein Vergleich der Koeffizienten zeigt nur geringe Abweichungen aufgrund von Stichprobenfluktuation:
|
($p<0,001$). Ein Vergleich der Koeffizienten zeigt nur geringe Abweichungen aufgrund von Stichprobenfluktuation:
|
||||||
\begin{itemize}
|
\begin{itemize}
|
||||||
@@ -267,16 +267,10 @@ Das \textbf{finale Regressionsmodell} wurde anschließend neu auf der gesamten S
|
|||||||
Im generativen Modell hatten die Referenzkategorien \emph{spät} und \emph{häufig} jeweils einen positiven Beitrag von $+0{,}5$,
|
Im generativen Modell hatten die Referenzkategorien \emph{spät} und \emph{häufig} jeweils einen positiven Beitrag von $+0{,}5$,
|
||||||
welcher im geschätzten Modell im Interzept aufgefangen wird. Berücksichtigt man diese Verschiebung, liegt der Interzept im Rahmen.
|
welcher im geschätzten Modell im Interzept aufgefangen wird. Berücksichtigt man diese Verschiebung, liegt der Interzept im Rahmen.
|
||||||
\end{itemize}
|
\end{itemize}
|
||||||
Somit hat der Data Scientist durch das systematische Vorgehen tatsächlich \textbf{das zugrunde liegende Modell (bis auf Zufallsschwankungen) wiederentdeckt}.
|
Somit hat der Data Scientist durch das systematische Vorgehen tatsächlich das zugrunde liegende Modell (bis auf Zufallsschwankungen) wiederentdeckt.
|
||||||
Insbesondere wurden keine falschen Variablen im Endmodell behalten und keine echten Einflüsse übersehen. Die logistische Regressionsgleichung aus der Stichprobe stimmt inhaltlich
|
Insbesondere wurden keine falschen Variablen im Endmodell behalten und keine echten Einflüsse übersehen. Die logistische Regressionsgleichung aus der Stichprobe stimmt inhaltlich
|
||||||
mit der zur Datengenerierung überein.
|
mit der zur Datengenerierung überein.
|
||||||
|
|
||||||
\noindent
|
|
||||||
\newline
|
|
||||||
Abschließend wurde die Güte des Modells anhand der Testdaten (30\,\% der Stichprobe) überprüft. Die Vorhersagen der Diebstahlwahrscheinlichkeit zeigten eine gute Trennschärfe
|
|
||||||
zwischen Diebstahl- und Normalfahrten (AUC $>0,8$; ca.~77\,\% richtige Klassifikationen bei geeignetem Schwellenwert). Dies verdeutlicht, dass die identifizierten Merkmale
|
|
||||||
tatsächlich die Variation in der Zielvariable erklären können.
|
|
||||||
|
|
||||||
\section{Güte der Modellparameter}
|
\section{Güte der Modellparameter}
|
||||||
In einem letzten Schritt wurde untersucht, wie verlässlich die Modellschätzung bei unterschiedlicher Datenmenge ist. Insbesondere stellt sich die Frage, welchen Einfluss der
|
In einem letzten Schritt wurde untersucht, wie verlässlich die Modellschätzung bei unterschiedlicher Datenmenge ist. Insbesondere stellt sich die Frage, welchen Einfluss der
|
||||||
Stichprobenumfang $n$ auf die Präzision der geschätzten Regressionskoeffizienten hat. Hierzu wurde ein Monte-Carlo-Simulationsansatz gewählt: Aus der Grundgesamtheit wurden für
|
Stichprobenumfang $n$ auf die Präzision der geschätzten Regressionskoeffizienten hat. Hierzu wurde ein Monte-Carlo-Simulationsansatz gewählt: Aus der Grundgesamtheit wurden für
|
||||||
@@ -287,38 +281,38 @@ und die Verteilungen der resultierenden $\hat{\beta}$-Koeffizienten analysiert.
|
|||||||
\newline
|
\newline
|
||||||
Untersucht wurde exemplarisch der Koeffizient $\beta_{avg\_speed}$, der Effekt der Durchschnittsgeschwindigkeit. Die Ergebnisse sind in Abbildung~\ref{fig:beta_dist} dargestellt,
|
Untersucht wurde exemplarisch der Koeffizient $\beta_{avg\_speed}$, der Effekt der Durchschnittsgeschwindigkeit. Die Ergebnisse sind in Abbildung~\ref{fig:beta_dist} dargestellt,
|
||||||
welche die Verteilungen von $\hat{\beta}_{avg\_speed}$ für drei verschiedene Stichprobenumfänge gegenüberstellt. Man erkennt deutlich, dass
|
welche die Verteilungen von $\hat{\beta}_{avg\_speed}$ für drei verschiedene Stichprobenumfänge gegenüberstellt. Man erkennt deutlich, dass
|
||||||
\textbf{mit wachsendem $n$ die Verteilung der Koeffizientenschätzungen immer schmaler wird} und sich enger um den wahren Wert konzentriert. Für kleine Stichproben ($n=1000$)
|
mit wachsendem $n$ die Verteilung der Koeffizientenschätzungen immer schmaler wird und sich enger um den wahren Wert konzentriert. Für kleine Stichproben ($n=1000$)
|
||||||
schwanken die geschätzten $\beta$ noch sehr stark -- die Verteilung ist breit und umfasst Werte von nahe 0 bis etwa 0,03. Bei mittlerer Stichprobe ($n=11000$) ist die Streuung
|
schwanken die geschätzten $\beta$ noch sehr stark -- die Verteilung ist breit und umfasst Werte von nahe -0,01 bis etwa 0,04. Bei mittlerer Stichprobe ($n=11000$) ist die Streuung
|
||||||
bereits deutlich geringer. Im Fall $n=46000$ liegen nahezu alle Schätzungen dicht bei $\beta\approx0{,}015$; die Kurve ist stark konzentriert. Diese Beobachtung entspricht der
|
bereits deutlich geringer. Im Fall $n=46000$ liegen nahezu alle Schätzungen dicht bei $\beta\approx0{,}015$. Diese Beobachtung entspricht der
|
||||||
erwarteten Verbesserung der Schätzgenauigkeit: Je mehr Daten zur Verfügung stehen, desto weniger zufällig streuen die geschätzten Parameter um den wahren Wert.
|
erwarteten Verbesserung der Schätzgenauigkeit: Je mehr Daten zur Verfügung stehen, desto weniger zufällig streuen die geschätzten Parameter um den wahren Wert.
|
||||||
|
|
||||||
\begin{figure}[h]
|
\begin{figure}[H]
|
||||||
\centering
|
\centering
|
||||||
\includegraphics[width=0.8\textwidth]{fig_beta_distribution.png}
|
\includegraphics[width=0.8\textwidth]{fig_beta_distribution.png}
|
||||||
\caption{Verteilungen des geschätzten Koeffizienten $\hat{\beta}_{avg\_speed}$ aus 1000 Simulationen für drei Stichprobenumfänge ($n=1000$, $n=11000$, $n=46000$). Mit größerem $n$
|
\caption{Verteilungen des geschätzten Koeffizienten $\hat{\beta}_{avg\_speed}$ aus 1000 Simulationen für drei Stichprobenumfänge ($n=1000$, $n=11000$, $n=46000$)}
|
||||||
wird die Verteilung deutlich schmaler und konzentriert sich stärker um den wahren Wert ($\beta_{avg\_speed}=0{,}015$, gestrichelte Linie).}
|
|
||||||
\label{fig:beta_dist}
|
\label{fig:beta_dist}
|
||||||
\end{figure}
|
\end{figure}
|
||||||
|
|
||||||
\noindent
|
\noindent
|
||||||
\newline
|
\newline
|
||||||
Zur Quantifizierung wurde für jede Stichprobengröße $n$ die \textbf{empirische Standardabweichung} der $\hat{\beta}_{avg\_speed}$-Schätzungen aus den 1000 Wiederholungen bestimmt.
|
Zur Quantifizierung wurde für jede Stichprobengröße $n$ die empirische Standardabweichung der $\hat{\beta}_{avg\_speed}$-Schätzungen aus den 1000 Wiederholungen bestimmt.
|
||||||
Abbildung~\ref{fig:std_n} zeigt die Entwicklung dieser Streuung in Abhängigkeit von $n$. Deutlich ist ein abnehmender Verlauf erkennbar. Die Kurve folgt näherungsweise der
|
Abbildung~\ref{fig:std_n} zeigt die Entwicklung dieser Streuung in Abhängigkeit von $n$. Deutlich ist ein abnehmender Verlauf erkennbar. Die Kurve folgt näherungsweise der
|
||||||
theoretischen Proportionalität $\sigma(\hat{\beta}) \sim \frac{1}{\sqrt{n}}$ (rot eingezeichnet). Die in der Simulation gemessenen Werte (blaue Punkte) liegen dicht auf der
|
theoretischen Proportionalität $\sigma(\hat{\beta}) \sim \frac{1}{\sqrt{n}}$ (rot eingezeichnet). Die in der Simulation gemessenen Werte (blaue Punkte) liegen dicht auf der
|
||||||
$1/\sqrt{n}$-Linie, was die theoretische Erwartung bestätigt.
|
$1/\sqrt{n}$-Linie, was die theoretische Erwartung bestätigt.
|
||||||
|
|
||||||
\begin{figure}[h]
|
\begin{figure}[H]
|
||||||
\centering
|
\centering
|
||||||
\includegraphics[width=0.8\textwidth]{fig_std_vs_n.png}
|
\includegraphics[width=0.8\textwidth]{fig_std_vs_n.png}
|
||||||
\caption{Standardabweichung von $\hat{\beta}_{avg\_speed}$ in Abhängigkeit des Stichprobenumfangs $n$. Gezeigte Punkte basieren auf $k=1000$ Simulationen je Umfang; die rote Kurve
|
\caption{Standardabweichung von $\hat{\beta}_{avg\_speed}$ in Abhängigkeit des Stichprobenumfangs $n$}
|
||||||
visualisiert ein $1/\sqrt{n}$-Gesetz. Man erkennt, dass die Streuung der Schätzungen mit wachsendem $n$ deutlich abnimmt und sich näherungsweise nach $\propto n^{-1/2}$ verhält.}
|
|
||||||
\label{fig:std_n}
|
\label{fig:std_n}
|
||||||
\end{figure}
|
\end{figure}
|
||||||
|
|
||||||
\noindent
|
\noindent
|
||||||
\newline
|
\newline
|
||||||
Diese Ergebnisse illustrieren den wichtigen Zusammenhang zwischen Datenmenge und \textbf{Modelllernqualität}. Bereits zwischen $n=1000$ und $n=10000$ verbessert sich die
|
Diese Ergebnisse illustrieren den wichtigen Zusammenhang zwischen Datenmenge und Lernqualität des Modells. Bereits zwischen $n=1000$ und $n=10000$ verbessert sich die
|
||||||
Präzision der Koeffizientenschätzung erheblich. Noch größere Datenmengen führen zu weiter sinkender Unsicherheit, allerdings mit abnehmendem Grenznutzen (die Kurve flacht ab).
|
Präzision der Koeffizientenschätzung erheblich. Noch größere Datenmengen führen zu weiter sinkender Unsicherheit, allerdings mit abnehmendem Grenznutzen (die Kurve flacht ab).
|
||||||
|
\newline
|
||||||
|
\newline
|
||||||
Insgesamt zeigt die Simulation, dass zur zuverlässigen Identifikation kleiner Effekte (wie $\beta_{avg\_speed}\approx0{,}015$) eine ausreichend große Stichprobe notwendig ist.
|
Insgesamt zeigt die Simulation, dass zur zuverlässigen Identifikation kleiner Effekte (wie $\beta_{avg\_speed}\approx0{,}015$) eine ausreichend große Stichprobe notwendig ist.
|
||||||
Mit $n \to 50.000$ nähert sich die Streuung einem Wert an, der durch die inhärente Ergebnisvarianz (bedingt durch den Rauschterm $\varepsilon$) begrenzt ist. Für das vorliegende
|
Mit $n \to 50.000$ nähert sich die Streuung einem Wert an, der durch die inhärente Ergebnisvarianz (bedingt durch den Rauschterm $\varepsilon$) begrenzt ist. Für das vorliegende
|
||||||
Problem bedeutet dies: Je mehr Fahrten der Data Scientist zur Verfügung hat, desto genauer kann er die wahren Fahrerwechsel-Einflüsse schätzen und desto vertrauenswürdiger sind die
|
Problem bedeutet dies: Je mehr Fahrten der Data Scientist zur Verfügung hat, desto genauer kann er die wahren Fahrerwechsel-Einflüsse schätzen und desto vertrauenswürdiger sind die
|
||||||
|
|||||||
File diff suppressed because one or more lines are too long
Reference in New Issue
Block a user