bis corr matrix
This commit is contained in:
Binary file not shown.
|
After Width: | Height: | Size: 106 KiB |
Binary file not shown.
|
After Width: | Height: | Size: 173 KiB |
Binary file not shown.
|
After Width: | Height: | Size: 36 KiB |
Binary file not shown.
|
After Width: | Height: | Size: 24 KiB |
Binary file not shown.
|
Before Width: | Height: | Size: 121 KiB After Width: | Height: | Size: 120 KiB |
Binary file not shown.
@@ -7,6 +7,7 @@
|
|||||||
\usepackage{booktabs}
|
\usepackage{booktabs}
|
||||||
\usepackage{caption}
|
\usepackage{caption}
|
||||||
\usepackage{hyperref}
|
\usepackage{hyperref}
|
||||||
|
\usepackage{float}
|
||||||
\usepackage[style=authoryear,backend=biber]{biblatex}
|
\usepackage[style=authoryear,backend=biber]{biblatex}
|
||||||
\addbibresource{references.bib}
|
\addbibresource{references.bib}
|
||||||
|
|
||||||
@@ -28,156 +29,300 @@
|
|||||||
\clearpage
|
\clearpage
|
||||||
|
|
||||||
\section{Fachthema: Diebstahlerkennung im Auto}
|
\section{Fachthema: Diebstahlerkennung im Auto}
|
||||||
Moderne Fahrzeuge erfassen in Echtzeit vielfältige Daten zum Fahrverhalten. Diese Studie untersucht, inwiefern sich anhand dieser Daten mit einem statistischen Modell erkennen lässt, ob statt des gewöhnlichen Fahrers eine andere Person am Steuer sitzt -- was auf einen \emph{Diebstahl} hindeuten würde. Konkret soll ein Modell die Wahrscheinlichkeit $P(\text{Diebstahl})$ schätzen und bei Überschreiten eines Schwellwerts einen Alarm auslösen. Die \textbf{Zielvariable} (abhängige Variable) ist dabei binär (0 = kein Diebstahl, 1 = Diebstahl). Ein Diebstahl wird angenommen, wenn das Fahrverhalten signifikant vom üblichen Fahrerprofil abweicht.
|
Moderne Fahrzeuge erfassen in Echtzeit vielfältige Daten zum Fahrverhalten. Diese Studie untersucht, inwiefern sich anhand dieser Daten mit einem statistischen Modell erkennen
|
||||||
|
lässt, ob statt des gewöhnlichen Fahrers eine andere Person am Steuer sitzt -- was auf einen \emph{Diebstahl} hindeuten würde. Konkret soll ein Modell die
|
||||||
|
Wahrscheinlichkeit $P(\text{Diebstahl})$ schätzen und bei Überschreiten eines Schwellwerts einen Alarm auslösen. Die \textbf{Zielvariable} (abhängige Variable) ist
|
||||||
|
dabei binär (0 = kein Diebstahl, 1 = Diebstahl). Ein Diebstahl wird angenommen, wenn das Fahrverhalten signifikant vom üblichen Fahrerprofil abweicht.
|
||||||
|
|
||||||
\noindent
|
\noindent
|
||||||
\newline
|
\newline
|
||||||
Für das Fachthema wurden insgesamt \textbf{8 Einflussgrößen} (potenziell erklärende Variablen) definiert, welche typische Aspekte des Fahrverhaltens und Umfelds repräsentieren. Davon sind 4 Variablen als tatsächlich erklärungsrelevant für die Zielvariable angenommen, während die übrigen 4 Variablen keinen Einfluss auf einen Fahrerwechsel (Diebstahl) haben. Zur Erfüllung der Aufgabenstellung sind unter den relevanten Prädiktoren zwei Variablen kategorial (ordinal) mit mindestens 3 Ausprägungen, die übrigen relevanten Variablen sind metrisch. Im Folgenden werden alle Variablen beschrieben:
|
Für das Fachthema wurden insgesamt \textbf{8 Einflussgrößen} (potenziell erklärende Variablen) definiert, welche typische Aspekte des Fahrverhaltens und Umfelds
|
||||||
|
repräsentieren. Davon sind 4 Variablen als tatsächlich erklärungsrelevant für die Zielvariable angenommen, während die übrigen 4 Variablen keinen Einfluss auf einen
|
||||||
|
Fahrerwechsel (Diebstahl) haben. Zur Erfüllung der Aufgabenstellung sind unter den relevanten Prädiktoren zwei Variablen kategorial (ordinal) mit mindestens 3 Ausprägungen,
|
||||||
|
die übrigen relevanten Variablen sind metrisch. Im Folgenden werden alle Variablen beschrieben:
|
||||||
|
|
||||||
\begin{description}
|
\begin{description}
|
||||||
\item[\textbf{Durchschnittsgeschwindigkeit} (metrisch, \textit{erklärend})] Mittlere Fahrgeschwindigkeit (z.\,B.~über einen Tag). Unterschiedliche Fahrer weisen charakteristische Tempoprofile auf. Ein deutlich höheres Durchschnittstempo kann somit auf einen fremden, ggf.\ aggressiveren Fahrer hinweisen. Typische Werte liegen um etwa 47~km/h mit großer Streuung (basierend auf natürlichen Fahrstudien der \cite{nhtsa2006}).
|
\item[\textbf{Durchschnittsgeschwindigkeit} (metrisch, \textit{erklärend})] Mittlere Fahrgeschwindigkeit (z.\,B.~über einen Tag). Unterschiedliche Fahrer weisen
|
||||||
\item[\textbf{Schaltverhalten} (ordinal, \textit{erklärend})] Gewohnheiten beim Gangwechsel (bei Schaltgetriebe), insbesondere der Drehzahlbereich, bei dem hochgeschaltet wird. Es werden drei Ausprägungen unterschieden: \emph{früh} (sehr niedrige Drehzahlen, ökonomisch), \emph{normal} und \emph{spät} (hohe Drehzahlen, sportlich). Diese Variable ist relevant, da Fahrende ein individuelles Schaltmuster haben. Studien zeigen, dass das Schaltverhalten zur Fahreridentifikation genutzt werden kann (vgl. \cite{gearshift2023}).
|
charakteristische Tempoprofile auf. Ein deutlich höheres Durchschnittstempo kann somit auf einen fremden, ggf.\ aggressiveren Fahrer hinweisen. Typische Werte liegen um
|
||||||
\item[\textbf{Harte Bremsmanöver} (metrisch, \textit{erklärend})] Anzahl starker Bremsungen (mit Verzögerung $>0{,}3g$) pro Strecke (vgl. \cite{tesla_safety_score_2023}). Dieses Maß korreliert mit einer aggressiven Fahrweise -- viele Vollbremsungen deuten auf einen ungewohnten bzw.\ risikoreicheren Fahrer hin. g ist eine Einheit der Beschleunigung (1g $\approx 9{,}81$~m/s²).
|
etwa 47~km/h mit großer Streuung (\cite{nhtsa2006}).
|
||||||
\item[\textbf{Geschwindigkeitsüberschreitungen} (ordinal, \textit{erklärend})] Häufigkeit \newline bzw.\ Ausmaß von Tempoverstößen. Kategorisiert als \emph{selten}, \emph{manchmal} oder \emph{häufig} zu schnell. Ein fremder Fahrer könnte andere Risikoneigungen beim Schnellfahren zeigen. Laut einer AAA-Verkehrssicherheitsstudie geben rund 50\,\% der Fahrer an, in letzter Zeit auf Autobahnen mindestens 24~km/h über dem Limit gefahren zu sein (vgl.\ \cite{aaa2016}) -- was die allgemeine Relevanz dieser Variable für das Fahrverhalten unterstreicht.
|
\item[\textbf{Schaltverhalten} (ordinal, \textit{erklärend})] Gewohnheiten beim Gangwechsel (bei Schaltgetriebe), insbesondere der Drehzahlbereich, bei dem hochgeschaltet wird.
|
||||||
\item[\textbf{Wetterbedingungen} (nominal)] Wetter während der Fahrt: \emph{trocken}, \emph{nass} oder \emph{winterlich} (Glätte/Schnee). Diese Kontextvariable dient zur Kontrolle äußerer Bedingungen. Erwartungsgemäß hat das Wetter keinen direkten Einfluss auf einen Fahrerwechsel.
|
Es werden drei Ausprägungen unterschieden: \emph{früh} (sehr niedrige Drehzahlen, ökonomisch), \emph{normal} und \emph{spät} (hohe Drehzahlen, sportlich). Diese Variable ist
|
||||||
\item[\textbf{Fahrstrecke} (metrisch)] Die zurückgelegte Distanz einer Fahrt (in km). Diese Variable (etwa lognormal verteilt um 16~km) repräsentiert typische Wege. Sie steht nicht in direktem Zusammenhang mit der Fahreridentität, sondern charakterisiert den Nutzungskontext (\cite{mobilitaet2017}).
|
relevant, da Fahrende ein individuelles Schaltmuster haben. Studien zeigen, dass das Schaltverhalten zur Fahreridentifikation genutzt werden kann (\cite{gearshift2023}).
|
||||||
\item[\textbf{Straßentyp} (nominal)] Vorherrschender Streckentyp: \emph{Autobahn}, \emph{Außerorts} oder \emph{Innerorts}. Diese Variable bietet Kontext (Stadtverkehr vs.\ Fernstraße), hat aber für sich genommen keinen Einfluss bezüglich eines Fahrerwechsels (\cite{openumwelt2024})
|
\item[\textbf{Harte Bremsmanöver} (metrisch, \textit{erklärend})] Anzahl starker Bremsungen (mit Verzögerung $>0{,}3g$) pro Strecke (\cite{tesla_safety_score_2023}).
|
||||||
\item[\textbf{Wochentag} (nominal)] Tag der Woche bzw.\ Kategorie \emph{Werktag} vs \emph{Wochenende} (vgl. \cite{mobilitaet2017}). Auch dies ist eine Kontextgröße ohne direkten Einfluss auf die Diebstahlwahrscheinlichkeit (daher ebenfalls nicht erklärend).
|
Dieses Maß korreliert mit einer aggressiven Fahrweise -- viele Vollbremsungen deuten auf einen ungewohnten bzw.\ risikoreicheren Fahrer hin. g ist eine Einheit der
|
||||||
|
Beschleunigung (1g $\approx 9{,}81$~m/s²).
|
||||||
|
\item[\textbf{Geschwindigkeitsüberschreitungen} (ordinal, \textit{erklärend})] Häufigkeit \newline bzw.\ Ausmaß von Tempoverstößen. Kategorisiert als \emph{selten},
|
||||||
|
\emph{manchmal} oder \emph{häufig} zu schnell. Ein fremder Fahrer könnte andere Risikoneigungen beim Schnellfahren zeigen. Laut einer AAA-Verkehrssicherheitsstudie geben rund
|
||||||
|
50\,\% der Fahrer an, in letzter Zeit auf Autobahnen mindestens 24~km/h über dem Limit gefahren zu sein (\cite{aaa2016}), was die allgemeine Relevanz dieser Variable
|
||||||
|
für das Fahrverhalten unterstreicht.
|
||||||
|
\item[\textbf{Wetterbedingungen} (nominal)] Wetter während der Fahrt: \emph{trocken}, \emph{nass} oder \emph{winterlich} (Glätte/Schnee). Diese Kontextvariable dient zur Kontrolle
|
||||||
|
äußerer Bedingungen. Erwartungsgemäß hat das Wetter keinen direkten Einfluss auf einen Fahrerwechsel.
|
||||||
|
\item[\textbf{Fahrstrecke} (metrisch)] Die zurückgelegte Distanz einer Fahrt (in km). Diese Variable (etwa lognormal verteilt um 16~km) repräsentiert typische Wege. Sie steht
|
||||||
|
nicht in direktem Zusammenhang mit der Fahreridentität, sondern charakterisiert den Nutzungskontext (\cite{mobilitaet2017}).
|
||||||
|
\item[\textbf{Straßentyp} (nominal)] Vorherrschender Streckentyp: \emph{Autobahn}, \emph{Außerorts} oder \emph{Innerorts}. Diese Variable bietet Kontext (Stadtverkehr vs.\
|
||||||
|
Fernstraße), hat aber für sich genommen keinen Einfluss bezüglich eines Fahrerwechsels (\cite{openumwelt2024})
|
||||||
|
\item[\textbf{Wochentag} (nominal)] Tag der Woche bzw.\ Kategorie \emph{Werktag} vs \emph{Wochenende} (\cite{mobilitaet2017}). Auch dies ist eine Kontextgröße ohne direkten
|
||||||
|
Einfluss auf die Diebstahlwahrscheinlichkeit (daher ebenfalls nicht erklärend).
|
||||||
\end{description}
|
\end{description}
|
||||||
|
|
||||||
\noindent
|
\noindent
|
||||||
Zusammenfassend stellen \emph{Durchschnittsgeschwindigkeit}, \emph{Schaltverhalten}, \emph{Harte Bremsmanöver} und \emph{Geschwindigkeitsüberschreitungen} die fachlich ausgewählten Schlüsselvariablen dar, die einen Fahrerwechsel anzeigen können. Die übrigen vier Größen (Wetter, Fahrstrecke, Straßentyp, Wochentag) dienen als Kontrolle und potentielle Störgrößen, besitzen aber per Annahme keinen Erklärungsgehalt für die Zielvariable. Dieses Setting erlaubt die Überprüfung, ob ein Statistical-Learning-Ansatz die relevanten Merkmale korrekt identifizieren kann.
|
Zusammenfassend stellen \emph{Durchschnittsgeschwindigkeit}, \emph{Schaltverhalten}, \emph{Harte Bremsmanöver} und \emph{Geschwindigkeitsüberschreitungen} die fachlich ausgewählten
|
||||||
|
Schlüsselvariablen dar, die einen Fahrerwechsel anzeigen können. Die übrigen vier Größen (Wetter, Fahrstrecke, Straßentyp, Wochentag) dienen als Kontrolle und potentielle Störgrößen,
|
||||||
|
besitzen aber per Annahme keinen Erklärungsgehalt für die Zielvariable.
|
||||||
|
|
||||||
\section{Erzeugung der Grundgesamtheit}
|
\section{Erzeugung der Grundgesamtheit}
|
||||||
Für die Simulation wurde eine \textbf{Grundgesamtheit} von $N = 1.000.000$ Fahrten generiert. Jede Fahrt hat einen binären Indikator (Zielvariable \emph{Diebstahl ja/nein}) und 8 zugehörige Merkmalswerte (die oben definierten Variablen). Die Werte wurden mittels geeigneter Zufallsverteilungen erzeugt, basierend auf realistischen Annahmen und empirischen Daten, jedoch so, dass die Abhängigkeitsstruktur kontrolliert vorgegeben ist. Die Zielvariable hängt funktional von genau 4 der 8 Variablen ab (den erklärenden), während die restlichen 4 keinen Einfluss auf den Diebstahl haben. Zudem wurden zwei inhaltlich sinnvolle Korrelationen zwischen ausgewählten Variablen eingeführt, ohne jedoch Multikollinearität zu verursachen (alle Varianzinflationsfaktoren $\text{VIF} < 5$).
|
Für die Simulation wurde eine \textbf{Grundgesamtheit} von $N = 1.000.000$ Fahrten generiert. Jede Fahrt hat einen binären Indikator (Zielvariable \emph{Diebstahl ja/nein}) und 8
|
||||||
|
zugehörige Merkmalswerte (die oben definierten Variablen). Die Werte wurden mittels geeigneter Zufallsverteilungen erzeugt, basierend auf realistischen Annahmen und empirischen
|
||||||
|
Daten, jedoch so, dass die Abhängigkeitsstruktur kontrolliert vorgegeben ist. Die Zielvariable hängt funktional von genau 4 der 8 Variablen ab (den erklärenden), während die
|
||||||
|
restlichen 4 keinen Einfluss auf den Diebstahl haben. Zudem wurden zwei inhaltlich sinnvolle Korrelationen zwischen ausgewählten Variablen eingeführt, ohne jedoch Multikollinearität
|
||||||
|
zu verursachen (alle Varianzinflationsfaktoren $\text{VIF} < 5$).
|
||||||
|
|
||||||
\subsubsection*{Verteilungen der Variablen}
|
\subsubsection*{Verteilungen der Variablen}
|
||||||
Die Verteilungen der einzelnen Merkmale wurden in Anlehnung an empirische Daten gewählt. Insbesondere:
|
|
||||||
\begin{itemize}
|
\begin{itemize}
|
||||||
\item \textbf{Durchschnittsgeschwindigkeit:} Normalverteilung mit $\mu \approx 47$~km/h und $\sigma \approx 10$~km/h, begrenzt auf plausible Werte $[10,130]$~km/h (keine negativen oder extrem hohen Geschwindigkeiten).
|
\item \textbf{Durchschnittsgeschwindigkeit:} Normalverteilung mit $\mu \approx 47$~km/h und $\sigma \approx 10$~km/h, begrenzt auf plausible Werte $[10,130]$~km/h (keine negativen
|
||||||
\item \textbf{Schaltverhalten:} Kategorisch (ordinal) mit drei Stufen \emph{früh}, \emph{normal}, \emph{spät}. Es wurden 40\,\% für \emph{früh}, 40\,\% \emph{normal} und 20\,\% \emph{spät} simuliert, d.\,h. die meisten Fahrer schalten gewöhnlich früh oder durchschnittlich, während nur etwa jeder fünfte spät schaltet.
|
oder extrem hohen Geschwindigkeiten).
|
||||||
\item \textbf{Harte Bremsmanöver:} Poisson-verteilte Zufallsvariable mit $\lambda = 2$ pro definierter Strecke (z.\,B.~pro 100\,km). Diese Verteilung ergibt meist wenige bis keine harten Bremsungen pro Fahrt, aber mit einer gewissen Wahrscheinlichkeit auch Ausreißer mit mehreren Bremsmanövern (rechtsschiefe Verteilung).
|
\item \textbf{Schaltverhalten:} Kategorisch (ordinal) mit drei Stufen \emph{früh}, \emph{normal}, \emph{spät}. Es wurden 40\,\% für \emph{früh}, 40\,\% \emph{normal} und
|
||||||
\item \textbf{Geschwindigkeitsüberschreitungen:} Ordinal mit drei Stufen (\emph{selten}, \emph{manchmal}, \emph{häufig}). Diese Variable wurde \emph{nicht unabhängig} gezogen, sondern \textbf{abhängig von der Durchschnittsgeschwindigkeit} generiert: Fahrer mit höherer \texttt{avg\_speed} erhielten mit größerer Wahrscheinlichkeit die Kategorie \emph{häufig} zu schnell, während sehr langsame Fahrer überwiegend als \emph{selten} zu schnell eingeordnet wurden. Die Umsetzung erfolgte über eine gewichtete Zufallsauswahl (Softmax-Funktion auf Basis von \texttt{avg\_speed}). Dadurch besteht eine inhaltlich sinnvolle Korrelation zwischen \texttt{avg\_speed} und \texttt{speeding}, die jedoch moderat genug ist (VIF $\approx 2.57$ für \texttt{avg\_speed}, $< 2$ für \texttt{speeding}-Dummies), um Multikollinearität nicht zum Problem werden zu lassen.
|
20\,\% \emph{spät} simuliert, d.\,h. die meisten Fahrer schalten gewöhnlich früh oder durchschnittlich, während nur etwa jeder fünfte spät schaltet.
|
||||||
\item \textbf{Wetterbedingungen:} Für jedes Fahrt wurde das Wetter zufällig gemäß empirischer Häufigkeiten zugeordnet: ca.~75\,\% \emph{trocken}, 20\,\% \emph{nass} (Regen) und 5\,\% \emph{winterlich} (Schnee/Eis). Dies entspricht etwa den in Mitteleuropa beobachteten Anteilen trockener bzw.\ widriger Fahrbedingungen.
|
\item \textbf{Harte Bremsmanöver:} Poisson-verteilte Zufallsvariable mit $\lambda = 2$ pro definierter Strecke (z.\,B.~pro 100\,km). Diese Verteilung ergibt meist wenige
|
||||||
\item \textbf{Fahrstrecke:} Lognormalverteilung mit $\mu_{\log} = \ln(16)$ und $\sigma_{\log} = 0{,}7$, um die Verteilung typischer Fahrtlängen abzubilden. Diese Parameter führen zu einer rechtsschiefen Verteilung: Viele kürzere Fahrten um einige wenige Kilometer, und seltener auch sehr lange Fahrten ($>50$~km). (Die Annahmen basieren auf Studien zur täglichen Weglänge \cite{mobilitaet2017}.)
|
bis keine harten Bremsungen pro Fahrt, aber mit einer gewissen Wahrscheinlichkeit auch Ausreißer mit mehreren Bremsmanövern (rechtsschiefe Verteilung).
|
||||||
\item \textbf{Straßentyp:} Diese Variable wurde \textbf{abhängig von der Fahrstrecke} generiert. Intuitiv werden sehr lange Fahrten eher auf Autobahnen stattfinden, während kurze Fahrten überproportional innerorts sind. Um dies zu modellieren, wurde ein stochastischer Zusammenhang erzeugt: Zunächst wurde \texttt{trip\_distance} auf $[0,1]$ skaliert; dann wurde mittels einer Softmax-Wahrscheinlichkeitsfunktion daraus der Straßentyp gezogen, sodass z.\,B.\ bei sehr großen Distanzen die Wahrscheinlichkeit für \emph{Autobahn} deutlich höher ist als für \emph{Innerorts}. Dadurch ergibt sich eine leichte Korrelation zwischen \texttt{trip\_distance} und \texttt{road\_type} (z.\,B.\ $VIF \approx 1.68$ für \texttt{trip\_distance}), ohne die beiden Größen stark redundant zu machen.
|
\item \textbf{Geschwindigkeitsüberschreitungen:} Ordinal mit drei Stufen (\emph{selten}, \emph{manchmal}, \emph{häufig}). Diese Variable wurde \emph{nicht unabhängig} gezogen,
|
||||||
\item \textbf{Wochentag:} Festgelegte Verteilung von ca.~70\,\% \emph{Werktag} (Mo-Fr) und je 15\,\% \emph{Samstag} und \emph{Sonntag}. Damit wird berücksichtigt, dass die meisten Fahrten werktags stattfinden. Diese Variable wurde unabhängig von den übrigen generiert.
|
sondern abhängig von der Durchschnittsgeschwindigkeit generiert: Fahrer mit höherer \texttt{avg\_speed} erhielten mit größerer Wahrscheinlichkeit die Kategorie \emph{häufig} zu
|
||||||
|
schnell, während sehr langsame Fahrer überwiegend als \emph{selten} zu schnell eingeordnet wurden. Die Umsetzung erfolgte über eine gewichtete Zufallsauswahl (Softmax-Funktion auf
|
||||||
|
Basis von \texttt{avg\_speed}). Dadurch besteht eine inhaltlich sinnvolle Korrelation zwischen \texttt{avg\_speed} und \texttt{speeding}, die jedoch moderat genug ist
|
||||||
|
(VIF $\approx 2.57$ für \texttt{avg\_speed}, $< 2$ für \texttt{speeding}-Dummies), um Multikollinearität nicht zum Problem werden zu lassen.
|
||||||
|
\item \textbf{Wetterbedingungen:} Für jedes Fahrt wurde das Wetter zufällig gemäß empirischer Häufigkeiten zugeordnet: ca.~75\,\% \emph{trocken}, 20\,\% \emph{nass} (Regen)
|
||||||
|
und 5\,\% \emph{winterlich} (Schnee/Eis). Diese Werte sind basierend auf Annahmen zu typischen Fahrbedingungen in Deutschland gewählt.
|
||||||
|
\item \textbf{Fahrstrecke:} Lognormalverteilung mit $\mu_{\log} = \ln(16)$ und $\sigma_{\log} = 0{,}7$, um die Verteilung typischer Fahrtlängen abzubilden.
|
||||||
|
Diese Parameter führen zu einer rechtsschiefen Verteilung: Viele kürzere Fahrten um einige wenige Kilometer, und seltener auch sehr lange Fahrten ($>50$~km).
|
||||||
|
(Die Annahmen basieren auf Studien zur täglichen Weglänge \cite{mobilitaet2017}.)
|
||||||
|
\item \textbf{Straßentyp:} Diese Variable wurde abhängig von der Fahrstrecke generiert. Intuitiv werden sehr lange Fahrten eher auf Autobahnen stattfinden,
|
||||||
|
während kurze Fahrten überproportional innerorts sind. Um dies zu modellieren, wurde ein stochastischer Zusammenhang erzeugt: Zunächst wurde \texttt{trip\_distance}
|
||||||
|
auf $[0,1]$ skaliert; dann wurde mittels einer Softmax-Wahrscheinlichkeitsfunktion daraus der Straßentyp gezogen, sodass z.\,B.\ bei sehr großen Distanzen die Wahrscheinlichkeit
|
||||||
|
für \emph{Autobahn} deutlich höher ist als für \emph{Innerorts}. Dadurch ergibt sich eine leichte Korrelation zwischen \texttt{trip\_distance} und \texttt{road\_type}
|
||||||
|
($VIF \approx 1.68$ für \texttt{trip\_distance}).
|
||||||
|
\item \textbf{Wochentag:} Festgelegte Verteilung von ca.~70\,\% \emph{Werktag} (Mo-Fr) und je 15\,\% \emph{Samstag} und \emph{Sonntag}. Damit wird berücksichtigt,
|
||||||
|
dass die meisten Fahrten werktags stattfinden (\cite{mobilitaet2017}). Diese Variable wurde unabhängig von den übrigen generiert.
|
||||||
\end{itemize}
|
\end{itemize}
|
||||||
Durch diese Vorgehensweise bilden die generierten Daten realistische Verteilungen und Beziehungen der Variablen ab, wobei genau zwei inhaltlich plausible Korrelationen eingebaut wurden (\texttt{speeding}-\texttt{avg\_speed} und \newline \texttt{road\_type}-\texttt{trip\_distance}). Beide Abhängigkeiten sind so kalibriert, dass im optimalen Regressionsmodell keine Multikollinearität auftritt ($\text{VIF} < 5$ in allen Fällen).
|
Durch diese Vorgehensweise bilden die generierten Daten nahezu realistische Verteilungen und Beziehungen der Variablen ab, wobei genau zwei inhaltlich plausible Korrelationen eingebaut
|
||||||
|
wurden. Beide Abhängigkeiten sind so kalibriert, dass im optimalen Regressionsmodell keine Multikollinearität auftritt ($\text{VIF} < 5$ in allen Fällen).
|
||||||
|
|
||||||
\subsubsection*{Modellierung der Zielvariable und der $\pi$-Werte}
|
\subsubsection*{Modellierung der Zielvariable und der $\pi$-Werte}
|
||||||
Die \textbf{Zielvariable} \texttt{Diebstahl} wurde als Zufallsvariable auf Basis eines logistischen Regressionsmodells generiert. Dazu wurde zunächst für jede Fahrt $i$ die Diebstahl-Wahrscheinlichkeit $\pi_i = P(Y_i=1)$ berechnet als
|
Die Zielvariable \emph{Diebstahl} wurde als Zufallsvariable auf Basis eines logistischen Regressionsmodells generiert. Dazu wurde zunächst für jede Fahrt $i$ die
|
||||||
|
Diebstahl-Wahrscheinlichkeit $p_i = P(Y_i=1)$ berechnet als
|
||||||
\[
|
\[
|
||||||
\pi_i = \frac{1}{1 + \exp(- ( \beta_0 + \beta_1 x_{1i} + \cdots + \beta_8 x_{8i} + \varepsilon_i ) )}~,
|
p_i = \frac{1}{1 + \exp(- ( \beta_0 + \beta_1 x_{1i} + \cdots + \beta_8 x_{8i} + \varepsilon_i ) )}~,
|
||||||
\]
|
\]
|
||||||
wobei $x_{1},\dots,x_{8}$ die Merkmalswerte (erklärende Variablen) der Fahrt sind, $\beta_0,\dots,\beta_8$ die zugrunde liegenden Regressionskoeffizienten und $\varepsilon_i$ ein zufälliger Fehlerterm. Für den vorliegenden Klassifikationsfall entspricht $\varepsilon_i$ einem impliziten Rauschen, das die Nicht-Deterministik der Fahrerwechsel abbildet (nicht jeder ungewöhnliche Wert führt zwangsweise zum Diebstahl). In der Simulation wurde $\varepsilon_i \sim \mathcal{N}(0, 0.2^2)$ als additive Störung zur linearen Prädiktor-Summe gezogen. Anschließend wurde $Y_i$ durch einen Bernoulli-Zufall mit Parameter $\pi_i$ realisiert (d.\,h. \texttt{Diebstahl}~=~1 mit Wahrscheinlichkeit $\pi_i$).
|
wobei $x_{1},\dots,x_{8}$ die Merkmalswerte (erklärende Variablen) der Fahrt sind, $\beta_0,\dots,\beta_8$ die zugrunde liegenden Regressionskoeffizienten und $\varepsilon_i$ ein
|
||||||
|
zufälliger Fehlerterm. Für den vorliegenden Klassifikationsfall entspricht $\varepsilon_i$ einem impliziten Rauschen. In der Simulation wurde
|
||||||
|
$\varepsilon_i \sim \mathcal{N}(0, 0.2^2)$ addiert.
|
||||||
|
Anschließend wurde $Y_i$ durch einen Bernoulli-Zufall mit Parameter $p_i$ realisiert (d.\,h. \texttt{Diebstahl}~=~1 mit Wahrscheinlichkeit $p_i$).
|
||||||
|
|
||||||
\noindent
|
\noindent
|
||||||
\newline
|
\newline
|
||||||
Die \textbf{gewählten Koeffizienten ($\beta$-Werte)} für das Generierungsmodell sind in Tabelle~\ref{tab:true_betas} aufgeführt. Diese wurden so festgelegt, dass sie plausible Einflussstärken der erklärenden Variablen widerspiegeln, ohne die Zielvariable extrem zu dominieren. Insbesondere wurde ein relativ niedriger Basiswert (\emph{Intercept} $\beta_0=-2$) gewählt, sodass bei unauffälligen Merkmalen die Diebstahl-Wahrscheinlichkeit sehr gering ist. Die erklärenden Variablen erhöhen bzw.\ verringern diese Grundwahrscheinlichkeit wie folgt:
|
Die \textbf{gewählten Koeffizienten ($\beta$-Werte)} für das Generierungsmodell sind in Tabelle~\ref{tab:true_betas} aufgeführt. Diese wurden so festgelegt, dass sie plausible
|
||||||
|
Einflussstärken der erklärenden Variablen widerspiegeln, ohne die Zielvariable extrem zu dominieren. Insbesondere wurde ein relativ niedriger Basiswert
|
||||||
|
(\emph{Intercept} $\beta_0=-2$) gewählt, sodass bei unauffälligen Merkmalen die Diebstahl-Wahrscheinlichkeit sehr gering ist. Die erklärenden Variablen erhöhen bzw.\
|
||||||
|
verringern diese Grundwahrscheinlichkeit wie folgt:
|
||||||
\begin{itemize}
|
\begin{itemize}
|
||||||
\item \textbf{Durchschnittsgeschwindigkeit:} $\beta_{avg\_speed} = 0{,}015$. Ein leicht positiver Koeffizient - eine ungewöhnlich hohe Durchschnittsgeschwindigkeit erhöht also geringfügig die Diebstahl-Wkt., da sie auf einen anderen (rasanteren) Fahrstil hindeuten kann.
|
\item \textbf{Durchschnittsgeschwindigkeit:} $\beta_{avg\_speed} = 0{,}015$. Ein leicht positiver Koeffizient - eine ungewöhnlich hohe Durchschnittsgeschwindigkeit erhöht also
|
||||||
\item \textbf{Harte Bremsmanöver:} $\beta_{hard\_brakes} = 0{,}1$. Häufige Vollbremsungen haben einen deutlichen positiven Effekt auf $P(\text{Diebstahl})$, da sie ein Indiz für einen risikoreicheren Fahrstil sind.
|
geringfügig die Diebstahl-Wkt., da sie auf einen anderen (rasanteren) Fahrstil hindeuten kann.
|
||||||
\item \textbf{Schaltverhalten:} Das Schaltverhalten ist ein starker Prädiktor für den Fahrer. Für die kategorialen Ausprägungen wurden Dummy-Variablen erstellt: $\beta_{\text{früh}} = -0{,}3$, $\beta_{\text{normal}} = -0{,}3$ und $\beta_{\text{spät}} = +0{,}5$. Besonders \emph{spät} schalten wird mit einem hohen positiven Beta gewichtet, da es einen aggressiveren Fahrstil beschreibt. \emph{Früh} und \emph{normal} schalten erhalten einen negativen Einfluss, da sie auf einen defensiveren oder gewohnten Fahrstil hindeuten.
|
\item \textbf{Harte Bremsmanöver:} $\beta_{hard\_brakes} = 0{,}1$. Häufige Vollbremsungen haben einen deutlichen positiven Effekt auf $P(\text{Diebstahl})$, da sie ein Indiz für
|
||||||
\item \textbf{Geschwindigkeitsüberschreitungen:} Die Häufigkeit von Geschwindigkeitsüberschreitungen ist ein wichtiger Indikator für den Fahrstil. Die Koeffizienten wurden festgelegt als: $\beta_{\text{selten}} = -0{,}3$, $\beta_{\text{manchmal}} = -0{,}3$ und $\beta_{\text{häufig}} = +0{,}5$. Besonders \emph{häufig} zu schnell fahren ist ein starkes Signal für einen Fahrerwechsel, da dies ein sehr auffälliges Verhalten darstellt. \emph{Selten} und \emph{manchmal} werden negativ gewichtet, da sie auf einen defensiveren Fahrstil hindeuten.
|
einen risikoreicheren Fahrstil sind.
|
||||||
\item \textbf{Kontextvariablen (Wetter, Strecke, Straßentyp, Wochentag):} Diese wurden \emph{alle mit $\beta=0$} angesetzt, d.\,h.\ sie haben per Konstruktion keinen Einfluss auf die Diebstahl-Wahrscheinlichkeit.
|
\item \textbf{Schaltverhalten:} Das Schaltverhalten ist ein starker Prädiktor für den Fahrer. Für die kategorialen Ausprägungen wurden Dummy-Variablen erstellt:
|
||||||
|
$\beta_{\text{früh}} = -0{,}3$, $\beta_{\text{normal}} = -0{,}3$ und $\beta_{\text{spät}} = +0{,}5$. Besonders \emph{spät} schalten wird mit einem hohen positiven Beta gewichtet,
|
||||||
|
da es einen aggressiveren Fahrstil beschreibt. \emph{Früh} und \emph{normal} schalten erhalten einen negativen Einfluss, da sie auf einen defensiveren oder gewohnten Fahrstil
|
||||||
|
hindeuten.
|
||||||
|
\item \textbf{Geschwindigkeitsüberschreitungen:} Die Häufigkeit von Geschwindigkeitsüberschreitungen ist ein wichtiger Indikator für den Fahrstil. Die Koeffizienten wurden
|
||||||
|
festgelegt als: $\beta_{\text{selten}} = -0{,}3$, $\beta_{\text{manchmal}} = -0{,}3$ und $\beta_{\text{häufig}} = +0{,}5$. Besonders \emph{häufig} zu schnell fahren ist ein
|
||||||
|
starkes Signal für einen Fahrerwechsel, da dies ein sehr auffälliges Verhalten darstellt. \emph{Selten} und \emph{manchmal} werden negativ gewichtet, da sie auf einen defensiveren
|
||||||
|
Fahrstil hindeuten.
|
||||||
|
\item \textbf{Kontextvariablen (Wetter, Strecke, Straßentyp, Wochentag):} Diese wurden \emph{alle mit $\beta=0$} angesetzt, d.\,h.\ sie haben per Konstruktion keinen Einfluss auf
|
||||||
|
die Diebstahl-Wahrscheinlichkeit.
|
||||||
\end{itemize}
|
\end{itemize}
|
||||||
|
|
||||||
\begin{table}[h]
|
\begin{table}[H]
|
||||||
\centering
|
\centering
|
||||||
\caption{Übersicht der verwendeten Regressionskoeffizienten im Generierungsmodell der Zielvariable. Kategorische Effekte beziehen sich auf die jeweilige Referenzkategorie (in Klammern).}
|
\caption{Wahre $\beta$-Werte des Regressionsmodells}
|
||||||
\label{tab:true_betas}
|
\label{tab:true_betas}
|
||||||
\begin{tabular}{lcl}
|
\begin{tabular}{lr}
|
||||||
\toprule
|
\toprule
|
||||||
\textbf{Variable} & \textbf{Kategorie (Ref.)} & \textbf{Beta-Wert}\\
|
\textbf{Variable} & \textbf{Beta-Wert}\\
|
||||||
\midrule
|
\midrule
|
||||||
Intercept & -- & $-2{,}0$ \\
|
Intercept & $-2{,}0$ \\
|
||||||
Durchschnittsgeschwindigkeit & -- & $+0{,}015$ \\
|
Durchschnittsgeschwindigkeit & $+0{,}015$ \\
|
||||||
Harte Bremsmanöver & -- & $+0{,}10$ \\
|
Harte Bremsmanöver & $+0{,}10$ \\
|
||||||
Schaltverhalten & früh & $-0{,}30$ \\
|
Schaltverhalten (früh) & $-0{,}30$ \\
|
||||||
~ & normal & $-0{,}30$ \\
|
Schaltverhalten (normal) & $-0{,}30$ \\
|
||||||
~ & spät (Ref.) & $+0{,}00$ \\
|
Schaltverhalten (spät) & $+0{,}00$ \\
|
||||||
Geschwindigkeitsüberschreitung & selten & $-0{,}30$ \\
|
Geschwindigkeitsüberschreitung (selten) & $-0{,}30$ \\
|
||||||
~ & manchmal & $-0{,}30$ \\
|
Geschwindigkeitsüberschreitung (manchmal) & $-0{,}30$ \\
|
||||||
~ & häufig (Ref.) & $+0{,}00$ \\
|
Geschwindigkeitsüberschreitung (häufig) & $+0{,}00$ \\
|
||||||
Wetter & trocken, nass, winterlich (alle) & $0{,}00$ \\
|
Wetter (alle Kategorien) & $0{,}00$ \\
|
||||||
Straßentyp & Autobahn, Außerorts, Innerorts (alle) & $0{,}00$ \\
|
Straßentyp (alle Kategorien) & $0{,}00$ \\
|
||||||
Wochentag & Mo–Fr, Sa, So (alle) & $0{,}00$ \\
|
Wochentag (alle Kategorien) & $0{,}00$ \\
|
||||||
\bottomrule
|
\bottomrule
|
||||||
\end{tabular}
|
\end{tabular}
|
||||||
\end{table}
|
\end{table}
|
||||||
|
|
||||||
\noindent
|
\noindent
|
||||||
Durch die gewählten $\beta$-Gewichte resultiert eine \textbf{Verteilung der Zielvariable}, bei der Diebstahl relativ selten vorkommt, aber nicht vernachlässigbar: Im generierten Datensatz sind etwa 23\,\% der Fahrten als Diebstahl deklariert worden (d.\,h. $Y=1$ in 229.150 von 1.000.000 Fällen). Diebstähle sollen deutlich seltener als normale Fahrten sein, jedoch häufig genug, um ein Modell daran zu trainieren. Die zugrunde liegenden individuellen Diebstahl-Wahrscheinlichkeiten $\pi_i$ waren überwiegend niedrig: Für eine typische Fahrt (alle Merkmale unauffällig) lag $\pi\approx 0,1$, während extreme Kombinationen (z.\,B.\ sehr hohe Geschwindigkeit, viele harte Bremsungen, spät geschaltet und häufig zu schnell zugleich) $\pi$-Werte von bis zu $\sim 0,8$ erreichten. Im Mittel ergaben sich $\bar{\pi} \approx 0,23$ und eine rechtsschiefe Verteilung der $\pi_i$ über alle Fahrten. Insgesamt war also gewährleistet, dass das generierte Modell weder trivial (zu seltene 1-Fälle) noch stark im Ungleichgewicht war.
|
Durch die gewählten $\beta$-Gewichte resultiert eine Verteilung der Zielvariable, bei der Diebstahl relativ selten vorkommt, aber nicht vernachlässigbar: Im generierten
|
||||||
|
Datensatz sind etwa 23\,\% der Fahrten als Diebstahl deklariert worden (d.\,h. $Y=1$ in 229.973 von 1.000.000 Fällen), was in Abb.~\ref{fig:target_dist} dargestellt ist.
|
||||||
|
Diebstähle sollen deutlich seltener als normale Fahrten sein,
|
||||||
|
jedoch häufig genug, um ein Modell daran zu trainieren.
|
||||||
|
\newline
|
||||||
|
\newline
|
||||||
|
Die zugrunde liegenden individuellen Diebstahl-Wahrscheinlichkeiten $p_i$ waren überwiegend niedrig: Im Mittel ergaben sich $\bar{p} \approx 0,23$ und eine rechtsschiefe Verteilung
|
||||||
|
der $p_i$ über alle Fahrten (siehe Abb.~\ref{fig:fig_pi_dist}).
|
||||||
|
|
||||||
|
\begin{figure}[H]
|
||||||
|
\centering
|
||||||
|
\includegraphics[width=0.8\textwidth]{fig_pi_dist.png}
|
||||||
|
\caption{Verteilung der Diebstahl-Wahrscheinlichkeiten $p_i$}
|
||||||
|
\label{fig:fig_pi_dist}
|
||||||
|
\end{figure}
|
||||||
|
|
||||||
|
\begin{figure}[H]
|
||||||
|
\centering
|
||||||
|
\includegraphics[width=0.8\textwidth]{fig_target_variable_dist.png}
|
||||||
|
\caption{Verteilung der Zielvariable in der Grundgesamtheit}
|
||||||
|
\label{fig:target_dist}
|
||||||
|
\end{figure}
|
||||||
|
|
||||||
\section{Simulation der Perspektive des Data Scientist}
|
\section{Simulation der Perspektive des Data Scientist}
|
||||||
In einem realen Anwendungsszenario würde ein Data Scientist lediglich einen \emph{Stichprobendatensatz} der Grundgesamtheit vorfinden - ohne Kenntnis des zugrundeliegenden wahren Modells. Um diese Perspektive zu simulieren, wurde aus den 1.000.000 generierten Fällen eine \textbf{Zufallsstichprobe} von $n = 20.000$ Fahrten gezogen. Der Data Scientist würde zunächst eine explorative Datenanalyse und Vorverarbeitung durchführen, dann ein geeignetes Regressionsmodell (logistische Regression im Klassifikationsfall) schätzen und mittels Variablenselektion optimieren. Abschließend würde er die Modellgüte bewerten. All diese Schritte wurden in der Simulation nachvollzogen.
|
Es wurde aus den 1.000.000 generierten Fällen eine Zufallsstichprobe von $n = 20.000$ Fahrten gezogen. Der Data Scientist würde
|
||||||
|
zunächst eine explorative Datenanalyse und Vorverarbeitung durchführen, dann ein geeignetes Regressionsmodell (logistische Regression im Klassifikationsfall) schätzen und mittels
|
||||||
|
Variablenselektion optimieren. Abschließend würde er die Modellgüte bewerten.
|
||||||
|
|
||||||
\subsection*{Datenexploration und Aufbereitung}
|
\subsection*{Datenexploration und Aufbereitung}
|
||||||
Zunächst wurde die Stichprobe auf Vollständigkeit und Ausreißer geprüft. Es traten keine fehlenden Werte auf (da simuliert). Ein \emph{Abgleich der Verteilungen} bestätigte, dass die Stichprobe die Grundgesamtheits-Charakteristika widerspiegelt. Beispielsweise sind die Verteilungen der metrischen Variablen in Abb.~\ref{fig:dist_vars} dargestellt (Histogramme und Boxplots): Man erkennt die angenommene Normalverteilung der \texttt{avg\_speed} (mit Mittelwert ca.~47~km/h), die rechtschiefe Poisson-Verteilung von \texttt{hard\_brakes} (häufig 0 oder 1 harte Bremsung, selten mehr) und die ausgeprägte Schiefe der lognormal verteilten \texttt{trip\_distance} (viele kurze Fahrten, wenige sehr lange). Die Boxplots zeigen, dass es bei \texttt{trip\_distance} einige Ausreißer (sehr lange Fahrten) gibt, während \texttt{avg\_speed} symmetrisch verteilt ist. Diese Beobachtungen stimmen mit der Datengenerierung überein und geben dem Data Scientist keinen Hinweis auf Anomalien im Datensatz.
|
Zunächst wurde die Stichprobe auf Vollständigkeit und Ausreißer geprüft. Es traten keine fehlenden Werte auf (da simuliert). Ein \emph{Abgleich der Verteilungen} bestätigte,
|
||||||
|
dass die Stichprobe die Grundgesamtheits-Charakteristika widerspiegelt. Beispielsweise sind die Verteilungen der metrischen Variablen in Abb.~\ref{fig:dist_vars} dargestellt
|
||||||
\begin{figure}[h]
|
(Histogramme und Boxplots): Man erkennt die angenommene Normalverteilung der \texttt{avg\_speed} (mit Mittelwert ca.~47~km/h), die rechtschiefe Poisson-Verteilung von
|
||||||
|
\texttt{hard\_brakes} (häufig 0 oder 1 harte Bremsung, selten mehr) und die ausgeprägte Schiefe der lognormal verteilten \texttt{trip\_distance} (viele kurze Fahrten, wenige sehr
|
||||||
|
lange). Die Boxplots zeigen, dass es bei \texttt{trip\_distance} einige Ausreißer (sehr lange Fahrten) gibt, während \texttt{avg\_speed} symmetrisch verteilt ist.
|
||||||
|
\begin{figure}[H]
|
||||||
\centering
|
\centering
|
||||||
\includegraphics[width=\textwidth]{fig_variable_distributions.png}
|
\includegraphics[width=\textwidth]{fig_variable_distributions.png}
|
||||||
\caption{Verteilungen der metrischen Variablen in der Stichprobe ($n=20.000$): Durchschnittsgeschwindigkeit, harte Bremsmanöver und Fahrstrecke (oben: Histogramme, unten: Boxplots). Die erwartete Normalverteilung von \texttt{avg\_speed}, Poisson-Verteilung von \texttt{hard\_brakes} und Rechtsschiefe von \texttt{trip\_distance} sind deutlich zu erkennen.}
|
\caption{Verteilungen der metrischen Variablen}
|
||||||
\label{fig:dist_vars}
|
\label{fig:dist_vars}
|
||||||
\end{figure}
|
\end{figure}
|
||||||
|
|
||||||
\noindent
|
\noindent
|
||||||
\newline
|
\newline
|
||||||
Für die kategorialen Merkmale (Schaltverhalten, Geschwindigkeitsüberschreitungen, Wetter, Straßentyp, Wochentag) wurden Häufigkeitstabellen und Balkendiagramme betrachtet (nicht abgebildet). Auch diese entsprachen den Simulationseinstellungen (z.\,B.\ 20\,\% der Fahrer in der Stichprobe hatten \emph{spätes} Schaltverhalten; ca.~5\,\% der Fahrten fanden bei \emph{winterlichem} Wetter statt etc.). Zur Vorbereitung der Regression wurde ein \textbf{One-Hot-Encoding} der kategorialen Variablen durchgeführt (mit geeigneten Referenzkategorien, z.\,B.\ \emph{spät} für Schaltverhalten, \emph{häufig} für Speeding, etc.) und eine Konstante für den Interzept ergänzt. Anschließend standen 1 Zielvariable und 19 Regressoren (inkl.~Dummies und Interzept) für die Modellierung bereit.
|
Für die kategorialen Merkmale (Schaltverhalten, Geschwindigkeitsüberschreitungen, Wetter, Straßentyp, Wochentag) wurden Balkendiagramme betrachtet
|
||||||
|
(siehe Abb.~\ref{fig:fig_barplots_cats}).
|
||||||
|
Auch diese entsprachen den Simulationseinstellungen. Zur Vorbereitung der Regression wurde ein One-Hot-Encoding der kategorialen Variablen durchgeführt und eine Konstante für den
|
||||||
|
Interzept ergänzt.
|
||||||
|
|
||||||
|
\begin{figure}[H]
|
||||||
|
\centering
|
||||||
|
\includegraphics[width=\textwidth]{fig_barplots_cats.png}
|
||||||
|
\caption{Balkendiagramme der kategorialen Variablen}
|
||||||
|
\label{fig:fig_barplots_cats}
|
||||||
|
\end{figure}
|
||||||
|
|
||||||
|
\noindent
|
||||||
|
\newline
|
||||||
|
Daraufhin wurde die lineare Korrelation zwischen den Variablen untersucht. Die Korrelationen der Variablen sind in Abb.~\ref{fig:fig_corr_matrix} dargestellt.
|
||||||
|
Die Korrelationen sind erwartungsgemäß gering, da die Variablen weitgehend unabhängig sind. Lediglich die Dummykodierten Variablen weisen untereinander moderate Korrelationen auf,
|
||||||
|
weil sie sich gegenseitig ausschließen (z.\,B. eine 0 für \emph{früh} impliziert eine 1 für \emph{normal} oder \emph{spät}).
|
||||||
|
|
||||||
|
\begin{figure}[H]
|
||||||
|
\centering
|
||||||
|
\includegraphics[width=0.8\textwidth]{fig_corr_matrix.png}
|
||||||
|
\caption{Korrelationsmatrix der Variablen}
|
||||||
|
\label{fig:fig_corr_matrix}
|
||||||
|
\end{figure}
|
||||||
|
|
||||||
|
|
||||||
\subsection*{Logistische Regression und Variablenselektion}
|
\subsection*{Logistische Regression und Variablenselektion}
|
||||||
Ohne Kenntnis des wahren generativen Modells würde der Data Scientist zunächst alle verfügbaren Variablen als Prädiktoren in ein Modell einbeziehen. Daher wurde auf den Trainingsdaten (z.\,B.\ 70\,\% der Stichprobe) eine \textbf{logistische Regressionsanalyse} mit allen 8 ursprünglichen Merkmalen (entsprechend 1 Interzept + 3 Dummies für Schaltverhalten + 2 Dummies für Speeding + 2 Dummies für Wetter + 2 Dummies für Straßentyp + 2 Dummies für Wochentag + 3 metrische Variablen = 1 + 3+2+2+2+2+3 = 15 Parametern) durchgeführt. Dieses initiale Modell zeigte erwartungsgemäß, dass einige Prädiktoren keinen signifikanten Einfluss besitzen. Ein schrittweises Selektionsverfahren (\textbf{Backward Elimination}) wurde angewandt, um ein optimales Modell zu finden: beginnend mit dem vollen Modell wurden die am wenigsten signifikanten Variablen sukzessive entfernt, bis nur noch prädiktive (p-Wert $<0,05$) Variablen verblieben.
|
Ohne Kenntnis des wahren generativen Modells würde der Data Scientist zunächst alle verfügbaren Variablen als Prädiktoren in ein Modell einbeziehen. Daher wurde auf den
|
||||||
|
Trainingsdaten eine logistische Regressionsanalyse mit allen 8 ursprünglichen Merkmalen
|
||||||
|
durchgeführt. Dieses initiale Modell zeigte erwartungsgemäß, dass einige Prädiktoren keinen signifikanten Einfluss besitzen. Ein schrittweises Selektionsverfahren
|
||||||
|
(Backward Selection) wurde angewandt, um ein optimales Modell zu finden: beginnend mit dem vollen Modell wurden die am wenigsten signifikanten Variablen sukzessive
|
||||||
|
entfernt, bis nur noch prädiktive (p-Wert $<0,05$) Variablen verblieben.
|
||||||
|
|
||||||
\noindent
|
\noindent
|
||||||
\newline
|
\newline
|
||||||
Das Ergebnis der Variablenselektion war, dass genau die 4 fachlich erwarteten Einflüsse im Modell verblieben, während die irrelevanten Merkmale entfernt wurden. Konkret blieben \texttt{avg\_speed}, \texttt{hard\_brakes}, \texttt{shift\_behavior} (mit zwei Dummy-Variablen) und \texttt{speeding} (ebenfalls zwei Dummies) im finalen Modell. Ausgeschlossen wurden dagegen \texttt{weather}, \texttt{trip\_distance}, \texttt{road\_type} und \texttt{weekday}, da deren Effekt auf die Zielvariable statistisch insignifikant war (p-Werte weit über 0,1). Dieses Resultat deckt sich mit der Konstruktion der Daten: Die irrelevanten Kontextvariablen bieten keine Erklärungskraft und wurden richtigerweise vom modellselektiven Ansatz eliminiert.
|
Das Ergebnis der Variablenselektion war, dass genau die 4 fachlich erwarteten Einflüsse im Modell verblieben, während die irrelevanten Merkmale entfernt wurden. Konkret
|
||||||
|
blieben \texttt{avg\_speed}, \texttt{hard\_brakes}, \texttt{shift\_behavior} (mit zwei Dummy-Variablen) und \texttt{speeding} (ebenfalls zwei Dummies) im finalen Modell.
|
||||||
|
Ausgeschlossen wurden dagegen \texttt{weather}, \texttt{trip\_distance}, \texttt{road\_type} und \texttt{weekday}, da deren Effekt auf die Zielvariable statistisch insignifikant
|
||||||
|
war (p-Werte weit über 0,1). Dieses Resultat deckt sich mit der Konstruktion der Daten: Die irrelevanten Kontextvariablen bieten keine Erklärungskraft und wurden richtigerweise
|
||||||
|
vom modellselektiven Ansatz eliminiert.
|
||||||
|
|
||||||
\noindent
|
\noindent
|
||||||
\newline
|
\newline
|
||||||
Das \textbf{finale Regressionsmodell} wurde anschließend neu auf der gesamten Stichprobe ($n=20.000$) geschätzt. Die geschätzten Regressionskoeffizienten (im Folgenden $\hat{\beta}$) stimmten weitgehend mit den wahren Werten aus dem Generierungsmodell überein. Insbesondere waren alle verbleibenden Prädiktoren hochsignifikant ($p<0,001$). Ein Vergleich der Koeffizienten zeigt nur geringe Abweichungen aufgrund von Stichprobenfluktuation:
|
Das \textbf{finale Regressionsmodell} wurde anschließend neu auf der gesamten Stichprobe ($n=20.000$) geschätzt. Die geschätzten Regressionskoeffizienten
|
||||||
|
(im Folgenden $\hat{\beta}$) stimmten weitgehend mit den wahren Werten aus dem Generierungsmodell überein. Insbesondere waren alle verbleibenden Prädiktoren hochsignifikant
|
||||||
|
($p<0,001$). Ein Vergleich der Koeffizienten zeigt nur geringe Abweichungen aufgrund von Stichprobenfluktuation:
|
||||||
\begin{itemize}
|
\begin{itemize}
|
||||||
\item Für \texttt{avg\_speed} ergab sich $\hat{\beta}_{avg\_speed} \approx 0{,}0174$ (gegenüber wahr $0{,}015$). Dieser leichte Überschätzung ist mit dem Stichprobenzufall erklärbar, liegt aber in derselben Größenordnung.
|
\item Für \texttt{avg\_speed} ergab sich $\hat{\beta}_{avg\_speed} \approx 0{,}0174$ (gegenüber wahr $0{,}015$). Dieser leichte Überschätzung ist mit dem Stichprobenzufall
|
||||||
\item Für \texttt{hard\_brakes} wurde $\hat{\beta}_{hard\_brakes} \approx 0{,}0817$ geschätzt (wahr $0{,}10$). Auch hier ist der Unterschied gering; das Vorzeichen und die Effektstärke (positiv, deutlicher Einfluss) wurden korrekt erkannt.
|
erklärbar, liegt aber in derselben Größenordnung.
|
||||||
\item Die Dummyeffekte für das Schaltverhalten wurden zu $\hat{\beta}_{frueh} \approx -0{,}815$ und $\hat{\beta}_{normal} \approx -0{,}808$ geschätzt (Referenz \emph{spät} mit $\hat{\beta}_{spaet} = 0$). Die wahren Unterschiede (Früh/Normal vs.~Spät) betrugen $-0{,}8$. Somit liegen die Schätzungen praktisch genau auf den erwarteten Werten.
|
\item Für \texttt{hard\_brakes} wurde $\hat{\beta}_{hard\_brakes} \approx 0{,}0817$ geschätzt (wahr $0{,}10$). Auch hier ist der Unterschied gering; das Vorzeichen und die
|
||||||
\item Für die Speeding-Kategorien ergaben sich $\hat{\beta}_{selten} \approx -0{,}834$ und \newline $\hat{\beta}_{manchmal} \approx -0{,}834$ (Referenz \emph{häufig}). Die wahren Unterschiede zu \emph{häufig} waren $-0{,}8$. Auch hier stimmen Richtung und Größe nahezu überein.
|
Effektstärke (positiv, deutlicher Einfluss) wurden korrekt erkannt.
|
||||||
\item Den Interzept schätzte das Modell mit $\hat{\beta}_{0} \approx -1{,}05$ (wahr $-2$). Diese Abweichung erklärt sich durch die Dummy-Kodierung der Kategorien: Im generativen Modell hatten die Referenzkategorien \emph{spät} und \emph{häufig} jeweils einen positiven Beitrag von $+0{,}5$, welcher im geschätzten Modell im Interzept aufgefangen wird. Berücksichtigt man diese Verschiebung, liegt der Interzept im Rahmen.
|
\item Die Dummyeffekte für das Schaltverhalten wurden zu $\hat{\beta}_{frueh} \approx -0{,}815$ und $\hat{\beta}_{normal} \approx -0{,}808$ geschätzt (Referenz \emph{spät}
|
||||||
|
mit $\hat{\beta}_{spaet} = 0$). Die wahren Unterschiede (Früh/Normal vs.~Spät) betrugen $-0{,}8$. Somit liegen die Schätzungen praktisch genau auf den erwarteten Werten.
|
||||||
|
\item Für die Speeding-Kategorien ergaben sich $\hat{\beta}_{selten} \approx -0{,}834$ und \newline $\hat{\beta}_{manchmal} \approx -0{,}834$ (Referenz \emph{häufig}).
|
||||||
|
Die wahren Unterschiede zu \emph{häufig} waren $-0{,}8$. Auch hier stimmen Richtung und Größe nahezu überein.
|
||||||
|
\item Den Interzept schätzte das Modell mit $\hat{\beta}_{0} \approx -1{,}05$ (wahr $-2$). Diese Abweichung erklärt sich durch die Dummy-Kodierung der Kategorien:
|
||||||
|
Im generativen Modell hatten die Referenzkategorien \emph{spät} und \emph{häufig} jeweils einen positiven Beitrag von $+0{,}5$,
|
||||||
|
welcher im geschätzten Modell im Interzept aufgefangen wird. Berücksichtigt man diese Verschiebung, liegt der Interzept im Rahmen.
|
||||||
\end{itemize}
|
\end{itemize}
|
||||||
Somit hat der Data Scientist durch das systematische Vorgehen tatsächlich \textbf{das zugrunde liegende Modell (bis auf Zufallsschwankungen) wiederentdeckt}. Insbesondere wurden keine falschen Variablen im Endmodell behalten und keine echten Einflüsse übersehen. Die logistische Regressionsgleichung aus der Stichprobe stimmt inhaltlich mit der zur Datengenerierung überein.
|
Somit hat der Data Scientist durch das systematische Vorgehen tatsächlich \textbf{das zugrunde liegende Modell (bis auf Zufallsschwankungen) wiederentdeckt}.
|
||||||
|
Insbesondere wurden keine falschen Variablen im Endmodell behalten und keine echten Einflüsse übersehen. Die logistische Regressionsgleichung aus der Stichprobe stimmt inhaltlich
|
||||||
|
mit der zur Datengenerierung überein.
|
||||||
|
|
||||||
\noindent
|
\noindent
|
||||||
\newline
|
\newline
|
||||||
Abschließend wurde die Güte des Modells anhand der Testdaten (30\,\% der Stichprobe) überprüft. Die Vorhersagen der Diebstahlwahrscheinlichkeit zeigten eine gute Trennschärfe zwischen Diebstahl- und Normalfahrten (AUC $>0,8$; ca.~77\,\% richtige Klassifikationen bei geeignetem Schwellenwert). Dies verdeutlicht, dass die identifizierten Merkmale tatsächlich die Variation in der Zielvariable erklären können.
|
Abschließend wurde die Güte des Modells anhand der Testdaten (30\,\% der Stichprobe) überprüft. Die Vorhersagen der Diebstahlwahrscheinlichkeit zeigten eine gute Trennschärfe
|
||||||
|
zwischen Diebstahl- und Normalfahrten (AUC $>0,8$; ca.~77\,\% richtige Klassifikationen bei geeignetem Schwellenwert). Dies verdeutlicht, dass die identifizierten Merkmale
|
||||||
|
tatsächlich die Variation in der Zielvariable erklären können.
|
||||||
|
|
||||||
\section{Güte der Modellparameter}
|
\section{Güte der Modellparameter}
|
||||||
In einem letzten Schritt wurde untersucht, wie verlässlich die Modellschätzung bei unterschiedlicher Datenmenge ist. Insbesondere stellt sich die Frage, welchen Einfluss der Stichprobenumfang $n$ auf die Präzision der geschätzten Regressionskoeffizienten hat. Hierzu wurde ein Monte-Carlo-Simulationsansatz gewählt: Aus der Grundgesamtheit wurden für verschiedene Umfangswerte $n$ jeweils $k = 1000$ Zufallsstichproben gezogen, darauf jeweils das optimale Modell aus Abschnitt~3 (mit den 4 relevanten Variablen) erneut trainiert, und die Verteilungen der resultierenden $\hat{\beta}$-Koeffizienten analysiert.
|
In einem letzten Schritt wurde untersucht, wie verlässlich die Modellschätzung bei unterschiedlicher Datenmenge ist. Insbesondere stellt sich die Frage, welchen Einfluss der
|
||||||
|
Stichprobenumfang $n$ auf die Präzision der geschätzten Regressionskoeffizienten hat. Hierzu wurde ein Monte-Carlo-Simulationsansatz gewählt: Aus der Grundgesamtheit wurden für
|
||||||
|
verschiedene Umfangswerte $n$ jeweils $k = 1000$ Zufallsstichproben gezogen, darauf jeweils das optimale Modell aus Abschnitt~3 (mit den 4 relevanten Variablen) erneut trainiert,
|
||||||
|
und die Verteilungen der resultierenden $\hat{\beta}$-Koeffizienten analysiert.
|
||||||
|
|
||||||
\noindent
|
\noindent
|
||||||
\newline
|
\newline
|
||||||
Untersucht wurde exemplarisch der Koeffizient $\beta_{avg\_speed}$, der Effekt der Durchschnittsgeschwindigkeit. Die Ergebnisse sind in Abbildung~\ref{fig:beta_dist} dargestellt, welche die Verteilungen von $\hat{\beta}_{avg\_speed}$ für drei verschiedene Stichprobenumfänge gegenüberstellt. Man erkennt deutlich, dass \textbf{mit wachsendem $n$ die Verteilung der Koeffizientenschätzungen immer schmaler wird} und sich enger um den wahren Wert konzentriert. Für kleine Stichproben ($n=1000$) schwanken die geschätzten $\beta$ noch sehr stark -- die Verteilung ist breit und umfasst Werte von nahe 0 bis etwa 0,03. Bei mittlerer Stichprobe ($n=11000$) ist die Streuung bereits deutlich geringer. Im Fall $n=46000$ liegen nahezu alle Schätzungen dicht bei $\beta\approx0{,}015$; die Kurve ist stark konzentriert. Diese Beobachtung entspricht der erwarteten Verbesserung der Schätzgenauigkeit: Je mehr Daten zur Verfügung stehen, desto weniger zufällig streuen die geschätzten Parameter um den wahren Wert.
|
Untersucht wurde exemplarisch der Koeffizient $\beta_{avg\_speed}$, der Effekt der Durchschnittsgeschwindigkeit. Die Ergebnisse sind in Abbildung~\ref{fig:beta_dist} dargestellt,
|
||||||
|
welche die Verteilungen von $\hat{\beta}_{avg\_speed}$ für drei verschiedene Stichprobenumfänge gegenüberstellt. Man erkennt deutlich, dass
|
||||||
|
\textbf{mit wachsendem $n$ die Verteilung der Koeffizientenschätzungen immer schmaler wird} und sich enger um den wahren Wert konzentriert. Für kleine Stichproben ($n=1000$)
|
||||||
|
schwanken die geschätzten $\beta$ noch sehr stark -- die Verteilung ist breit und umfasst Werte von nahe 0 bis etwa 0,03. Bei mittlerer Stichprobe ($n=11000$) ist die Streuung
|
||||||
|
bereits deutlich geringer. Im Fall $n=46000$ liegen nahezu alle Schätzungen dicht bei $\beta\approx0{,}015$; die Kurve ist stark konzentriert. Diese Beobachtung entspricht der
|
||||||
|
erwarteten Verbesserung der Schätzgenauigkeit: Je mehr Daten zur Verfügung stehen, desto weniger zufällig streuen die geschätzten Parameter um den wahren Wert.
|
||||||
|
|
||||||
\begin{figure}[h]
|
\begin{figure}[h]
|
||||||
\centering
|
\centering
|
||||||
\includegraphics[width=0.8\textwidth]{fig_beta_distribution.png}
|
\includegraphics[width=0.8\textwidth]{fig_beta_distribution.png}
|
||||||
\caption{Verteilungen des geschätzten Koeffizienten $\hat{\beta}_{avg\_speed}$ aus 1000 Simulationen für drei Stichprobenumfänge ($n=1000$, $n=11000$, $n=46000$). Mit größerem $n$ wird die Verteilung deutlich schmaler und konzentriert sich stärker um den wahren Wert ($\beta_{avg\_speed}=0{,}015$, gestrichelte Linie).}
|
\caption{Verteilungen des geschätzten Koeffizienten $\hat{\beta}_{avg\_speed}$ aus 1000 Simulationen für drei Stichprobenumfänge ($n=1000$, $n=11000$, $n=46000$). Mit größerem $n$
|
||||||
|
wird die Verteilung deutlich schmaler und konzentriert sich stärker um den wahren Wert ($\beta_{avg\_speed}=0{,}015$, gestrichelte Linie).}
|
||||||
\label{fig:beta_dist}
|
\label{fig:beta_dist}
|
||||||
\end{figure}
|
\end{figure}
|
||||||
|
|
||||||
\noindent
|
\noindent
|
||||||
\newline
|
\newline
|
||||||
Zur Quantifizierung wurde für jede Stichprobengröße $n$ die \textbf{empirische Standardabweichung} der $\hat{\beta}_{avg\_speed}$-Schätzungen aus den 1000 Wiederholungen bestimmt. Abbildung~\ref{fig:std_n} zeigt die Entwicklung dieser Streuung in Abhängigkeit von $n$. Deutlich ist ein abnehmender Verlauf erkennbar. Die Kurve folgt näherungsweise der theoretischen Proportionalität $\sigma(\hat{\beta}) \sim \frac{1}{\sqrt{n}}$ (rot eingezeichnet). Die in der Simulation gemessenen Werte (blaue Punkte) liegen dicht auf der $1/\sqrt{n}$-Linie, was die theoretische Erwartung bestätigt.
|
Zur Quantifizierung wurde für jede Stichprobengröße $n$ die \textbf{empirische Standardabweichung} der $\hat{\beta}_{avg\_speed}$-Schätzungen aus den 1000 Wiederholungen bestimmt.
|
||||||
|
Abbildung~\ref{fig:std_n} zeigt die Entwicklung dieser Streuung in Abhängigkeit von $n$. Deutlich ist ein abnehmender Verlauf erkennbar. Die Kurve folgt näherungsweise der
|
||||||
|
theoretischen Proportionalität $\sigma(\hat{\beta}) \sim \frac{1}{\sqrt{n}}$ (rot eingezeichnet). Die in der Simulation gemessenen Werte (blaue Punkte) liegen dicht auf der
|
||||||
|
$1/\sqrt{n}$-Linie, was die theoretische Erwartung bestätigt.
|
||||||
|
|
||||||
\begin{figure}[h]
|
\begin{figure}[h]
|
||||||
\centering
|
\centering
|
||||||
\includegraphics[width=0.8\textwidth]{fig_std_vs_n.png}
|
\includegraphics[width=0.8\textwidth]{fig_std_vs_n.png}
|
||||||
\caption{Standardabweichung von $\hat{\beta}_{avg\_speed}$ in Abhängigkeit des Stichprobenumfangs $n$. Gezeigte Punkte basieren auf $k=1000$ Simulationen je Umfang; die rote Kurve visualisiert ein $1/\sqrt{n}$-Gesetz. Man erkennt, dass die Streuung der Schätzungen mit wachsendem $n$ deutlich abnimmt und sich näherungsweise nach $\propto n^{-1/2}$ verhält.}
|
\caption{Standardabweichung von $\hat{\beta}_{avg\_speed}$ in Abhängigkeit des Stichprobenumfangs $n$. Gezeigte Punkte basieren auf $k=1000$ Simulationen je Umfang; die rote Kurve
|
||||||
|
visualisiert ein $1/\sqrt{n}$-Gesetz. Man erkennt, dass die Streuung der Schätzungen mit wachsendem $n$ deutlich abnimmt und sich näherungsweise nach $\propto n^{-1/2}$ verhält.}
|
||||||
\label{fig:std_n}
|
\label{fig:std_n}
|
||||||
\end{figure}
|
\end{figure}
|
||||||
|
|
||||||
\noindent
|
\noindent
|
||||||
\newline
|
\newline
|
||||||
Diese Ergebnisse illustrieren den wichtigen Zusammenhang zwischen Datenmenge und \textbf{Modelllernqualität}. Bereits zwischen $n=1000$ und $n=10000$ verbessert sich die Präzision der Koeffizientenschätzung erheblich. Noch größere Datenmengen führen zu weiter sinkender Unsicherheit, allerdings mit abnehmendem Grenznutzen (die Kurve flacht ab). Insgesamt zeigt die Simulation, dass zur zuverlässigen Identifikation kleiner Effekte (wie $\beta_{avg\_speed}\approx0{,}015$) eine ausreichend große Stichprobe notwendig ist. Mit $n \to 50.000$ nähert sich die Streuung einem Wert an, der durch die inhärente Ergebnisvarianz (bedingt durch den Rauschterm $\varepsilon$) begrenzt ist. Für das vorliegende Problem bedeutet dies: Je mehr Fahrten der Data Scientist zur Verfügung hat, desto genauer kann er die wahren Fahrerwechsel-Einflüsse schätzen und desto vertrauenswürdiger sind die vom Modell ausgegebenen Diebstahlwahrscheinlichkeiten.
|
Diese Ergebnisse illustrieren den wichtigen Zusammenhang zwischen Datenmenge und \textbf{Modelllernqualität}. Bereits zwischen $n=1000$ und $n=10000$ verbessert sich die
|
||||||
|
Präzision der Koeffizientenschätzung erheblich. Noch größere Datenmengen führen zu weiter sinkender Unsicherheit, allerdings mit abnehmendem Grenznutzen (die Kurve flacht ab).
|
||||||
|
Insgesamt zeigt die Simulation, dass zur zuverlässigen Identifikation kleiner Effekte (wie $\beta_{avg\_speed}\approx0{,}015$) eine ausreichend große Stichprobe notwendig ist.
|
||||||
|
Mit $n \to 50.000$ nähert sich die Streuung einem Wert an, der durch die inhärente Ergebnisvarianz (bedingt durch den Rauschterm $\varepsilon$) begrenzt ist. Für das vorliegende
|
||||||
|
Problem bedeutet dies: Je mehr Fahrten der Data Scientist zur Verfügung hat, desto genauer kann er die wahren Fahrerwechsel-Einflüsse schätzen und desto vertrauenswürdiger sind die
|
||||||
|
vom Modell ausgegebenen Diebstahlwahrscheinlichkeiten.
|
||||||
|
|
||||||
\clearpage
|
\clearpage
|
||||||
\printbibliography[title=Literaturverzeichnis]
|
\printbibliography[title=Literaturverzeichnis]
|
||||||
|
|||||||
File diff suppressed because one or more lines are too long
Reference in New Issue
Block a user