datengrundlage
This commit is contained in:
@@ -20,6 +20,36 @@
|
||||
"## Erzeugung der Grundgesamtheit"
|
||||
]
|
||||
},
|
||||
{
|
||||
"cell_type": "markdown",
|
||||
"id": "a5fe9381",
|
||||
"metadata": {},
|
||||
"source": [
|
||||
"### Datengrundlage\n",
|
||||
"\n",
|
||||
"1. **Durchschnittsgeschwindigkeit (metrisch):** Durchschnittliche Fahrgeschwindigkeit (z.B. über eine Fahrt oder ein Zeitfenster). Natürliche Verteilung z. B. etwa normal um ungefähr 47 km/h (29 mph) mit breiter Streuung. Aggressive Fahrer neigen tendenziell zu höheren Mittelwerten. Diese Variable ist voraussichtlich prädiktiv, da ein anderer Fahrer oft abweichende Geschwindigkeitsprofile hat\n",
|
||||
" \n",
|
||||
" → Die Verteilung der Variable wurde basierend auf dieser Studie in USA erstellt: https://www.nhtsa.gov/sites/nhtsa.gov/files/100carmain.pdf (100 Autos, 241 Fahrer)\n",
|
||||
" \n",
|
||||
"2. **Längsbeschleunigung (metrisch):** Maß für das Beschleunigungsverhalten (z.B. Wurzel aus mittlerem Quadrat der Längsbeschleunigung über die Fahrt). Naturalistisch gesammelte Daten zeigen, dass Beschleunigungsprofile relevant für Fahrstil sind. Bei älteren Fahrern wurden insbesondere Längsbeschleunigungsmuster als informativer befunden. Wir simulieren etwa eine Verteilung um Null mit positiver Spitze (Fahrerspezifikationen). Moderate Abhängigkeit zu Bremsereignissen durch aggressives Fahrverhalten.\n",
|
||||
"→ Die Erkenntnisse basieren auf diesem Report vom Louisiana Transportation Research Center: https://www.ltrc.lsu.edu/pdf/2017/FR_580.pdf\n",
|
||||
"3. **Harte Bremsmanöver (metrisch):** Harte Bremsmanöver sind Fahrmanöver mit hoher negativer Beschleunigung (oft >0,3g). Tesla definiert beispielsweise „Hard Braking“ ab etwa 0,3g Bremsverzögerung (https://www.findmyelectric.com/blog/tesla-safety-score-beta-explained). Wir modellieren diese Zahl z.B. Poisson-verteilt mit kleinem Mittelwert (einige Ereignisse pro 100 km zb). Harte Bremsungen korrelieren moderat mit aggressiven Kurvenfahren. Diese Variable ist prädiktiv (abweichender Fahrer bremst anders).\n",
|
||||
"4. **Aggressive Kurvenfahrten (metrisch):** Anzahl oder Rate von extremen Kurvenmanövern (z.B. seitliche Beschleunigung >0,4g). Tesla definiert so „aggressives Kurvenfahren“ (https://www.findmyelectric.com/blog/tesla-safety-score-beta-explained/). Wir simulieren z.B. eine Poisson-Verteilung mit sehr kleinem Mittelwert (im Schnitt wenig Kurven mit >0,4g). Diese Variable ist prädiktiv, da ein fremder Fahrer oft anders (bzw aggressiver) durch Kurven fährt.\n",
|
||||
"5. **Straßentyp (nominal, 3 Kategorien):**\n",
|
||||
" 1. auf den deutschen Autobahnen wird ungefähr 30-33% der gesamten Kraftfahrzeugleistung abgewickelt (https://www.udv.de/resource/blob/130998/103ded9eaf113e61851a464843e306d2/79-vs-auf-bab-data.pdf)\n",
|
||||
" 2. 43 % der Pkw-Kilometer werden außerorts zurückgelegt (https://openumwelt.de/server/api/core/bitstreams/07bd23f9-ff0a-41e5-b89b-8d7baf0a5c36/content)\n",
|
||||
" 3. demnach bleiben ungefähr 24-27% als innerorts zurückgelegte Strecke\n",
|
||||
" \n",
|
||||
" Wir modellieren dies als nominale Zufallsvariable (z.B. multinomial mit diesen Anteilen). Straßentyp beeinflusst zwar Tempo und Beschleunigung, ist aber selbst nur eine Kontextinformation, **kein direkter Prädiktor** für einen Fahrertausch.\n",
|
||||
" \n",
|
||||
"6. **Wetterbedingungen (nominal, 3 Kategorien):** Diese Kontextvariable beschreibt die Witterungsverhältnisse während einer Fahrt – trocken, nass oder winterlich (Schnee/Eis). Sie wird als **nicht erklärende Variable** im Modell geführt, da sie nicht direkt auf die Identität des Fahrers hinweist, aber realistische Umweltbedingungen abbildet. Die Einteilung basiert auf Daten des Statistischen Bundesamtes: Etwa 70–75 % aller Fahrten finden unter trockenen Bedingungen statt, 20–25 % bei Nässe und unter 5 % bei Schnee oder Glätte.\n",
|
||||
"\n",
|
||||
"Von der Mobilitätsstudie 2017 in Deutschland sind folgende Variablen abzuleiten (https://www.bmv.de/SharedDocs/DE/Anlage/G/mid-ergebnisbericht.pdf):\n",
|
||||
"\n",
|
||||
"1. **Fahrstrecke (metrisch):** Länge der Fahrt in Kilometern. Aus dem Mobilitätsverhalten in Deutschland beträgt die durchschnittliche Weglänge ca. 12 km. Wir simulieren die Fahrstrecke z.B. lognormal um diesen Mittelwert. Diese Variable steht nur indirekt mit „Fahrverhalten“ im Sinne von Nutzung in Zusammenhang und ist **nicht erklärend** für den Fahrertausch.\n",
|
||||
"2. **Wochentag (nominal, 2–3 Kategorien):** Wochentag oder Woche vs. Wochenende. Verkehrsdaten zeigen z.B. an Wochentagen ca. 3,7 Wege pro Person/Tag, an Sonntagen nur etwa 2,1 Wege. Man kann Kategorien *Werktag* vs *Wochenende* (oder Mo/Di–Fr/Sa/So) bilden. Diese Variable ist für einen Fahrerwechsel irrelevant (sie gehört zum Fahrtenkontext, nicht zur Fahrverhalten)."
|
||||
]
|
||||
},
|
||||
{
|
||||
"cell_type": "code",
|
||||
"execution_count": 6,
|
||||
@@ -235,34 +265,6 @@
|
||||
"data.head()"
|
||||
]
|
||||
},
|
||||
{
|
||||
"cell_type": "markdown",
|
||||
"id": "46ab8c99",
|
||||
"metadata": {},
|
||||
"source": [
|
||||
"### Beschreibung und Begründung zur Erzeugung der Grundgesamtheit\n",
|
||||
"\n",
|
||||
"Diese Daten liegen dem offiziellen **Mobilitätsbericht** aus 2023 zugrunde (https://www.mobilitaet-in-deutschland.de/pdf/MiD2023_Kurzbericht.pdf):\n",
|
||||
"- **Unterwegszeit**: metrisch; Mittelwert: 28,4min; Median: 15min\n",
|
||||
"- **Streckenlänge**: metrisch, Mittelwert: 11,9km; Median: 3,8km\n",
|
||||
"- **Durchschnittliche Geschwindigkeit**: Die mittlere Geschwindigkeit ergibt sich aus der Summe aller Streckenlängen geteilt durch die Summe aller unterwegszeiten: \n",
|
||||
"$\\overline{v} = \\frac{\\sum \\text{Streckenlänge}}{\\sum \\text{Unterwegszeit}} \\approx$ 12 km/h\n",
|
||||
"- **Fahrzeitpunkt:** Ordinalskaliert, 7 Ausprägungen: \n",
|
||||
" - frühmorgens (5 bis vor 8 Uhr): ungefähr 30 Mio\n",
|
||||
" - morgens (8 bis vor 10 Uhr): ungefähr 31 Mio \n",
|
||||
" - vormittags (10 bis vor 13 Uhr): ungefähr 51 Mio \n",
|
||||
" - mittags (13 bis vor 16 Uhr): ungefähr 59 Mio \n",
|
||||
" - nachmittags (16 bis vor 19 Uhr): ungefähr 61 Mio \n",
|
||||
" - abends (19 bis vor 22 Uhr): ungefähr 22 Mio \n",
|
||||
" - nachts (22 bis vor 5 Uhr): ungefähr 7 Mio \n",
|
||||
"\n",
|
||||
"Diese Daten wurden hypothetisch basierend auf realistischen Annahmen für typische Fahrten erstellt:\n",
|
||||
"- **Schaltverhalten:** Nominalskaliert, 3 Ausprägungen. Wahrscheinlichkeiten basieren auf Erfahrungswerten (früh: 30%, normal: 50%, spät: 20%).\n",
|
||||
"- **Drehzahl, Außentemperatur:** Metrisch, normalverteilt. Parameter basieren auf realistischen Annahmen für typische Fahrten.\n",
|
||||
"- **Anzahl Stopps:** Abhängig von Fahrtdauer, da längere Fahrten tendenziell mehr Stopps beinhalten.\n",
|
||||
"- **Zielvariable:** Funktional abhängig von Schaltverhalten, Fahrzeitpunkt, Drehzahl und Geschwindigkeit. Die logistische Funktion stellt sicher, dass die Annahmen des logistischen Regressionsmodells erfüllt sind, weil wir eine Klassifizierung haben. Ein Störterm sorgt für realistische Varianz."
|
||||
]
|
||||
},
|
||||
{
|
||||
"cell_type": "code",
|
||||
"execution_count": 8,
|
||||
|
||||
Reference in New Issue
Block a user