init ergebnisbericht

2025-07-04 13:04:11 +02:00
parent d4e6b4267e
commit 7d252d1ed1
8 changed files with 255 additions and 6 deletions
@@ -67,7 +67,7 @@
    " Die Einteilung basiert auf Daten des Statistischen Bundesamtes: Etwa 70–75 % aller Fahrten finden unter trockenen Bedingungen statt, 20–25 % bei Nässe und unter 5 % bei Schnee oder Glätte.\n",
    "\n",
    "6. **Fahrstrecke (metrisch):**  \n",
-    "   Länge der Fahrt (z.B. lognormalverteilt um 12 km). Kontextvariable, nicht direkt erklärend.  \n",
+    "   Länge der Fahrt (z.B. lognormalverteilt um 16 km). Kontextvariable, nicht direkt erklärend.  \n",
    "   → Quelle: [Mobilität in Deutschland 2017 – Ergebnisbericht](https://www.bmv.de/SharedDocs/DE/Anlage/G/mid-ergebnisbericht.pdf)\n",
    "\n",
    "   \n",
@@ -121,7 +121,7 @@
  },
  {
   "cell_type": "code",
-   "execution_count": 42,
+   "execution_count": null,
   "id": "61247da5",
   "metadata": {},
   "outputs": [],
@@ -153,7 +153,7 @@
    "weather = np.random.choice(['trocken', 'nass', 'winterlich'], size=N, p=[0.75, 0.2, 0.05])\n",
    "\n",
    "# 6. Fahrstrecke (metrisch, lognormal)\n",
-    "mu, sigma = np.log(12), 0.7\n",
+    "mu, sigma = np.log(16), 0.7\n",
    "trip_distance = np.random.lognormal(mean=mu, sigma=sigma, size=N)\n",
    "\n",
    "# 7. Straßentyp (nominal, Kontext) – Abhängigkeit von trip_distance mit Softmax-Funktion\n",
@@ -740,7 +740,7 @@
  },
  {
   "cell_type": "code",
-   "execution_count": 48,
+   "execution_count": null,
   "id": "75318d77",
   "metadata": {},
   "outputs": [
@@ -794,6 +794,8 @@
    "# Zielvariable simulieren\n",
    "target = np.random.binomial(1, pi)\n",
    "\n",
+    "print(\"Anzahl Diebstähle:\", np.sum(target))\n",
+    "\n",
    "plt.figure(figsize=(10, 6))\n",
    "sns.countplot(x=target, palette='viridis')\n",
    "plt.title('Verteilung der Zielvariable (Diebstahl: ja/nein)')\n",
@@ -845,7 +847,7 @@
    "Alle Beta-Werte wurden bewusst reduziert (unterhalb von 0.1), um eine Übergewichtung einzelner Faktoren zu vermeiden und die Zielvariable `Diebstahl` in einem nahe zu realistischen Bereich zu halten. Eine stärkere Gewichtung hätte zu einer zu häufigen Klassifikation als Diebstahl geführt.\n",
    "\n",
    "```visualisierung\n",
-    "Die grafische Darstellung zeigt, dass rund 25 % der Fahrten als potenzielle Diebstähle klassifiziert wurden - ein geeignetes Trainingsverhältnis für ein Klassifikationsmodell.\n",
+    "Die grafische Darstellung zeigt, dass rund 20 % der Fahrten als potenzielle Diebstähle klassifiziert wurden - ein geeignetes Trainingsverhältnis für ein Klassifikationsmodell.\n",
    "```\n",
    "\n"
   ]
@@ -1411,7 +1413,7 @@
    "\n",
    "- **hard_brakes**: Poisson-Verteilung mit λ ≈ 2, erkennbar an der rechtschiefen Verteilung mit einem Peak bei niedrigen Werten (0-2 harte Bremsmanöver). Die meisten Fahrten haben wenige bis gar keine harten Bremsmanöver, was realistisch ist.\n",
    "\n",
-    "- **trip_distance**: Lognormalverteilung mit deutlicher Rechtsschiefe. Die meisten Fahrten sind kurz (um 12 km), aber es gibt einen langen Schwanz mit wenigen sehr langen Fahrten. Dies entspricht typischen Fahrtmustern, bei denen viele kurze Fahrten und wenige lange Strecken gefahren werden.\n",
+    "- **trip_distance**: Lognormalverteilung mit deutlicher Rechtsschiefe. Die meisten Fahrten sind kurz (um 16 km), aber es gibt einen langen Schwanz mit wenigen sehr langen Fahrten. Dies entspricht typischen Fahrtmustern, bei denen viele kurze Fahrten und wenige lange Strecken gefahren werden.\n",
    "\n",
    "Die Boxplots zeigen zusätzlich die Quartile und identifizieren Ausreißer, die bei allen drei Variablen vorhanden sind, aber besonders bei trip_distance aufgrund der Lognormalverteilung."
   ]