Mathematische Modellierung Praxis - Exam
Aufgabe 1)
Gegeben ist eine Datensammlung, die den Zusammenhang zwischen der Anzahl der verkauften Eiskugeln (y) und der Temperatur (x) beschreibt. Du sollst sowohl ein lineares als auch ein nichtlineares Modell zur Vorhersage der Anzahl der verkauften Eiskugeln erstellen und analysieren.
a)
Betrachte zunächst das lineare Modell der Form:
\[ y = ax + b \]
- Schätze die Parameter a und b durch lineare Regression unter Verwendung der Methode der kleinsten Quadrate. Zeige alle Rechenschritte explizit.
- Beurteile die Güte des Modells, indem Du den Korrelationskoeffizienten und den Standardfehler berechnest. Was sagt Dir diese Bewertung über das Modell aus?
Lösung:
Um das lineare Modell der Form: \[ y = ax + b \] zu erstellen und die Parameter a und b zu schätzen, folgen wir den untenstehenden Schritten:
- Datensammlung und Vorverarbeitung: Nehmen wir an, wir haben eine Tabelle mit den aufgezeichneten Temperaturen (x) und der Anzahl der verkauften Eiskugeln (y):
Temperatur (x) | Verkaufte Eiskugeln (y) |
20 | 15 |
25 | 25 |
30 | 40 |
35 | 60 |
- Parameter a und b schätzen: Die Methode der kleinsten Quadrate wird verwendet, um a und b zu schätzen. Die Formeln sind: \[ a = \frac{n\sum(xy) - \sum{x}\sum{y}}{n\sum{x^2} - (\sum{x})^2} \] und \[ b = \frac{\sum{y}\sum{x^2} - \sum{x}\sum{xy}}{n\sum{x^2} - (\sum{x})^2} \]
- Rechenbeispiel: Berechne \sum{x}, \sum{y}, \sum{xy}, und \sum{x^2}: \[ \sum{x} = 20 + 25 + 30 + 35 = 110 \] \[ \sum{y} = 15 + 25 + 40 + 60 = 140 \] \[ \sum{xy} = 20 \cdot 15 + 25 \cdot 25 + 30 \cdot 40 + 35 \cdot 60 = 300 + 625 + 1200 + 2100 = 4225 \] \[ \sum{x^2} = 20^2 + 25^2 + 30^2 + 35^2 = 400 + 625 + 900 + 1225 = 3150 \] N = 4 (die Anzahl der Datenpunkte). Setze diese Werte in die Formeln ein: \[ a = \frac{4 \cdot 4225 - 110 \cdot 140}{4 \cdot 3150 - 110^2} = \frac{16900 - 15400}{12600 - 12100} = \frac{1500}{500} = 3 \] \[ b = \frac{140 \cdot 3150 - 110 \cdot 4225}{4 \cdot 3150 - 110^2} = \frac{441000 - 464750}{12600 - 12100} = \frac{-23750}{500} = -47.5 \]
- Beurteilung der Güte des Modells: Berechne den Korrelationskoeffizienten (r) und den Standardfehler (SE) für das Modell. Die Formel für den Korrelationskoeffizienten ist: \[ r = \frac{n\sum{xy} - \sum{x}\sum{y}}{\sqrt{(n\sum{x^2} - (\sum{x})^2)(n\sum{y^2} - (\sum{y})^2)}} \] Berechne die benötigten Summen: \[ \sum{y^2} = 15^2 + 25^2 + 40^2 + 60^2 = 225 + 625 + 1600 + 3600 = 6050 \] Setze diese Werte in die Formel ein: \[ r = \frac{4 \cdot 4225 - 110 \cdot 140}{\sqrt{(4 \cdot 3150 - 110^2)(4 \cdot 6050 - 140^2)}} = \frac{16900 - 15400}{\sqrt{(12600 - 12100)(24200 - 19600)}} = \frac{1500}{\sqrt{500 \cdot 4600}} = \frac{1500}{\sqrt{2300000}} = \frac{1500}{1516.025} \approx 0.989 \]
- Der Korrelationskoeffizient (r \approx 0.989) weist auf eine starke lineare Beziehung hin. Der Standardfehler (SE) kann wie folgt berechnet werden: \[ SE = \sqrt{\frac{\sum{(y_i - (ax_i + b))^2}}{n-2}} \]
- Berechne die Fehlerquadrate: \[ (15 - (3 \cdot 20 - 47.5))^2 + (25 - (3 \cdot 25 - 47.5))^2 + (40 - (3 \cdot 30 - 47.5))^2 + (60 - (3 \cdot 35 - 47.5))^2 \] \[ = (15 - 12.5)^2 + (25 - 27.5)^2 + (40 - 37.5)^2 + (60 - 51.5)^2 \] \[ = 2.5^2 + (-2.5)^2 + 2.5^2 + 8.5^2 \] \[ = 6.25 + 6.25 + 6.25 + 72.25 = 91 \] \[ SE = \sqrt{\frac{91}{4-2}} = \sqrt{\frac{91}{2}} = \sqrt{45.5} = 6.74 \]
Zusammenfassung: - Das Modell hat gute Vorhersagefähigkeiten, wie durch den hohen Korrelationskoeffizienten von etwa 0.989 angezeigt wird.
- Der Standardfehler von etwa 6.74 zeigt, dass es etwas Unsicherheit in den Vorhersagen gibt. Es könnten also gegebenenfalls nichtlineare Modelle betrachtet werden, um eine bessere Anpassung zu erreichen.
b)
Betrachte nun das nichtlineare Modell der Form:
\[ y = ax^2 + bx + c \]
- Schätze die Parameter a, b, und c durch nichtlineare Regression. Zeige auch hierbei alle Rechenschritte explizit.
- Vergleiche die Güten beider Modelle anhand des Korrelationskoeffizienten und des Standardfehlers. Erläutere, welches Modell besser geeignet ist und warum.
- Falls das nichtlineare Modell besser geeignet ist: Diskutiere, wie eine Linearisierung des nichtlinearen Modells durchgeführt werden kann und was dies für die Genauigkeit der Vorhersagen bedeuten würde.
Lösung:
Um das nichtlineare Modell der Form: \( y = ax^2 + bx + c \) zu erstellen und die Parameter a, b und c zu schätzen, folgen wir den untenstehenden Schritten:
- Datensammlung und Vorverarbeitung: Nehmen wir an, wir haben die gleiche Tabelle mit den aufgezeichneten Temperaturen (x) und der Anzahl der verkauften Eiskugeln (y):
Temperatur (x) | Verkaufte Eiskugeln (y) |
20 | 15 |
25 | 25 |
30 | 40 |
35 | 60 |
- Parameter a, b und c schätzen: Da es sich hier um ein nichtlineares Modell handelt, verwenden wir die Methode der kleinsten Quadrate in einer nichtlinearen Form. Wir benötigen daher Software oder numerische Methoden zur Lösung dieser Regression. In Python können wir beispielsweise die Funktion
numpy.polyfit
verwenden:
import numpy as np x = np.array([20, 25, 30, 35]) y = np.array([15, 25, 40, 60]) # Polyfit für ein quadratisches Modell (y = ax^2 + bx + c) coefficients = np.polyfit(x, y, 2) a, b, c = coefficients print(f"a = {a}, b = {b}, c = {c}")
Angenommen, nach der Auswertung ergibt sich: a = 0.5, b = 2, c = -10
Beurteilung der Güte des Modells: Berechne den Korrelationskoeffizienten (r) und den Standardfehler (SE) für das Modell. Da der Korrelationskoeffizient für nichtlineare Modelle weniger gebräuchlich ist, nutzen wir das Bestimmtheitsmaß (R²) zur Gütebeurteilung: from sklearn.metrics import r2_score # Vorhergesagte y-Werte y_pred = a * x**2 + b * x + c # Bestimmtheitsmaß (R²) r2 = r2_score(y, y_pred) print(f"R² = {r2}")
Angenommen, nach dieser Bewertung ergibt sich ein sehr hoher Wert von etwa R² = 0.998
. Dies deutet auf eine sehr gute Anpassung hin. Der Standardfehler (SE) kann ähnlich wie vorher berechnet werden: SE = np.sqrt(np.sum((y - y_pred)**2) / (len(y) - 3)) print(f"SE = {SE}")
Angenommen, dies ergibt etwa 1.22.
Modellvergleich: Jetzt vergleichen wir den Korrelationskoeffizienten und den Standardfehler des nichtlinearen Modells mit dem linearen Modell: Lineares Modell: R² ≈ 0.98, SE ≈ 6.74 Nichtlineares Modell: R² ≈ 0.998, SE ≈ 1.22 Diskussion über die Linearisierung des nichtlinearen Modells: Ein quadratisches Modell lässt sich nur schwer linearisieren, da es nicht einfach in Form eines linearen Modells geschrieben werden kann. Man könnte mögliche Transformationen der unabhängigen Variable (x) oder der abhängigen Variable (y) in Erwägung ziehen, aber dies würde zu einer neuen Definition des Modells führen. Im Rahmen der einfachen Verkettung von Transformationen verlässt man oft die einfach interpretierbare Struktur des Modells. Eine Linearisierung würde in der Regel zu einem Verlust der Genauigkeit führen, da wir die Vorteile der polynomischen Beziehungen verlieren. Zusammenfassung: - Das nichtlineare Modell zeigt eine deutlich bessere Anpassung an die Daten, was durch den höheren R² und den niedrigeren Standardfehler belegt wird.
- Eine Linearisierung des nichtlinearen Modells ist nicht sinnvoll, da dies die Vorhersagegenauigkeit stark beeinträchtigen würde.
Aufgabe 2)
Ein Unternehmen möchte eine mathematische Modellierung für die Finanzmarktvorhersage entwickeln, um bessere Investitionsentscheidungen treffen zu können. Im ersten Schritt soll dazu das Verhalten eines einfachen dynamischen Systems untersucht werden, das den Zustand des Aktienmarktes beschreibt. Das dynamische System wird durch eine Differentialgleichung beschrieben: \[ \frac{dx(t)}{dt} = ax(t) - b \] Hierbei ist \(x(t)\) der Zustand des Marktes zum Zeitpunkt \(t\), \(a\) und \(b\) sind Konstanten mit \(a, b > 0\). Das Ziel ist es, die Stabilität des Systems zu analysieren und das Langzeitverhalten des Marktes zu ermitteln.
a)
Löse die Differentialgleichung \( \frac{dx(t)}{dt} = ax(t) - b \) unter der Annahme, dass der Anfangszustand des Marktes \( x(0) = x_0 \) ist.
Lösung:
Subexercise: Lösung der Differentialgleichung
Aufgabe: Löse die Differentialgleichung \(\frac{dx(t)}{dt} = ax(t) - b\) unter der Annahme, dass der Anfangszustand des Marktes \( x(0) = x_0 \) ist.
Lösungsschritte:
- Schritt 1: Schreibe die Differentialgleichung explizit auf: \( \frac{dx(t)}{dt} = ax(t) - b\)
- Schritt 2: Trenne die Variablen, um die Differentialgleichung lösen zu können: \( \frac{dx(t)}{ax(t) - b} = dt \)
- Schritt 3: Integriere beide Seiten der Gleichung: \(\int \frac{1}{ax(t) - b} \, dx(t) = \int \,dt\)
- Schritt 4: Ermittle die Stammfunktionen: \( \frac{1}{a} \int \frac{1}{x(t) - \frac{b}{a}} \, dx(t) = \int \, dt \) Die Stammfunktion auf der linken Seite ist: \( \frac{1}{a} \ln|ax(t) - b| \) und auf der rechten Seite: \( t + C \), wobei \( C \) die Integrationskonstante ist. Also: \( \frac{1}{a} \ln|ax(t) - b| = t + C \)
- Schritt 5: Multipliziere beide Seiten der Gleichung mit \(a\), um den Logarithmus zu isolieren: \( \ln|ax(t) - b| = at + C' \), wobei \( C' = aC \) eine neue Integrationskonstante ist.
- Schritt 6: Bilde die Exponentialfunktion auf beiden Seiten, um \(x(t)\) zu isolieren: \( e^{\ln|ax(t) - b|} = e^{at + C'} \) Das vereinfacht sich zu: \( |ax(t) - b| = e^{at + C'} \)
- Schritt 7: Um die Konstante \( e^{C'} \) zu ersetzen, definiere eine neue Konstante \(K\): \( K = e^{C'} \) Also: \( |ax(t) - b| = K e^{at} \)
- Schritt 8:Setze die Anfangsbedingung \( x(0) = x_0 \) ein, um die Konstante \(K\) zu bestimmen: \( |ax_0 - b| = K \) Damit: \( K = |ax_0 - b| \)
- Zusammenführung: Die allgemeine Lösung der Differentialgleichung lautet: \( ax(t) - b = K e^{at} \) oder \( x(t) = \frac{b}{a} + \frac{K}{a} e^{at} \)
- Schritt 9: Einsetzen von \(K\) ergibt: \( x(t) = \frac{b}{a} + (x_0 - \frac{b}{a})e^{at} \)
b)
Untersuche die Stabilität der Lösung. Bestimme, ob das dynamische System stabil, instabil oder asymptotisch stabil ist. Begründe Deine Antwort mathematisch.
Lösung:
Stabilitätsanalyse des dynamischen Systems
Aufgabe: Untersuche die Stabilität der Lösung der Differentialgleichung \(\frac{dx(t)}{dt} = ax(t) - b\). Bestimme, ob das dynamische System stabil, instabil oder asymptotisch stabil ist. Begründe Deine Antwort mathematisch.
Lösungsschritte:
- Schritt 1: Identifiziere die Gleichgewichtslösung der Differentialgleichung. Wir setzen \(\frac{dx}{dt} = 0\), um das Gleichgewicht zu finden: \(0 = ax - b\) Daraus folgt die Gleichgewichtslösung: \(x_{\text{eq}} = \frac{b}{a}\).
- Schritt 2: Untersuche das Verhalten der Lösung \(x(t)\) um das Gleichgewicht \(x_{\text{eq}}\). Die allgemeine Lösung der Differentialgleichung haben wir bereits als \( x(t) = \frac{b}{a} + (x_0 - \frac{b}{a})e^{at} \) gefunden.
- Schritt 3: Betrachte den Term \((x_0 - \frac{b}{a})e^{at}\). Der Exponentialterm \(e^{at}\) hat folgende Eigenschaften:
- Wenn \(a > 0\), dann wächst \(e^{at}\) exponentiell mit der Zeit.
- Wenn \(a < 0\), dann fällt \(e^{at}\) exponentiell mit der Zeit.
- Schritt 4: Analysiere den Fall, dass \(a > 0\): Wenn \(a > 0\), dann geht \(x(t)\) gegen \(\infty\) oder \(-\infty\) (abhängig von \(x_0\)) und ist somit instabil.
- Schritt 5: Analysiere den Fall, dass \(a < 0\): Wenn \(a < 0\), dann geht \(e^{at}\) gegen 0, wenn \(t\) gegen \(\infty\) geht. Daraus folgt, dass \(x(t) \to \frac{b}{a}\). Dies bedeutet, dass das System asymptotisch stabil ist, da die Lösung gegen das Gleichgewicht strebt.
Schlussfolgerung:
Das dynamische System ist asymptotisch stabil, wenn \(a < 0\). Andernfalls ist es instabil. Die Stabilität hängt also direkt von dem Vorzeichen der Konstante \(a\) ab.
c)
Beschreibe das Langzeitverhalten des Marktes. Was passiert mit \( x(t) \), wenn \( t \) gegen Unendlich geht? Gib eine wirtschaftliche Interpretation des Ergebnisses.
Lösung:
Langzeitverhalten des Marktes
Aufgabe: Beschreibe das Langzeitverhalten des Marktes. Was passiert mit \( x(t) \), wenn \( t \) gegen unendlich geht? Gib eine wirtschaftliche Interpretation des Ergebnisses.
Lösungsschritte:
- Schritt 1: Erinnere Dich an die allgemeine Lösung der Differentialgleichung: \( x(t) = \frac{b}{a} + (x_0 - \frac{b}{a})e^{at} \).
- Schritt 2: Analysiere den Exponentialterm für \( t \rightarrow \infty \): Wenn \( a > 0 \), dann wächst \( e^{at} \) exponentiell mit der Zeit, was bedeutet, dass \( x(t) \) sich in Richtung \( \text{unendlich} \) oder \( -\text{unendlich} \) bewegen wird (je nach \( x_0 \)). Wenn \( a < 0 \), dann geht \( e^{at} \) gegen 0, so dass der Term \( (x_0 - \frac{b}{a})e^{at} \) ebenfalls gegen 0 konvergiert. In diesem Fall konvergiert \( x(t) \) gegen \( \frac{b}{a} \).
Schlussfolgerungen:
- Wenn \( a > 0 \): Das System ist instabil, und der Zustand des Marktes \( x(t) \) geht entweder gegen \( \text{unendlich} \) oder \( -\text{unendlich} \). Dies bedeutet, dass der Markt unkontrolliert wachsen oder zusammenbrechen könnte, was auf eine volatile und unsichere Marktsituation hinweist.
- Wenn \( a < 0 \): Das System ist asymptotisch stabil, und der Zustand des Marktes \( x(t) \) konvergiert gegen \( \frac{b}{a} \). Dies bedeutet, dass der Markt langfristig einen stabilen Zustand erreicht, unabhängig vom anfänglichen Zustand \( x_0 \). In einer wirtschaftlichen Interpretation deutet dies darauf hin, dass der Markt trotz anfänglicher Schwankungen oder Schocks langfristig ein stabiles Niveau erreichen wird.
Wirtschaftliche Interpretation:
- Langfristige Stabilität mit \( a < 0 \): Wenn die Wachstumsrate \( a \) negativ ist, bedeutet dies, dass der Marktmechanismus eine regulierende Wirkung hat, die das System schließlich zu einem stabilen Gleichgewichtszustand \( \frac{b}{a} \) führt. Dies zeigt, dass der Markt im Laufe der Zeit Schwankungen ausgleichen kann und zu einem stabilen Zustand neigt, was beruhigend für Investoren und Entscheidungsträger sein kann.
- Langfristige Instabilität mit \( a > 0 \): Wenn die Wachstumsrate \( a \) positiv ist, bedeutet dies, dass der Markt im Laufe der Zeit entweder unkontrolliert wächst oder zusammenbricht. Dieses Verhalten zeigt eine stark volatile und möglicherweise krisenanfällige Marktbedingung, die Anleger risikoscheu machen könnte und mehr Kontrolle oder Regulierung seitens der Marktteilnehmer erforderlich macht.
Aufgabe 3)
Analyse eines Zufallsexperiments: Ein Unternehmen möchte die Zuverlässigkeit seiner Maschinen testen. Dazu wird die Wahrscheinlichkeit, dass eine Maschine innerhalb eines Monats ausfällt, als Zufallsvariable angesehen. Die Wahrscheinlichkeit, dass eine Maschine ausfällt, beträgt 5%. Überprüfe verschiedene Aspekte des Zufallsexperiments und beschreibe die Nachteile und Vorteile der Modellierung durch eine stochastische Methode.
a)
Berechne die Wahrscheinlichkeit, dass von 20 Maschinen in einem Monat mindestens eine Maschine ausfällt. Gib dein Ergebnis auf fünf Dezimalstellen genau an.
Lösung:
Analyse eines Zufallsexperiments
Das Unternehmen möchte die Zuverlässigkeit seiner Maschinen testen, indem es die Wahrscheinlichkeit, dass eine Maschine innerhalb eines Monats ausfällt, als Zufallsvariable betrachtet. Die Ausfallwahrscheinlichkeit der Maschine beträgt 5%.
Berechnung der Wahrscheinlichkeit
Um die Wahrscheinlichkeit zu berechnen, dass von 20 Maschinen mindestens eine Maschine ausfällt, verwenden wir das Komplementärereignis, also die Wahrscheinlichkeit, dass keine Maschine ausfällt, und ziehen diese von 1 ab.
- Die Wahrscheinlichkeit, dass eine Maschine nicht ausfällt, beträgt 0,95 (95%).
- Die Wahrscheinlichkeit, dass keine der 20 Maschinen ausfällt, ist:
\[P(\text{keine Ausfälle}) = 0,95^{20}\]
Berechne dies:
\[P(\text{keine Ausfälle}) = 0,95^{20} = (0,95)^20\]
- Diese Berechnung ergibt ungefähr 0,35849.
- Die Wahrscheinlichkeit, dass mindestens eine Maschine ausfällt, ist daher:
\[P(\text{mindestens ein Ausfall}) = 1 - P(\text{keine Ausfälle})\]
\[P(\text{mindestens ein Ausfall}) = 1 - 0,35849 = 0,64151\]
Die Wahrscheinlichkeit, dass von 20 Maschinen in einem Monat mindestens eine Maschine ausfällt, beträgt also 0,64151 (auf fünf Dezimalstellen genau).
Zusammenfassung
Die Wahrscheinlichkeit, dass mindestens eine von 20 Maschinen innerhalb eines Monats ausfällt, beträgt 64,151%.
b)
Angenommen, das Unternehmen möchte durch Wartungsarbeiten die Ausfallwahrscheinlichkeit pro Maschine auf 3% reduzieren. Bestimme die neue Wahrscheinlichkeit, dass von 20 Maschinen in einem Monat mindestens eine Maschine ausfällt. Vergleiche das Ergebnis mit dem der ersten Berechnung.
Lösung:
Analyse eines Zufallsexperiments
Das Unternehmen möchte die Zuverlässigkeit seiner Maschinen testen, indem es die Wahrscheinlichkeit, dass eine Maschine innerhalb eines Monats ausfällt, als Zufallsvariable betrachtet. Ursprünglich betrug die Ausfallwahrscheinlichkeit der Maschine 5%. Angenommen, durch Wartungsarbeiten reduziert sich diese Wahrscheinlichkeit auf 3%.
Berechnung der neuen Wahrscheinlichkeit
Um die Wahrscheinlichkeit zu berechnen, dass von 20 Maschinen mindestens eine Maschine ausfällt, verwenden wir erneut das Komplementärereignis.
- Die neue Wahrscheinlichkeit, dass eine Maschine nicht ausfällt, beträgt 0,97 (97%).
- Die Wahrscheinlichkeit, dass keine der 20 Maschinen ausfällt, ist:
\[P(\text{keine Ausfälle}) = 0,97^{20}\]
Berechne dies:
\[P(\text{keine Ausfälle}) = 0,97^{20} = (0,97)^20\]
- Diese Berechnung ergibt ungefähr 0,54303.
- Die Wahrscheinlichkeit, dass mindestens eine Maschine ausfällt, ist daher:
\[P(\text{mindestens ein Ausfall}) = 1 - P(\text{keine Ausfälle})\]
\[P(\text{mindestens ein Ausfall}) = 1 - 0,54303 = 0,45697\]
Die Wahrscheinlichkeit, dass von 20 Maschinen in einem Monat mindestens eine Maschine ausfällt, beträgt also 0,45697 (auf fünf Dezimalstellen genau) bei einer reduzierten Ausfallwahrscheinlichkeit von 3%.
Vergleich mit der ersten Berechnung
- Ursprüngliche Wahrscheinlichkeit (bei 5% Ausfallwahrscheinlichkeit pro Maschine): \[P(\text{mindestens ein Ausfall}) = 0,64151\]
- Neue Wahrscheinlichkeit (bei 3% Ausfallwahrscheinlichkeit pro Maschine): \[P(\text{mindestens ein Ausfall}) = 0,45697\]
Durch die Reduzierung der Ausfallwahrscheinlichkeit pro Maschine von 5% auf 3% verringert sich die Wahrscheinlichkeit, dass mindestens eine von 20 Maschinen in einem Monat ausfällt, signifikant von 0,64151 auf 0,45697.
c)
Erläutere, wie der zentrale Grenzwertsatz auf die Berechnung des Mittelwerts der Ausfälle von Maschinen anwendbar ist, wenn das Unternehmen den Prozess über ein Jahr mit monatlichen Beobachtungen von 20 Maschinen fortführt.
Lösung:
Analyse eines Zufallsexperiments
Ein Unternehmen möchte die Zuverlässigkeit seiner Maschinen testen, indem es die Wahrscheinlichkeit, dass eine Maschine innerhalb eines Monats ausfällt, als Zufallsvariable betrachtet. Die Ausfallwahrscheinlichkeit der Maschine beträgt 5%.
Anwendung des zentralen Grenzwertsatzes (ZGS)
Der zentrale Grenzwertsatz (CGS) ist ein fundamentaler Satz der Wahrscheinlichkeitstheorie, der besagt, dass die Summe (oder der Mittelwert) einer großen Anzahl unabhängiger und identisch verteilter Zufallsvariablen näherungsweise normalverteilt ist, unabhängig von der ursprünglichen Verteilung der Variablen.
Schritte zur Anwendung des ZGS
- Stelle das Zufallsexperiment dar: - Monatliche Beobachtungen von 20 Maschinen. - Jede Maschine hat eine Ausfallwahrscheinlichkeit von 5% (p = 0,05).
- Bestimme die Zufallsvariable: - Sei X_i die Zufallsvariable, die den Ausfall der i-ten Maschine im Monat beschreibt. X_i = 1, wenn die Maschine ausfällt, und X_i = 0, wenn nicht. - Sei S die Summe der monatlichen Ausfälle: \[S = \sum_{i=1}^{20} X_i\]
- Erwarte und variiere: - Der Erwartungswert (Erwartung) E[S] ist: \[E[S] = n \times p = 20 \times 0,05 = 1\] - Die Varianz Var(S) ist: \[Var(S) = n \times p \times (1 - p) = 20 \times 0,05 \times 0,95 = 0,95\]
- Ein Jahr mit monatlichen Beobachtungen: - Wiederhole das Experiment jeden Monat für ein Jahr. Das bedeutet, dass das Unternehmen 12 Werte für S (monatliche Summen der Ausfälle) erhält. - Sei Y die Summe dieser monatlichen Ausfälle über ein Jahr. Mit 12 Monaten entspricht das: \[Y = \sum_{j=1}^{12} S_j\]
- Erwarte und variiere für Y: - Der Erwartungswert E[Y] ist: \[E[Y] = 12 \times E[S] = 12 \times 1 = 12\] - Die Varianz Var(Y) ist: \[Var(Y) = 12 \times Var(S) = 12 \times 0,95 = 11,4\]
Aufgrund des zentralen Grenzwertsatzes nähert sich Y einer Normalverteilung mit dem Mittelwert 12 und der Varianz 11,4. Diese Aggregation über einen Zeitraum ermöglicht es, den Mittelwert der Ausfälle statistisch zu analysieren und zuverlässiger zu bewerten.
Vorteile und Nachteile der stochastischen Modellierung
- Vorteile: - Stochastische Modellierung berücksichtigt die Unsicherheiten und Variabilitäten im System. - Liefert probabilistische Vorhersagen, die hilfreich in der Risikoanalyse sind. - Ermöglicht die Anwendung von statistischen Methoden wie dem zentralen Grenzwertsatz.
- Nachteile: - Komplexität: Stochastische Modelle können komplex und schwer zu verstehen sein. - Datenbedarf: Erfordert oft große Datenmengen für verlässliche Ergebnisse. - Interpretationsschwierigkeiten: Ergebnisse sind in Wahrscheinlichkeiten und nicht in deterministischen Aussagen, was die Interpretation erschweren kann.
Der zentrale Grenzwertsatz bietet daher wertvolle Einsichten und nützliche Näherungen, wenn das Unternehmen den Prozess über längere Zeiträume und größere Stichproben fortführt.
d)
Nimm an, dass die Maschinen mit einer Markov-Kette modelliert werden können, bei der der Zustand 'funktioniert' in den Zustand 'ausgefallen' wechseln kann. Beschreibe ein einfaches Modell für die Zustandsübergänge und berechne die langfristige Wahrscheinlichkeit, dass eine Maschine funktioniert.
Lösung:
Analyse eines Zufallsexperiments
Ein Unternehmen möchte die Zuverlässigkeit seiner Maschinen testen, indem es die Wahrscheinlichkeit, dass eine Maschine innerhalb eines Monats ausfällt, als Zufallsvariable betrachtet. Die Ausfallwahrscheinlichkeit der Maschine beträgt 5%.
Modellierung mit einer Markov-Kette
Eine Markov-Kette ist ein mathematisches Modell, bei dem die Zustandsübergänge nur vom aktuellen Zustand abhängen und nicht von der Vorgeschichte.
Einfaches Modell für Zustandsübergänge
Wir betrachten eine Maschine mit zwei Zuständen:
- Funktioniert (F): Die Maschine ist funktionsfähig.
- Ausgefallen (A): Die Maschine ist ausgefallen.
Übergangswahrscheinlichkeiten:
- Funktioniert → Ausgefallen (P(F→A)): 5% (0,05)
- Ausgefallen → Funktioniert (P(A→F)): 95% (0,95)
- Funktioniert → Funktioniert (P(F→F)): 95% (0,95)
- Ausgefallen → Ausgefallen (P(A→A)): 5% (0,05)
Übergangsmatrix:
\[P = \begin{pmatrix} P(F \rightarrow F) & P(F \rightarrow A) \ P(A \rightarrow F) & P(A \rightarrow A) \end{pmatrix} = \begin{pmatrix} 0,95 & 0,05 \ 0,95 & 0,05 \end{pmatrix}\]
Langfristige Wahrscheinlichkeiten
Die langfristige Wahrscheinlichkeit (stationäre Verteilung) eines Zustandes in einer Markov-Kette ist die Verteilung, bei der sich die Wahrscheinlichkeiten nicht mehr ändern. Sei \(\boldsymbol{\pi}\) die stationäre Verteilung, dann gilt:
\[\boldsymbol{\pi}P = \boldsymbol{\pi}\]
Sei \(\boldsymbol{\pi} = (\pi_F, \pi_A)\), wobei \(\pi_F\) die langfristige Wahrscheinlichkeit ist, dass die Maschine funktioniert, und \(\pi_A\) die langfristige Wahrscheinlichkeit ist, dass die Maschine ausgefallen ist.
Wir lösen das Gleichungssystem:
- \[\pi_F = 0,95\pi_F + 0,95\pi_A\]
- \[\pi_A = 0,05\pi_F + 0,05\pi_A\]
- \[\pi_F + \pi_A = 1\] (Normalisierungsbedingung)
Setzen wir die Normalisierungsbedingung \(\pi_A = 1 - \pi_F\) in die erste Gleichung ein:
\[\pi_F = 0,95\pi_F + 0,95(1 - \pi_F)\]
\[\pi_F = 0,95\pi_F + 0,95 - 0,95\pi_F\]
\[\pi_F = 0,95\]
Die langfristige Wahrscheinlichkeit, dass die Maschine funktioniert, beträgt also 95% (\(\pi_F = 0.95\)).
Zusammenfassung
Die langfristige Wahrscheinlichkeit, dass eine Maschine in einem funktionsfähigen Zustand bleibt, wenn sie mit einer Markov-Kette modelliert wird, beträgt 95%. Die langfristige Wahrscheinlichkeit, dass die Maschine ausgefallen ist, beträgt 5%.
Vorteile und Nachteile der stochastischen Modellierung
- Vorteile: - Stochastische Modelle berücksichtigen Unsicherheiten und Variabilitäten im System. - Sie ermöglichen probabilistische Vorhersagen, die in der Risikoanalyse nützlich sind. - Solche Modelle können die Analyse langfristiger Trends und Verhaltensweisen unterstützen.
- Nachteile: - Solche Modelle können komplex sein und sind möglicherweise schwer zu verstehen. - Sie erfordern oft große Datenmengen für verlässliche Ergebnisse. - Die Ergebnisse sind probabilistisch und nicht deterministisch, was die Interpretation erschweren kann.
Aufgabe 4)
Context of the exercise: Du arbeitest in einem Forschungsteam, das die Ausbreitung einer Virusinfektion in einer Großstadt untersucht. Dein Ziel ist es, ein mathematisches Modell zu entwickeln, numerische Algorithmen zur Lösung der Modelle zu implementieren und schließlich die Ergebnisse zu validieren. Für die Simulation und Analyse verwendest Du Python mit der SciPy-Bibliothek.
a)
- Mathematische Modellierung: Entwickle ein einfaches SIR-Modell (SIR: Susceptible, Infected, Recovered) für die Ausbreitung des Virus. Das Modell setzt folgenden Satz von Differentialgleichungen voraus:
- \begin{align} \frac{dS}{dt} &= -\beta S I \ \frac{dI}{dt} &= \beta S I - \theta I \ \frac{dR}{dt} &= \theta I \end{align}
- Erkläre, was die Parameter \beta und \theta in diesem Modell bedeuten. Setze diese Parameter zur anfänglichen Schätzung von \beta=0.3 und \theta=0.1 und erkläre unter welchen Annahmen diese Werte gewählt werden. Berechne die Gleichung für den Grundreproduktionszahl \begin{equation} R_0 = \frac{\beta}{\theta} \end{equation}.
Lösung:
Kontext der Übung: Du arbeitest in einem Forschungsteam, das die Ausbreitung einer Virusinfektion in einer Großstadt untersucht. Dein Ziel ist es, ein mathematisches Modell zu entwickeln, numerische Algorithmen zur Lösung der Modelle zu implementieren und schließlich die Ergebnisse zu validieren. Für die Simulation und Analyse verwendest Du Python mit der SciPy-Bibliothek.
- Mathematische Modellierung: Entwickle ein einfaches SIR-Modell (SIR: Susceptible, Infected, Recovered) für die Ausbreitung des Virus. Das Modell setzt folgenden Satz von Differentialgleichungen voraus:
- \begin{align} \frac{dS}{dt} &= -\beta S I \ \frac{dI}{dt} &= \beta S I - \theta I \ \frac{dR}{dt} &= \theta I \end{align}
- Erkläre, was die Parameter \beta und \theta in diesem Modell bedeuten. Setze diese Parameter zur anfänglichen Schätzung von \beta=0.3 und \theta=0.1 und erkläre unter welchen Annahmen diese Werte gewählt werden. Berechne die Gleichung für den Grundreproduktionszahl \begin{equation} R_0 = \frac{\beta}{\theta} \end{equation}.
Erklärung der Parameter:
- \beta (beta): Diese Infektionsrate gibt an, wie oft ein anfälliges Individuum (S) auf ein infiziertes Individuum (I) trifft und daraufhin infiziert wird. Ein Wert von \beta=0.3 bedeutet, dass bei einer zufälligen Begegnung pro Zeiteinheit 30% der Begegnungen zur Infektion führen.
- \theta (theta): Diese Rate der Genesung oder Entfernung gibt an, wie schnell infizierte Personen (I) sich erholen und zur Gruppe der Genesenen (R) wechseln. Ein Wert von \theta = 0.1 bedeutet, dass 10% der infizierten Personen pro Zeiteinheit genesen.
Annahmen zur Wahl der Werte:
- \beta=0.3: Dieser Wert wurde angenommen, basierend darauf, dass das Virus hoch ansteckend ist und die Wahrscheinlichkeit einer Infektion bei Kontakt hoch ist.
- \theta=0.1: Dieser Wert wurde angenommen, basierend darauf, dass die durchschnittliche Dauer einer Infektion ziemlich konstant ist, sodass etwa 10% der infizierten Personen pro Tag genesen.
Die Gleichung für die Grundreproduktionszahl lautet:
\begin{equation} R_0 = \frac{\beta}{\theta} \end{equation}
Durch Einsetzen der angenommenen Werte ergibt sich:
\begin{equation} R_0 = \frac{0.3}{0.1} = 3 \end{equation}
Dieser Wert von \begin{equation} R_0 = 3 \end{equation} bedeutet, dass im Durchschnitt jede infizierte Person drei weitere Personen infizieren wird. Dies deutet auf eine schnell wachsende Epidemie hin, da \begin{equation} R_0 > 1 \end{equation}.
b)
- Numerische Lösung: Implementiere das SIR-Modell in Python unter Verwendung des Runge-Kutta-Verfahrens 4. Ordnung, um das System der Differentialgleichungen zu lösen. Nutze die folgenden Initialbedingungen: S(0) = 0.99, I(0) = 0.01, R(0) = 0. Binde Python-Code ein, der dies modelliert:
import numpy as np from scipy.integrate import solve_ivp # SIR Modell def sir_model(t, y, beta, theta): S, I, R = y dSdt = -beta * S * I dIdt = beta * S * I - theta * I dRdt = theta * I return [dSdt, dIdt, dRdt] # Parameter und Anfangswerte beta = 0.3 theta = 0.1 y0 = [0.99, 0.01, 0.0] # Zeitpunkte t = np.linspace(0, 160, 160) # Runge-Kutta Methode sol = solve_ivp(sir_model, [0, 160], y0, args=(beta, theta), t_eval=t, method='RK45')
Erkläre den Programm-Ablauf und prüfe die numerischen Ergebnisse, indem Du die Verläufe der drei Populationen (S, I, R) als Funktion der Zeit plottest. Lösung:
Kontext der Übung: Du arbeitest in einem Forschungsteam, das die Ausbreitung einer Virusinfektion in einer Großstadt untersucht. Dein Ziel ist es, ein mathematisches Modell zu entwickeln, numerische Algorithmen zur Lösung der Modelle zu implementieren und schließlich die Ergebnisse zu validieren. Für die Simulation und Analyse verwendest Du Python mit der SciPy-Bibliothek.
- Numerische Lösung: Implementiere das SIR-Modell in Python unter Verwendung des Runge-Kutta-Verfahrens 4. Ordnung, um das System der Differentialgleichungen zu lösen. Nutze die folgenden Initialbedingungen: S(0) = 0.99, I(0) = 0.01, R(0) = 0. Binde Python-Code ein, der dies modelliert:
import numpy as npfrom scipy.integrate import solve_ivp# SIR Modelldef sir_model(t, y, beta, theta): S, I, R = y dSdt = -beta * S * I dIdt = beta * S * I - theta * I dRdt = theta * I return [dSdt, dIdt, dRdt]# Parameter und Anfangswertebeta = 0.3theta = 0.1y0 = [0.99, 0.01, 0.0]# Zeitpunktet = np.linspace(0, 160, 160)# Runge-Kutta Methodesol = solve_ivp(sir_model, [0, 160], y0, args=(beta, theta), t_eval=t, method='RK45')# Ergebnisüberprüfung durch Plotten der Populationsverläufeimport matplotlib.pyplot as pltplt.plot(sol.t, sol.y[0], label='Susceptible (S)')plt.plot(sol.t, sol.y[1], label='Infected (I)')plt.plot(sol.t, sol.y[2], label='Recovered (R)')plt.xlabel('Time (days)')plt.ylabel('Proportion of Population')plt.legend()plt.title('SIR Model Simulation')plt.show()
Erklärung des Programm-Ablaufs:
- Importiere notwendige Bibliotheken:
numpy
und solve_ivp
aus der scipy.integrate
-Bibliothek, sowie matplotlib.pyplot
für die Visualisierung. - Definiere die Differentialgleichungen des SIR-Modells als Funktion
sir_model
. Diese Funktion nimmt Zeit t
, aktuelle Werte y
, sowie die Parameter beta
und theta
als Argumente und gibt die Ableitungen dSdt
, dIdt
und dRdt
zurück. - Setze die Parameter
beta
und theta
sowie die Anfangswerte y0
fest. - Definiere die Zeitspanne für die Simulation:
t = np.linspace(0, 160, 160)
erzeugt 160 Zeitpunkte von Tag 0 bis 160. - Verwende die Funktion
solve_ivp
, um die Differentialgleichungen numerisch zu lösen. Die Methode 'RK45'
steht dabei für das Runge-Kutta-Verfahren 4. Ordnung. - Plotte die Ergebnisse, um die Verläufe der drei Populationen (S, I, R) als Funktion der Zeit zu überprüfen.
plt.plot
wird verwendet, um die Daten zu visualisieren und plt.show
zeigt den Plot an.
Durch die grafische Darstellung kannst Du den Verlauf der anfälligen, infizierten und genesen Populationen im Zeitverlauf beobachten und die Dynamik der Epidemie verstehen.
c)
- Verifizierung und Validierung: Diskutiere die Verifizierung und Validierung des entwickelten Modells. Überlege Dir, welche realen Daten Du verwenden könntest, um die Modelle zu validieren. Diskutiere sowohl die Stärken als auch Schwächen Deines Modells. Welche Annahmen sind in Deinem Modell getroffen worden und wie beeinflussen diese Annahmen die Modellgenauigkeit? Berechne und erkläre die Bedeutung der Differenz zwischen den modellierten und den tatsächlichen Werten.
Lösung:
Kontext der Übung: Du arbeitest in einem Forschungsteam, das die Ausbreitung einer Virusinfektion in einer Großstadt untersucht. Dein Ziel ist es, ein mathematisches Modell zu entwickeln, numerische Algorithmen zur Lösung der Modelle zu implementieren und schließlich die Ergebnisse zu validieren. Für die Simulation und Analyse verwendest Du Python mit der SciPy-Bibliothek.
- Verifizierung und Validierung: Diskutiere die Verifizierung und Validierung des entwickelten Modells. Überlege Dir, welche realen Daten Du verwenden könntest, um die Modelle zu validieren. Diskutiere sowohl die Stärken als auch Schwächen Deines Modells. Welche Annahmen sind in Deinem Modell getroffen worden und wie beeinflussen diese Annahmen die Modellgenauigkeit? Berechne und erkläre die Bedeutung der Differenz zwischen den modellierten und den tatsächlichen Werten.
Verifizierung des Modells:
- Verifizierung stellt sicher, dass die Implementierung korrekt ist und das Modell wie erwartet funktioniert. Dies kann durch Vergleich mit bekannten Lösungen, Quellcode-Überprüfungen und analysische Tests durchgeführt werden.
- Ein Method ist das Überprüfen des Modelloutputs gegenüber synthetischen Datensätzen, die aus bekannten Anfangsbedingungen und Parametern generiert werden.
Validierung des Modells:
- Die Validierung überprüft, ob das Modell die Realität genau abbildet. Dies erfordert den Vergleich des Modelloutputs mit realen Daten.
- Reale Daten für die Validierung könnten tägliche Berichte über Infektionsfälle, Genesungen und Todesfälle in der Großstadt umfassen.
- Weitere Datenquellen könnten Behördendaten von Gesundheitsämtern, Krankenhäusern und Forschungsinstitutionen sein.
Stärken des Modells:
- Das SIR-Modell ist einfach und leicht zu verstehen, was die Interpretation der Ergebnisse vereinfacht.
- Das Modell bietet eine schnelle, erste Einschätzung der Epidemie-Dynamik und kann Anpassungen schnell berücksichtigen.
Schwächen des Modells:
- Das SIR-Modell geht von homogenen Durchmischungen und festen Raten für Infektion und Genesung aus, was in der Realität nicht immer zutrifft.
- Demografische Unterschiede, geografische Verteilung und andere spezifische Faktoren werden nicht berücksichtigt.
- Das Modell vernachlässigt inkubierte (nicht sofort infektiöse) Zustände und asymptomatische Träger des Virus.
Annahmen im Modell:
- Jede Person hat die gleiche Wahrscheinlichkeit, auf jede andere Person zu treffen (homogene Durchmischung).
- Die Infektionsrate (\beta) und Genesungsrate (\theta) sind konstant.
- Es gibt keine Wiederinfektion oder Immunitätsermüdung.
Auswirkung der Annahmen auf die Modellgenauigkeit:
- Homogene Durchmischung kann zu einer Überschätzung der Ausbreitungsgeschwindigkeit führen, insbesondere in Gebieten mit unterschiedlicher Bevölkerungsdichte.
- Feste Raten für Infektion und Genesung vernachlässigen zeitabhängige Änderungen der Verhaltensweisen und Behandlungen.
- Die Ignorierung von Wiederinfektionen kann theoretische Immunisierungseffekte überschätzen.
Bedeutung der Differenz zwischen modellierten und tatsächlichen Werten:
Die Differenz zwischen modellierten und tatsächlichen Werten, auch als Residuen bekannt, kann als Maßstab für die Modellgenauigkeit dienen. Ein kleines Residuum deutet auf eine hohe Übereinstimmung mit realen Daten hin, während ein großes Residuum auf Ungenauigkeiten im Modell oder in den Annahmen hinweist.
Eins praktische Beispiel wäre die Berechnung des mittleren quadratischen Fehlers (MQF) über eine gegebene Zeitspanne:
import numpy as np # Angenommene reale Daten für Infizierte reale_daten = np.array([0.01, 0.015, 0.025, ...]) # Modellierte Daten für Infizierte modellierte_daten = sol.y[1] # MQF berechnen mqf = np.mean((reale_daten - modellierte_daten[:len(reale_daten)])**2) print(f'Mittlerer quadratischer Fehler (MQF): {mqf}')
Ein geringer MQF-Wert zeigt eine gute Übereinstimmung zwischen Modell und Realität an, was auf ein gut kalibriertes Modell hinweist. Allerdings sollten immer noch unabhängige Validierungen und Kalibrierungen durchgeführt werden, um die Zuverlässigkeit des Modells zu gewährleisten und Verbesserungen zu identifizieren.