Statistical Signal Processing - Exam
Aufgabe 1)
Angenommen, Du hast eine Zufallsvariable X, die der Normalverteilung mit dem Mittelwert \mu = 10 und der Varianz \sigma^2 = 4 folgt. Du möchtest den Zusammenhang zwischen Wahrscheinlichkeitsverteilungen und Schätzmethoden untersuchen.
a)
Berechne die Wahrscheinlichkeit, dass X einen Wert zwischen 8 und 12 annimmt. Verwende die Werte für Mittelwert und Varianz und erinnere Dich daran, dass die Normalverteilung durch die Dichtefunktion \[ f(x | \mu, \sigma^2) = \frac{1}{\sigma \sqrt{2\pi}} \exp{(-\frac{(x-\mu)^2}{2\sigma^2})} \] gegeben ist. Nutze Standardnormalverteilungstabellen oder geeignete Software/Programme zum Berechnen.
Lösung:
Um die Wahrscheinlichkeit zu berechnen, dass die Zufallsvariable X einen Wert zwischen 8 und 12 annimmt, verwenden wir die Werte für den Mittelwert \( \mu = 10 \) und die Varianz \( \sigma^2 = 4 \), wobei der Standardabweichung \( \sigma = \sqrt{4} = 2 \).
Für diese Berechnung nutzen wir die Standardnormalverteilung. Zunächst transformieren wir die Zufallsvariable X in die standardisierte Zufallsvariable Z mit \( Z = \frac{X - \mu}{\sigma} \).
- Für X=8:
Z_1 = \frac{8 - 10}{2} = \frac{-2}{2} = -1
- Für X=12:
Z_2 = \frac{12 - 10}{2} = \frac{2}{2} = 1
Die Wahrscheinlichkeit, dass X einen Wert zwischen 8 und 12 annimmt, entspricht der Wahrscheinlichkeit, dass Z einen Wert zwischen -1 und 1 annimmt.
Dazu schauen wir in der Standardnormalverteilungstabelle nach:
- P(Z ≤ 1) = 0.8413
- P(Z ≤ -1) = 0.1587
Die gesuchte Wahrscheinlichkeit ist dann:
P(-1 ≤ Z ≤ 1) = P(Z ≤ 1) - P(Z ≤ -1) = 0.8413 - 0.1587 = 0.6826
Daher beträgt die Wahrscheinlichkeit, dass X einen Wert zwischen 8 und 12 annimmt, etwa 68.26%.
b)
Nehmen wir an, Du hast eine Stichprobe von 50 Beobachtungen dieser Zufallsvariable X. Schätze den Mittelwert und die Varianz dieser Stichprobe mithilfe der Maximum-Likelihood-Methode. Zeige die Schritte der Schätzung und erläutere die Bedeutung der Resultate im Kontext der statistischen Analyse.
Lösung:
Um den Mittelwert und die Varianz einer Stichprobe von 50 Beobachtungen der Zufallsvariable X, die der Normalverteilung folgt, mithilfe der Maximum-Likelihood-Methode (MLE) zu schätzen, folgen wir diesen Schritten:
1. Maximum-Likelihood-Schätzung (MLE) für den Mittelwert:
- Gegeben: Eine Stichprobe von 50 Beobachtungen X1, X2, ..., X50
- Die Likelihood-Funktion für den Mittelwert \( \mu \) und die Varianz \( \sigma^2 \) bei der Normalverteilung wird wie folgt dargestellt:
L( \mu, \sigma^2 | \mathbf{X} ) = \frac{1}{ (2 \pi \sigma^2)^{n/2} } \exp{ \left( -\frac{1}{2 \sigma^2} \sum_{i=1}^{n} (X_i - \mu)^2 \right) }
Um den Mittelwert zu schätzen, maximieren wir die Likelihood-Funktion. Es ist einfacher, das Logarithmus der Likelihood-Funktion zu verwenden, da das Maximieren des Logarithmus der Likelihood-Funktion dasselbe Ergebnis liefert wie das Maximieren der Likelihood-Funktion selbst: \log L( \mu, \sigma^2 ) = -\frac{n}{2} \log( 2 \pi ) - \frac{n}{2} \log( \sigma^2 ) - \frac{1}{2 \sigma^2} \sum_{i=1}^{n} (X_i - \mu)^2
Die erste Ableitung der Log-Likelihood-Funktion bezüglich \( \mu \) wird verwendet, um den Schätzer für \( \mu \) zu finden: 0 = \frac{\partial}{\partial \mu} \log L( \mu, \sigma^2 ) = \frac{1}{ \sigma^2 } \sum_{i=1}^{n} (X_i - \mu)
\mu = \frac{1}{n} \sum_{i=1}^{n} X_i = \bar{X}
Dies bedeutet, dass der Maximum-Likelihood-Schätzer für den Mittelwert der Stichprobenmittelwert ist: \( \mu = \bar{X} \).
2. Maximum-Likelihood-Schätzung (MLE) für die Varianz:
- Um die Varianz zu schätzen, maximieren wir die Log-Likelihood-Funktion bezüglich \( \sigma^2 \).
- Die erste Ableitung der Log-Likelihood-Funktion bezüglich \( \sigma^2 \) lautet:
0 = \frac{\partial}{\partial \sigma^2} \log L( \mu, \sigma^2 ) = -\frac{n}{2 \sigma^2} + \frac{1}{2 \sigma^4} \sum_{i=1}^{n} (X_i - \mu)^2
\sigma^2 = \frac{1}{n} \sum_{i=1}^{n} (X_i - \bar{X})^2
Dies bedeutet, dass der Maximum-Likelihood-Schätzer für die Varianz die Stichprobenvarianz ist:
\sigma^2 = \frac{1}{n} \sum_{i=1}^{n} (X_i - \bar{X})^2
Bedeutung der Resultate:
- Der geschätzte Mittelwert \( \mu \) gibt den Schwerpunkt der Beobachtungen an. Er ist die beste Schätzung für den wahren Mittelwert der Verteilung der Zufallsvariable X basierend auf der vorliegenden Stichprobe.
- Die geschätzte Varianz \( \sigma^2 \) gibt an, wie stark die Beobachtungen um den Mittelwert streuen. Eine größere Varianz bedeutet mehr Streuung, während eine kleinere Varianz eine geringere Streuung bedeutet. Diese Schätzungen sind nützlich, um die Grundgesamtheit auf Basis der Stichprobe zu charakterisieren, Hypothesentests durchzuführen und Konfidenzintervalle zu berechnen.
Aufgabe 2)
Maximum-Likelihood-Schätzung (MLE)Die Maximum-Likelihood-Schätzung ist ein Verfahren zur Parameterschätzung, bei dem der Parameter so gewählt wird, dass die Wahrscheinlichkeit der beobachteten Daten maximiert wird. Gegeben sei ein Datensatz \(\boldsymbol{x} = [x_1, x_2, \ldots, x_n]\) und eine Wahrscheinlichkeitsdichtefunktion \(\boldsymbol{p(x | \theta)}\). Ziel ist es, den Parameter \(\theta\) zu schätzen, indem die Likelihood-Funktion maximiert wird:
- Likelihood-Funktion: \( L( \theta; \boldsymbol{x} ) = \prod_{i=1}^n p(x_i | \theta)\)
- Log-Likelihood: \( \ln L( \theta; \boldsymbol{x} ) = \sum_{i=1}^n \ln p(x_i | \theta)\)
- Schätzparameter: \( \hat{\theta} = \arg\max_\theta \ln L( \theta; \boldsymbol{x} )\)
a)
Gegeben sei eine Stichprobe \(x_1, x_2, \ldots, x_n\) aus einer Normalverteilung mit unbekanntem Mittelwert \(\mu\) und bekannter Varianz \(\sigma^2 = 1\). Bestimme den Maximum-Likelihood-Schätzwert für den Mittelwert \(\mu\). Zeige detailliert den gesamten Lösungsweg.
Lösung:
Lösung:Um den Maximum-Likelihood-Schätzwert für den Mittelwert \( \mu \) zu bestimmen, gehen wir den folgenden detaillierten Lösungsweg Schritt für Schritt durch:
- Gegeben sei eine Stichprobe \( x_1, x_2, \ldots, x_n \) aus einer Normalverteilung \( N(\mu, \sigma^2) \) mit unbekanntem Mittelwert \( \mu \) und bekannter Varianz \( \sigma^2 = 1 \).
- Die Wahrscheinlichkeitsdichtefunktion der Normalverteilung ist gegeben durch: \[ p(x_i | \mu) = \frac{1}{\sqrt{2\pi\sigma^2}} e^{ -\frac{(x_i - \mu)^2}{2\sigma^2} } \] Da \( \sigma^2 = 1 \), vereinfacht sich diese zu: \[ p(x_i | \mu) = \frac{1}{\sqrt{2\pi}} e^{ -\frac{(x_i - \mu)^2}{2} } \]
- Die Likelihood-Funktion für die gesamte Stichprobe lautet: \[ L( \mu; \boldsymbol{x} ) = \prod_{i=1}^n p(x_i | \mu) = \prod_{i=1}^n \frac{1}{\sqrt{2\pi}} e^{ -\frac{(x_i - \mu)^2}{2} } \]
- Da der Vorfaktor \( \frac{1}{\sqrt{2\pi}} \) keine Funktion von \( \mu \) ist, können wir ihn ignorieren, wenn wir später maximieren:
- Die vereinfachte Likelihood-Funktion ist dann: \[ L( \mu; \boldsymbol{x} ) = e^{ -\frac{1}{2} \sum_{i=1}^n (x_i - \mu)^2 } \]
- Um die Likelihood-Funktion zu maximieren, nehmen wir das natürliche Logarithmus (Log-Likelihood): \[ \ln L( \mu; \boldsymbol{x} ) = \ln \left( e^{ -\frac{1}{2} \sum_{i=1}^n (x_i - \mu)^2 } \right) = -\frac{1}{2} \sum_{i=1}^n (x_i - \mu)^2 \]
- Um das Maximum zu finden, nehmen wir die Ableitung der Log-Likelihood-Funktion bezüglich \( \mu \) und setzen sie gleich Null: \[ \frac{\partial}{\partial \mu}\left(-\frac{1}{2} \sum_{i=1}^n (x_i - \mu)^2\right) = 0 \]
- Wir berechnen die Ableitung: \[ -\frac{1}{2} \sum_{i=1}^n \frac{\partial}{\partial \mu} (x_i - \mu)^2 = -\sum_{i=1}^n (x_i - \mu) \]
- Umstellen ergibt: \[ \sum_{i=1}^n (x_i - \mu) = 0 \]
- Dies vereinfacht sich zu: \[ \sum_{i=1}^n x_i = n \mu \]
- Schließlich erhalten wir den Maximum-Likelihood-Schätzwert für den Mittelwert \( \mu \): \[ \hat{\mu} = \frac{1}{n} \sum_{i=1}^n x_i \]
Der Maximum-Likelihood-Schätzwert für den Mittelwert \( \mu \) ist daher der Stichprobenmittelwert.
b)
Im obigen Beispiel, berechne die Log-Likelihood-Funktion \( \ln L( \mu; \boldsymbol{x} ) \) und finde den Wert für \( \mu\), der diese maximiert. Nutze den Schritt der Differentiation zur Erläuterung.
Lösung:
Lösung:Um die Log-Likelihood-Funktion \( \ln L( \mu; \boldsymbol{x} ) \) zu berechnen und den Wert für \( \mu \) zu finden, der diese maximiert, gehen wir die folgenden Schritte detailliert durch:
- Gegeben sei eine Stichprobe \( x_1, x_2, \ldots, x_n \) aus einer Normalverteilung \( N(\mu, \sigma^2) \) mit unbekanntem Mittelwert \( \mu \) und bekannter Varianz \( \sigma^2 = 1 \).
- Die Wahrscheinlichkeitsdichtefunktion der Normalverteilung ist gegeben durch: \[ p(x_i | \mu) = \frac{1}{\sqrt{2\pi\sigma^2}} e^{ -\frac{(x_i - \mu)^2}{2\sigma^2} } \] Da \( \sigma^2 = 1 \), vereinfacht sich diese zu: \[ p(x_i | \mu) = \frac{1}{\sqrt{2\pi}} e^{ -\frac{(x_i - \mu)^2}{2} } \]
- Die Likelihood-Funktion für die gesamte Stichprobe lautet: \[ L( \mu; \boldsymbol{x} ) = \prod_{i=1}^n p(x_i | \mu) = \prod_{i=1}^n \frac{1}{\sqrt{2\pi}} e^{ -\frac{(x_i - \mu)^2}{2} } \]
- Da der Vorfaktor \( \frac{1}{\sqrt{2\pi}} \) keine Funktion von \( \mu \) ist, können wir ihn ignorieren:
- Die vereinfachte Likelihood-Funktion ist: \[ L( \mu; \boldsymbol{x} ) = e^{ -\frac{1}{2} \sum_{i=1}^n (x_i - \mu)^2 } \]
- Die Log-Likelihood-Funktion lautet dann: \[ \ln L( \mu; \boldsymbol{x} ) = \ln\left( e^{ -\frac{1}{2} \sum_{i=1}^n (x_i - \mu)^2 } \right) = -\frac{1}{2} \sum_{i=1}^n (x_i - \mu)^2 \]
- Um die Log-Likelihood-Funktion zu maximieren, nehmen wir die Ableitung der Log-Likelihood-Funktion bezüglich \( \mu \) und setzen sie gleich Null: \[ \frac{\partial}{\partial \mu}\left(-\frac{1}{2} \sum_{i=1}^n (x_i - \mu)^2\right) = 0 \]
- Wir berechnen die Ableitung: \[ -\frac{1}{2} \sum_{i=1}^n \frac{\partial}{\partial \mu}(x_i - \mu)^2 \]
- Die Ableitung des Quadratterms ist: \[ \frac{\partial}{\partial \mu}(x_i - \mu)^2 = -2(x_i - \mu) \]
- Setzen wir dies in die Gleichung ein: \[ -\frac{1}{2} \sum_{i=1}^n (-2)(x_i - \mu) = 0 \]
- Vereinfachen ergibt: \[ \sum_{i=1}^n (x_i - \mu) = 0 \]
- Dies lässt sich umstellen zu: \[ \sum_{i=1}^n x_i = n \mu \]
- Der Schätzwert für \( \mu \) ist daher der Mittelwert, also: \[ \hat{\mu} = \frac{1}{n} \sum_{i=1}^n x_i \]
Der Wert für \( \mu \), der die Log-Likelihood-Funktion maximiert, ist der Stichprobenmittelwert \( \hat{\mu} = \frac{1}{n} \sum_{i=1}^n x_i \).
c)
Nehmen wir an, dass die Varianz \(\sigma^2\) ebenfalls unbekannt ist. Formuliere die Likelihood-Funktion und die Log-Likelihood-Funktion für beide Parameter \(\mu\) und \(\sigma^2\). Hinweis: Es handelt sich um bi-variate Schätzung.
Lösung:
Lösung:Um die Likelihood-Funktion und die Log-Likelihood-Funktion für beide Parameter \( \mu \) und \( \sigma^2 \) zu formulieren, müssen wir den allgemeinen Fall der Normalverteilung nutzen, bei dem sowohl der Mittelwert als auch die Varianz unbekannt sind. Wir gehen Schritt für Schritt vor:
- Gegeben sei eine Stichprobe \( x_1, x_2, \ldots, x_n \) aus einer Normalverteilung \( N(\mu, \sigma^2) \) mit unbekanntem Mittelwert \( \mu \) und unbekannter Varianz \( \sigma^2 \).
- Die Wahrscheinlichkeitsdichtefunktion der Normalverteilung ist gegeben durch: \[ p(x_i | \mu, \sigma^2) = \frac{1}{\sqrt{2\pi\sigma^2}} e^{ -\frac{(x_i - \mu)^2}{2\sigma^2} } \]
- Die Likelihood-Funktion für die gesamte Stichprobe lautet: \[ L( \mu, \sigma^2; \boldsymbol{x} ) = \prod_{i=1}^n p(x_i | \mu, \sigma^2) = \prod_{i=1}^n \frac{1}{\sqrt{2\pi\sigma^2}} e^{ -\frac{(x_i - \mu)^2}{2\sigma^2} } \]
- Da das Produkt von Exponentialfunktionen gleich der Exponentialfunktion der Summe der Exponenten ist, können wir dies wie folgt umformen:
- \[ L( \mu, \sigma^2; \boldsymbol{x} ) = \left(\frac{1}{\sqrt{2\pi\sigma^2}}\right)^n e^{ -\sum_{i=1}^n \frac{(x_i - \mu)^2}{2\sigma^2} } \]
- Um die Likelihood-Funktion zu maximieren, arbeiten wir mit der Log-Likelihood-Funktion. Die Log-Likelihood-Funktion lautet: \[ \ln L( \mu, \sigma^2; \boldsymbol{x} ) = \ln \left[ \left(\frac{1}{\sqrt{2\pi\sigma^2}}\right)^n e^{ -\frac{1}{2\sigma^2} \sum_{i=1}^n (x_i - \mu)^2 } \right] \]
- Um die logarithmische Funktion zu vereinfachen, verwenden wir die Eigenschaften des Logarithmus. Dadurch erhalten wir: \[ \ln L( \mu, \sigma^2; \boldsymbol{x} ) = n \ln \left(\frac{1}{\sqrt{2\pi\sigma^2}}\right) - \frac{1}{2\sigma^2} \sum_{i=1}^n (x_i - \mu)^2 \]
- Den ersten Term können wir weiter vereinfachen: \[ n \ln \left(\frac{1}{\sqrt{2\pi\sigma^2}}\right) = n \left(\ln 1 - \ln \sqrt{2\pi\sigma^2}\right) = -n \ln \sqrt{2\pi\sigma^2} = -n \left( \frac{1}{2} \ln (2\pi\sigma^2) \right) = -\frac{n}{2} \ln (2\pi) - \frac{n}{2} \ln \sigma^2 \]
- Die endgültige Log-Likelihood-Funktion lautet: \[ \ln L( \mu, \sigma^2; \boldsymbol{x} ) = -\frac{n}{2} \ln (2\pi) - \frac{n}{2} \ln \sigma^2 - \frac{1}{2\sigma^2} \sum_{i=1}^n (x_i - \mu)^2 \]
Maximiere die Log-Likelihood-Funktion, indem Du die ersten Ableitungen von \(\ln L\) bezüglich \(\mu\) und \(\sigma^2\) gleich Null setzt und die entsprechenden Werte für \(\mu\) und \(\sigma^2\) löst.
Bestimmung des Schätzers für \( \mu \):
- Die Ableitung der Log-Likelihood-Funktion bezüglich \( \mu \):\[ \frac{\partial}{\partial \mu} \left( -\frac{1}{2\sigma^2} \sum_{i=1}^n (x_i - \mu)^2 \right) = -\frac{1}{2\sigma^2} \sum_{i=1}^n -2(x_i - \mu) \]\[ \frac{1}{\sigma^2} \sum_{i=1}^n (x_i - \mu) = 0 \]
- Umstellen ergibt:\[ \sum_{i=1}^n x_i - n \mu = 0 \]
- Dies lässt sich lösen zu:\[ \hat{\mu} = \frac{1}{n} \sum_{i=1}^n x_i \]
Bestimmung des Schätzers für \( \sigma^2 \):
- Die Ableitung der Log-Likelihood-Funktion bezüglich \( \sigma^2 \):\[ \frac{\partial}{\partial \sigma^2} \left( - \frac{n}{2} \ln \sigma^2 - \frac{1}{2\sigma^2} \sum_{i=1}^n (x_i - \mu)^2 \right) = -\frac{n}{2\sigma^2} + \frac{1}{2(\sigma^2)^2} \sum_{i=1}^n (x_i - \mu)^2 \]
- Setzen wir dies gleich Null:\[ -\frac{n}{2\sigma^2} + \frac{1}{2(\sigma^2)^2} \sum_{i=1}^n (x_i - \mu)^2 = 0 \]
- Umstellen ergibt:\[ \frac{n}{2\sigma^2} = \frac{1}{2(\sigma^2)^2} \sum_{i=1}^n (x_i - \mu)^2 \]
- Multiplizieren mit \(2\sigma^2(\sigma^2)\):\[ n\sigma^2 = \sum_{i=1}^n (x_i - \mu)^2 \]
- Schätzen wir \( \sigma^2 \) zu:\[ \hat{\sigma}^2 = \frac{1}{n} \sum_{i=1}^n (x_i - \mu)^2 \]
Zusammenfassend sind die Schätzer für den Mittelwert und die Varianz:
- \( \hat{\mu} = \frac{1}{n} \sum_{i=1}^n x_i \)
- \( \hat{\sigma}^2 = \frac{1}{n} \sum_{i=1}^n (x_i - \mu)^2 \)
d)
Bestimme die geschätzten Werte \( \hat{\mu}\) und \( \hat{\sigma}^2 \) durch gleichzeitiges Lösen der partiellen Ableitungen der Log-Likelihood-Funktion nach \(\mu\) und \(\sigma^2\). Erläutere den gesamten Ableitungs- und Lösungsprozess.
Lösung:
Lösung:Um die geschätzten Werte \( \hat{\mu} \) und \( \hat{\sigma}^2 \) zu bestimmen, lösen wir die partiellen Ableitungen der Log-Likelihood-Funktion nach \( \mu \) und \( \sigma^2 \). Der gesamte Ableitungs- und Lösungsprozess ist wie folgt:
- Gegeben sei eine Stichprobe \( x_1, x_2, \ldots, x_n \) aus einer Normalverteilung \( N( \mu, \sigma^2) \) mit unbekanntem Mittelwert \( \mu \) und unbekannter Varianz \( \sigma^2 \).
- Die Wahrscheinlichkeitsdichtefunktion der Normalverteilung lautet: \[ p(x_i | \mu, \sigma^2) = \frac{1}{\sqrt{2\pi \sigma^2}} e^{ -\frac{(x_i - \mu)^2}{2 \sigma^2} } \]
- Die Likelihood-Funktion für die gesamte Stichprobe ergibt sich zu: \[ L( \mu, \sigma^2; \boldsymbol{x} ) = \prod_{i=1}^n p(x_i | \mu, \sigma^2) = \prod_{i=1}^n \frac{1}{\sqrt{2\pi \sigma^2}} e^{ -\frac{(x_i - \mu)^2}{2 \sigma^2} } \]
- Die Log-Likelihood-Funktion lautet: \[ \ln L( \mu, \sigma^2; \boldsymbol{x} ) = \ln \left( \left( \frac{1}{\sqrt{2\pi \sigma^2}} \right)^n e^{ -\frac{1}{2 \sigma^2} \sum_{i=1}^n (x_i - \mu)^2 } \right) \]
- Durch Vereinfachen erhalten wir: \[ \ln L( \mu, \sigma^2; \boldsymbol{x} ) = n \ln \left( \frac{1}{\sqrt{2\pi \sigma^2}} \right) - \frac{1}{2 \sigma^2} \sum_{i=1}^n (x_i - \mu)^2 \]
- Unter Verwendung der Eigenschaften des Logarithmus können wir weiter vereinfachen: \[ \ln L( \mu, \sigma^2; \boldsymbol{x} ) = n \left( -\frac{1}{2} \ln (2\pi \sigma^2) \right) - \frac{1}{2 \sigma^2} \sum_{i=1}^n (x_i - \mu)^2 \]
- Dies vereinfacht sich zu: \[ \ln L( \mu, \sigma^2; \boldsymbol{x} ) = -\frac{n}{2} \ln (2\pi) - \frac{n}{2} \ln \sigma^2 - \frac{1}{2 \sigma^2} \sum_{i=1}^n (x_i - \mu)^2 \]
Bestimmung des Schätzers für \( \mu \)
- Die Ableitung der Log-Likelihood-Funktion bezüglich \( \mu \): \[ \frac{\partial}{\partial \mu} \left( - \frac{1}{2 \sigma^2} \sum_{i=1}^n (x_i - \mu)^2 \right) = - \frac{1}{2 \sigma^2} \sum_{i=1}^n (-2)(x_i - \mu) \]
- \[ \frac{1}{\sigma^2} \sum_{i=1}^n (x_i - \mu) = 0 \]
- Umstellen ergibt: \[ \sum_{i=1}^n (x_i - \mu) = 0 \]
- Dies lässt sich umstellen zu: \[ \sum_{i=1}^n x_i = n \mu \]
- Der Schätzwert für \( \mu \) ist daher: \[ \hat{\mu} = \frac{1}{n} \sum_{i=1}^n x_i \]
Bestimmung des Schätzers für \( \sigma^2 \)
- Die Ableitung der Log-Likelihood-Funktion bezüglich \( \sigma^2 \): \[ \frac{\partial}{\partial \sigma^2} \left( - \frac{n}{2} \ln \sigma^2 - \frac{1}{2 \sigma^2} \sum_{i=1}^n (x_i - \mu)^2 \right) = - \frac{n}{2 \sigma^2} + \frac{1}{2 (\sigma^2)^2} \sum_{i=1}^n (x_i - \mu)^2 \]
- Setzen wir dies gleich Null: \[ - \frac{n}{2 \sigma^2} + \frac{1}{2 (\sigma^2)^2} \sum_{i=1}^n (x_i - \mu)^2 = 0 \]
- Umstellen ergibt: \[ \frac{n}{2 \sigma^2} = \frac{1}{2 (\sigma^2)^2} \sum_{i=1}^n (x_i - \mu)^2 \]
- Multiplizieren mit \( 2 \sigma^2 (\sigma^2) \) ergibt: \[ n \sigma^2 = \sum_{i=1}^n (x_i - \mu)^2 \]
- Der Schätzwert für \( \sigma^2 \) ist daher: \[ \hat{\sigma}^2 = \frac{1}{n} \sum_{i=1}^n (x_i - \mu)^2 \]
Zusammenfassend sind die Schätzer für den Mittelwert und die Varianz:
- \( \hat{\mu} = \frac{1}{n} \sum_{i=1}^n x_i \)
- \( \hat{\sigma}^2 = \frac{1}{n} \sum_{i=1}^n (x_i - \mu)^2 \)
Aufgabe 3)
Bayessche SchätzungDu hast die Aufgabe, eine Wahrscheinlichkeit basierend auf vorherigen Daten (A-priori-Wahrscheinlichkeit) und neuen Beobachtungen (Likelihood) zu schätzen. Verwende dazu das Bayessche Theorem.
- Bayessches Theorem: \[ P(A|B) = \frac{P(B|A) \, P(A)}{P(B)} \]
- A-priori-Wahrscheinlichkeit: Wissen vor der Beobachtung, \( P(\theta) \).
- Likelihood: Wahrscheinlichkeit der Beobachtungen basierend auf den Parametern, \( P(D|\theta) \).
- A-posteriori-Wahrscheinlichkeit: Aktualisierte Wahrscheinlichkeit nach der Beobachtung, \( P(\theta|D) \).
- Beispiel: Schätzwerte für Parameter basierend auf vorheriger Verteilung und neuen Daten.
a)
Gegeben sei eine vorangegangene A-priori-Wahrscheinlichkeit \( P(\theta) \) für den Parameter \( \theta \) als eine Normalverteilung mit Mittelwert \( \mu_0 = 0 \) und Varianz \( \sigma^2_0 = 1 \). Neue Beobachtungen \( D = \{1.5, 2.0, 1.8, 1.6\} \) folgen ebenfalls einer Normalverteilung mit bekannter Varianz \( \sigma^2 = 0.2 \). Bestimme die A-posteriori-Wahrscheinlichkeit \( P(\theta|D) \).Hinweis: Verwende das Bayessche Theorem und erläutere jeden Schritt.
Lösung:
Lösung des UnterexercisesUm die A-posteriori-Wahrscheinlichkeit zu berechnen, verwenden wir das Bayessche Theorem und berücksichtigen die gegebene A-priori-Wahrscheinlichkeit sowie die neuen Beobachtungen.Folgende sind die Schritte zur Lösung:
- 1. Gegebene Daten und Parameter- A-priori-Wahrscheinlichkeit seit einer Normalverteilung mit Mittelwert \( \mu_0 = 0 \) und Varianz \( \sigma^2_0 = 1 \).- Neue Beobachtungen \( D = \{1.5, 2.0, 1.8, 1.6\} \), die ebenfalls einer Normalverteilung mit bekannter Varianz \( \sigma^2 = 0.2 \) folgen.
- 2. Berechnung der LikelihoodDie Likelihood für die Beobachtungen \( D \) gegeben den Parameter \( \theta \) ist:\[ P(D|\theta) = \prod_{i=1}^{n} P(D_i|\theta) \]Da die Beobachtungen normalverteilt sind, ergibt sich für jede Beobachtung:\[ P(D_i|\theta) = \frac{1}{\sqrt{2\pi\sigma^2}} \exp\left( -\frac{(D_i - \theta)^2}{2\sigma^2} \right) \]Somit ergibt sich die Likelihood als Produkt dieser Wahrscheinlichkeiten:
- 3. Likelihood-FunktionDie Likelihood für die Datenpunkte \( D = \{1.5, 2.0, 1.8, 1.6\} \):\[ P(D|\theta) = \prod_{i=1}^{4} \frac{1}{\sqrt{2\pi\cdot 0.2}} \exp\left( -\frac{(D_i - \theta)^2}{2\cdot 0.2} \right) \]
- 4. Kombinieren der A-priori und LikelihoodUm die A-posteriori-Wahrscheinlichkeit \( P(\theta|D) \) zu berechnen, kombinieren wir die A-priori-Verteilung und die Likelihood:\[ P(\theta|D) \propto P(D|\theta) P(\theta) \]
- 5. Berechnung der PosteriorverteilungDa sowohl die A-priori als auch die Likelihood normalverteilt sind, ist das Ergebnis ebenfalls eine Normalverteilung:\[ P(\theta|D) = \mathcal{N}(\theta | \mu_n, \sigma^2_n) \]wo: Die posteriori Varianz ist:\[ \sigma^2_n = \left( \frac{1}{\sigma^2_0} + \frac{n}{\sigma^2} \right)^{-1} = \left( \frac{1}{1} + \frac{4}{0.2} \right)^{-1} = \left( 1 + 20 \right)^{-1} = \frac{1}{21} \]und den Posteriori Mittelwert kann man berechnen mit:\[ \mu_n = \sigma^2_n \left( \frac{\mu_0}{\sigma^2_0} + \sum_{i=1}^{n} \frac{D_i}{\sigma^2} \right) = \frac{1}{21} \left( 0 + \frac{1.5}{0.2} + \frac{2.0}{0.2} + \frac{1.8}{0.2} + \frac{1.6}{0.2} \right) \approx \frac{1}{21} \cdot 34.5 = 1.643 \](gerundet).
ErgebnisDie A-posteriori-Wahrscheinlichkeit \( P(\theta|D) \) hat den Mittelwert \( \mu_n \approx 1.643 \) und die Varianz \( \sigma^2_n \approx 0.0476 \).
b)
Führe für die in der ersten Teilaufgabe gefundene A-posteriori-Wahrscheinlichkeit eine Maximum-A-Posteriori (MAP) Schätzung des Parameters \( \theta \) durch und berechne den entsprechenden Wert. Erläutere, warum die MAP-Schätzung in diesem Fall sinnvoll ist.
Lösung:
Lösung des UnterexercisesUm die Maximum-A-Posteriori (MAP) Schätzung des Parameters \( \theta \) durchzuführen, nutzen wir die zuvor berechnete A-posteriori-Wahrscheinlichkeit als Verteilung für \( \theta \). Die MAP-Schätzung ist der Wert von \( \theta \), der diese Verteilung maximiert.Folgende sind die Schritte zur Lösung:
- 1. Gegebene A-posteriori-WahrscheinlichkeitDie A-posteriori-Wahrscheinlichkeit \( P(\theta|D) \) ist eine Normalverteilung mit Mittelwert \( \mu_n = 1.643 \) und Varianz \( \sigma^2_n = 0.0476 \).
- 2. Prinzip der MAP-SchätzungDa die A-posteriori-Wahrscheinlichkeit eine Normalverteilung ist, wird sie durch ihren Mittelwert maximiert. Dies bedeutet, dass der Wert von \( \theta \), der die A-posteriori-Wahrscheinlichkeit maximiert, bei \( \mu_n \) liegt.Mathematisch ausgedrückt:\[ \hat{\theta}_{MAP} = \arg\max_{\theta} P(\theta|D) \]
- 3. Finden der MAP-SchätzungIn unserem Fall ist die MAP-Schätzung einfach der Mittelwert der A-posteriori Normalverteilung:\[ \hat{\theta}_{MAP} = \mu_n = 1.643 \]
- 4. Begründung der MAP-Schätzung- Die MAP-Schätzung ist in diesem Fall sinnvoll, weil sie den Einfluss sowohl der A-priori Informationen als auch der neuen Beobachtungen berücksichtigt.- Sie bietet eine Schätzung, die auf der maximalen A-posteriori-Wahrscheinlichkeit basiert, also die wahrscheinlichste Schätzung für \( \theta \) nach Einbeziehung der neuen Daten.- In Fällen, in denen die A-posteriori-Wahrscheinlichkeit eine einfache Verteilung wie die Normalverteilung ist, liefert die MAP-Schätzung besonders präzise und nützliche Ergebnisse.
ErgebnisDie MAP-Schätzung des Parameters \( \theta \) ist:\[ \hat{\theta}_{MAP} = 1.643 \]
Aufgabe 4)
Du analysierst eine Zeitreihe mit ARMA- und ARIMA-Modellen. Gegeben sei eine Zeitreihe, die wirtschaftliche Indikatoren über 10 Jahre hinweg monatlich misst. Angenommen, die Zeitreihe ist nicht stationär, zeigt jedoch Saisonalität und Trend. Während der Analyse stellst Du fest, dass eine Differenzierung der Ordnung 1 notwendig ist, um die Stationarität zu erreichen, und dass ein ARMA-Modell der Ordnung (2, 1) geeignet erscheint.
b)
Beschreibe den Prozess der Identifizierung der Modellordnungen p, d und q bei der Anwendung eines ARIMA-Modells. Welche Techniken und Plots würdest Du verwenden, um diese Parameter optimal auszuwählen? Erkläre auch, wie Du die Differenzierungsordnung bestimmst.
Lösung:
Der Prozess der Identifizierung der Modellordnungen p, d und q bei der Anwendung eines ARIMA-Modells erfordert verschiedene Techniken und Plots, um die besten Parameter auszuwählen. Hier ist eine detaillierte Beschreibung des Prozesses:
1. Bestimmung der Differenzierungsordnung (d):
- Zeitreihen-Plot: Untersuche den Plot der Originalzeitreihe, um sichtbare Trends und Saisonalitäten zu erkennen. Wenn die Zeitreihe nicht stationär erscheint (z.B. zeigt sie ein Trendverhalten oder langanhaltende Muster), muss sie differenziert werden.
- Autokorrelationsfunktion (ACF): Ein ACF-Plot der Originalzeitreihe zeigt, ob die Serie stationär ist. Eine langsame Abnahme der ACF ist ein Anzeichen für Nichtstationarität.
- Dickey-Fuller-Test: Führt einen statistischen Test durch, um die Nullhypothese der Nichtstationarität zu testen. Bei Nichtstationarität ist das Differenzieren notwendig.
- Differenzierung: Differenziere die Zeitreihe um den Grad der Differenzierung d zu bestimmen. Einmalige Differenzierung (d = 1) kann oft ausreichend sein. Wiederhole den Prozess, falls notwendig, bis Stationarität erreicht ist.
2. Bestimmung der Ordnungen p und q:
- Autokorrelationsfunktion (ACF) und Partielle Autokorrelationsfunktion (PACF): Verwende die ACF- und PACF-Plots der differenzierten Serie:
- ACF-Plot: Identifiziere die Ordnung des MA-Teils (q). Der Punkt, an dem die ACF absinkt oder schneidet, kann Hinweise auf q geben.
- PACF-Plot: Identifiziere die Ordnung des AR-Teils (p). Der Punkt, an dem die PACF absinkt oder schneidet, kann Hinweise auf p geben.
- Informationskriterien: Schätze mehrere Modelle und vergleiche sie mit den Akaike-Information-Kriterium (AIC) und dem Bayesian Information Criterion (BIC). Wähle das Modell mit den niedrigsten AIC- und BIC-Werten.
Techniken und Plots zur Identifizierung von p, d und q:
- Plot der Zeitreihe: Hilft dabei, offensichtliche Trends und Saisonalitäten zu erkennen.
- ACF-Plot: Zeigt die Autokorrelationen der Serie und hilft bei der Differenzierung und Bestimmung von q.
- PACF-Plot: Zeigt die partiellen Autokorrelationen der Serie und hilft bei der Bestimmung von p.
- Dickey-Fuller-Test: Ein statistischer Test zur Bestimmung der Notwendigkeit der Differenzierung.
- Informationskriterien (AIC, BIC): Helfen bei der Auswahl des besten Modells unter den geschätzten Modellen.
Zusammengefasste Schritte:
- Untersuchung der Zeitreihe: Betrachte Trend und Saisonalität.
- Differenzierung: Führe die Differenzierung durch und prüfe, ob die Serie stationär wird (d finden).
- ACF und PACF: Analysiere die ACF- und PACF-Plots der differenzierten Serie, um p und q zu identifizieren.
- Modellschätzung: Schätze verschiedene Modelle und vergleiche sie mit AIC und BIC.
- Modellvalidierung: Überprüfe die Modellresiduen und sicherstellen, dass sie keine signifikanten Muster aufweisen und wie ein weißes Rauschen aussehen.
Durch diesen umfassenden Prozess wirst Du in der Lage sein, die optimalen Modellordnungen p, d und q für Deine ARIMA-Modellierung zu bestimmen.
c)
Implementiere das ARIMA(2,1,1)-Modell in Python und simuliere die ersten 12 Monate der Vorhersage. Nutze dazu eine geeignete Bibliothek wie statsmodels. Zeige auch den Python-Code.
Lösung:
Um das ARIMA(2,1,1)-Modell in Python zu implementieren und die ersten 12 Monate der Vorhersage zu simulieren, können wir die Bibliothek statsmodels
verwenden. Hier ist der vollständige Python-Code:
import numpy as np import pandas as pd import matplotlib.pyplot as plt from statsmodels.tsa.arima.model import ARIMA # Beispiel-Datensatz erstellen np.random.seed(42) dates = pd.date_range(start='2010-01-01', periods=120, freq='M') data = np.cumsum(np.random.randn(120) + 5) # künstliche Daten mit Trend und Zufälligkeit zeitreihe = pd.Series(data, index=dates) # Daten visualisieren plt.figure(figsize=(10, 6)) plt.plot(zeitreihe) plt.title('Wirtschaftliche Indikatoren') plt.xlabel('Zeit') plt.ylabel('Wert') plt.show() # ARIMA-Modell mit p=2, d=1, q=1 anpassen model = ARIMA(zeitreihe, order=(2, 1, 1)) results = model.fit() print(results.summary()) # 12 Monate Vorhersage pred = results.get_forecast(steps=12) pred_mean = pred.predicted_mean pred_conf = pred.conf_int() # Visualisierung der Vorhersage plt.figure(figsize=(10, 6)) plt.plot(zeitreihe, label='Originale Zeitreihe') plt.plot(pred_mean, label='Vorhersage', color='red') plt.fill_between(pred_conf.index, pred_conf.iloc[:, 0], pred_conf.iloc[:, 1], color='pink', alpha=0.3) plt.title('ARIMA(2,1,1) Vorhersage') plt.xlabel('Zeit') plt.ylabel('Wert') plt.legend() plt.show()
Hier sind die wichtigsten Schritte des Codes im Detail:
- Zuerst importieren wir die notwendigen Bibliotheken:
numpy
für numerische Berechnungen, pandas
für die Arbeit mit Daten, und matplotlib
zur Visualisierung. Außerdem importieren wir ARIMA
aus statsmodels.tsa.arima.model
. - Wir erstellen eine Beispielzeitreihe mit monatlichen Daten über 10 Jahre hinweg und fügen einen Trend hinzu, um eine nicht stationäre Serie zu simulieren.
- Die Zeitreihe wird visualisiert, um den Trend und die Saisonalität zu überprüfen.
- Wir passen ein ARIMA-Modell der Ordnung (2, 1, 1) an die Zeitreihe an und geben die Ergebnissummary aus.
- Schließlich führen wir eine Vorhersage für die nächsten 12 Monate durch, extrahieren die vorhergesagten Werte und ihre Konfidenzintervalle.
- Zum Schluss visualisieren wir die Originalzeitreihe zusammen mit der Vorhersage und den Konfidenzintervallen.
Dieser Code zeigt ein Beispiel für die Implementierung und Vorhersage mit einem ARIMA(2,1,1)-Modell in Python unter Verwendung der statsmodels
-Bibliothek.