Maßzahlen der zentralen Tendenz: Mittelwert, Median, Modus
Definition:
Maßzahlen der zentralen Tendenz dienen der Beschreibung des typischen Wertes einer Datenreihe.
Details:
- Mittelwert: Arithmetisches Mittel, berechnet als Summe aller Werte geteilt durch die Anzahl der Werte. Formel: \( \bar{x} = \frac{\sum_{i=1}^{n} x_i}{n} \)
- Median: Zentralwert, teilt die Datenreihe in zwei Hälften. Bei ungerader Anzahl der Werte: mittlerer Wert, bei gerader Anzahl: Mittelwert der beiden mittleren Werte.
- Modus: Häufigster Wert in der Datenreihe. Kann mehrere Moden geben (unimodal, bimodal, multimodal).
Hypothesentests: Nullhypothese, Alternativhypothese, p-Wert
Definition:
Bewertung von Hypothesen durch Tests. Nullhypothese (H0) stellt den Status Quo dar, Alternativhypothese (H1) spiegelt die vermutete Änderung wider. p-Wert gibt die Wahrscheinlichkeit an, dass die beobachteten Daten unter Annahme von H0 auftreten.
Details:
- Nullhypothese (H0): Annahme, die widerlegt werden soll.
- Alternativhypothese (H1): Aussage, die bei Verwerfung von H0 angenommen wird.
- p-Wert: Berechnet sich durch \( P(X \geq x | H_0) \) für rechtsseitigen Test.
- Signifikanzniveau (\( \alpha \)): Grenze, unter der H0 abgelehnt wird.
Signifikanzniveaus und Fehlerarten: Alpha- und Beta-Fehler
Definition:
Überwachung von Fehlerwahrscheinlichkeiten in Hypothesentests; Alpha-Fehler (Fehler 1. Art) und Beta-Fehler (Fehler 2. Art) regeln die Entscheidungsfindung.
Details:
- Alpha-Fehler (\( \alpha \)): Wahrscheinlichkeit, die Nullhypothese irrtümlich abzulehnen (Fehler 1. Art).
- Beta-Fehler (\( \beta \)): Wahrscheinlichkeit, die Nullhypothese irrtümlich beizubehalten (Fehler 2. Art).
- Signifikanzniveau (\( \alpha \)): vorgegebene Schranke für die Alpha-Fehler-Wahrscheinlichkeit, oft 0,05.
- Teststärke (\( 1 - \beta \)): Wahrscheinlichkeit korrekt die Alternativhypothese anzunehmen.
Einfache lineare Regression: Methode der kleinsten Quadrate
Definition:
Einfache lineare Regression: Methode der kleinsten Quadrate zur Schätzung der Regressionsgeraden (Minimierung der Summe der quadrierten Abweichungen).
Details:
- Model: \(Y = \beta_0 + \beta_1X + \epsilon\)
- Schätzung der Parameter mittels Minimierung der Fehlerquadrate: \(Q(\beta_0, \beta_1) = \sum_{i=1}^{n} (y_i - (\beta_0 + \beta_1 x_i))^2\)
- Bedingungen: Lineare Beziehung, Homoskedastizität, Unabhängigkeit der Residuen
- Schätzer: \(\hat{\beta}_1 = \frac{\sum_{i=1}^{n} (x_i - \bar{x})(y_i - \bar{y})}{\sum_{i=1}^{n} (x_i - \bar{x})^2}\) und \(\hat{\beta}_0 = \bar{y} - \hat{\beta}_1 \bar{x}\)
- Güte: Bestimmtheitsmaß \(R^2 = \frac{SSR}{SST} = 1 - \frac{SSE}{SST}\)
ARIMA-Modelle: Autoregressive integrierte gleitende Durchschnitte
Definition:
ARIMA-Modelle erklären Zeitreihen durch Autoregression (AR), Differenzbildung (I) und gleitende Durchschnitte (MA).
Details:
- ARIMA(p,d,q) Modellspezifikation mit:
- p: Anzahl der AR-Terme
- d: Anzahl der notwendigen Differenzbildungen zur Stationarität
- q: Anzahl der MA-Terme
- AR-Modell: \[X_t = \phi_1 X_{t-1} + \phi_2 X_{t-2} + ... + \phi_p X_{t-p} + \epsilon_t\]
- MA-Modell: \[X_t = \epsilon_t + \theta_1 \epsilon_{t-1} + \theta_2 \epsilon_{t-2} + ... + \theta_q \epsilon_{t-q}\]
- Integriert: Differenzierung der Zeitreihe,\[Y_t = \Delta^d X_t = (1 - B)^d X_t\] mit dem Lag-Operator B.
- Gesamtmodell: \[Y_t = \phi_1 Y_{t-1} + ... + \phi_p Y_{t-p} + \epsilon_t + \theta_1 \epsilon_{t-1} + ... + \theta_q \epsilon_{t-q}\]
Wahrscheinlichkeitsverteilungen: Diskrete und stetige Verteilungen
Definition:
Wahrscheinlichkeitsverteilungen beschreiben, wie sich Wahrscheinlichkeiten über mögliche Ereignisse verteilen.
Details:
- Diskrete Verteilungen: Für abzählbare Ergebnisse
- Binomialverteilung: \(P(X=k) = \binom{n}{k} p^k (1-p)^{n-k}\)
- Poisson-Verteilung: \(P(X=k) = \frac{e^{-\lambda} \lambda^k}{k!} \)
- Stetige Verteilungen: Für unzählige Ergebnisse
- Normalverteilung: \(f(x) = \frac{1}{\sqrt{2\pi \sigma^2}} e^{-\frac{(x-\mu)^2}{2\sigma^2}}\)
- Exponentialverteilung: \(f(x) = \lambda e^{-\lambda x}\)
Gesetz der großen Zahlen und zentraler Grenzwertsatz
Definition:
Gesetz der großen Zahlen: Je größer die Stichprobe, desto näher liegt der Mittelwert bei dem Erwartungswert. Zentraler Grenzwertsatz: Summe unabhängiger Zufallsvariablen nähert sich normalverteilter Zufallsvariablen für große Stichprobenanzahl.
Details:
- Gesetz der großen Zahlen: \[ \lim_{{n\to\infty}} \frac{1}{n} \sum_{{i=1}}^{n} X_i = \mu \]
- Zentraler Grenzwertsatz: \[ \frac{\sum_{i=1}^{n} X_i - n \mu}{\sigma \sqrt{n}} \xrightarrow{d} \mathcal{N}(0,1) \]
- Wichtig für Schätzung und Prognose
- Ermöglicht Verwendung der Normalverteilung in der Praxis
Explorative Datenanalyse: Identifikation von Ausreißern und Trends
Definition:
Sichtbarmachung von Mustern, Trends und Auffälligkeiten in Datensätzen
Details:
{'
': ['- Verwendung von Deskriptivstatistiken wie Mittelwert, Median, Varianz
', '- Graphische Darstellungen: Boxplots, Scatterplots
', '- Ausreißer: Datenelemente, die deutlich vom Rest der Daten abweichen (z. B. mehr als 1.5 mal den Interquartilsabstand vom Q1 oder Q3 entfernt)
', '- Trends: Langfristige Bewegungen in den Daten
', '- Identifikation durch Zeitreihenanalyse oder gleitende Durchschnitte (Decompositon von Zeitreihen in Trend, Zyklus und Rauschen)
', '- Hypothesentest für Trends: z. B. Mann-Kendall-Test
']}