Statistik - Cheatsheet
Mittelwert, Median, Modus
Definition:
Definitionen und Erklärungen der zentralen Tendenzmaße in der Statistik.
Details:
- Mittelwert (arithmetisches Mittel): Durchschnittswert einer Datenmenge. Berechnung: \[ \bar{x} = \frac{1}{n} \sum_{i=1}^{n} x_i \]
- Median: Der Wert, der die geordnete Datenmenge in zwei gleich große Hälften teilt.
- Modus: Der am häufigsten vorkommende Wert in einer Datenmenge.
Varianz und Standardabweichung
Definition:
Varianz beschreibt die durchschnittliche quadratische Abweichung der Messwerte vom Mittelwert, Standardabweichung ist die Quadratwurzel der Varianz.
Details:
- Varianz: \[ s^2 = \frac{1}{n-1} \sum_{i=1}^n (x_i - \bar{x})^2 \]
- Standardabweichung: \[ s = \sqrt{s^2} \]
- Maß für die Streuung der Daten
- Wichtiger für das Verständnis der Datenverteilung
- Einheit der Varianz: Quadrat der ursprünglichen Einheit
- Einheit der Standardabweichung: Ursprüngliche Einheit
Boxplot-Darstellung
Definition:
Graphische Darstellung zur Visualisierung der Verteilung einer Datenmenge basierend auf den Quartilen.
Details:
- Box: Interquartilsabstand (IQR)
- Linie innerhalb der Box: Median
- Whiskers: 1.5 \times IQR
- Ausreißer: Datenpunkte außerhalb der Whiskers
- Häufig genutzt zur Erkennung von Symmetrie und Ausreißern
Korrelation und Kovarianz
Definition:
Korrelation misst die Stärke und Richtung einer linearen Beziehung zwischen zwei Variablen. Kovarianz misst die Richtung der linearen Beziehung zwischen zwei Variablen und deren gemeinsame Variation.
Details:
- Kovarianz: \(\text{Cov}(X,Y) = \frac{1}{n-1}\textstyle \sum_{i=1}^{n}(X_i - \bar{X})(Y_i - \bar{Y})\)
- Korrelation: standardisierte Form der Kovarianz, \(\text{Corr}(X,Y) = \frac{\text{Cov}(X,Y)}{\text{sd}(X) \cdot \text{sd}(Y)}\)
- Wertebereich der Korrelation: \(-1 \leq \text{Corr}(X,Y) \leq 1\)
- Korrelation \(=0\) bedeutet keine lineare Beziehung
- Korrelation \(=1\) oder \(-1\) bedeutet perfekte lineare Beziehung
Bayes' Theorem
Definition:
Bayes' Theorem zur Berechnung der Wahrscheinlichkeit eines Ereignisses basierend auf vorheriger Wissen oder Ereignissen.
Details:
Normalverteilung
Definition:
Wahrscheinlichkeitsverteilung, gekennzeichnet durch die Glockenkurve; symmetrisch um den Mittelwert \( \mu \) mit der Standardabweichung \( \sigma \).
Details:
- Dichtefunktion: \( f(x) = \frac{1}{\sigma \sqrt{2\pi}} e^{-\frac{1}{2} \left(\frac{x - \mu}{\sigma}\right)^2} \)
- Erwartungswert: \( E(X) = \mu \)
- Varianz: \( Var(X) = \sigma^2 \)
- 68-95-99,7 Regel: ca. 68% innerhalb von \( \mu \pm 1 \sigma \), 95% innerhalb von \( \mu \pm 2 \sigma \), 99,7% innerhalb von \( \mu \pm 3 \sigma \)
Hypothesentests und p-Werte
Definition:
Hypothesentests überprüfen, ob eine Annahme über eine Population mit Daten übereinstimmt. Ein p-Wert gibt die Wahrscheinlichkeit an, dass das beobachtete Ergebnis oder ein extremeres unter der Nullhypothese eintritt.
Details:
- Nullhypothese (H0): Annahme, die geprüft wird.
- Alternativhypothese (H1): Die Annahme, die angenommen wird, wenn H0 abgelehnt wird.
- Signifikanzniveau (α): Akzeptable Fehlerwahrscheinlichkeit, üblicherweise 0,05 oder 5%.
- p-Wert: Wahrscheinlichkeit, das beobachtete Ergebnis unter H0 zu erhalten.
- p < α: H0 ablehnen, H1 annehmen.
- p ≥ α: H0 nicht ablehnen.
- Zweiseitiger Test: Test in beide Richtungen.
- Einseitiger Test: Test in eine Richtung.
- Berechnung des p-Werts oft über Teststatistik wie \textit{t-Test}, \textit{z-Test}, etc.
Multiple Regression
Definition:
Multiple Regression quantifiziert die Beziehung zwischen einer abhängigen Variable (y) und mehreren unabhängigen Variablen (x).
Details:
- Regressionsgleichung: \[ y = \beta_0 + \beta_1 x_1 + \beta_2 x_2 + ... + \beta_k x_k + \epsilon \]
- \(y\): abhängige Variable
- \(x_1, x_2, ..., x_k\): unabhängige Variablen
- \(\beta_0\): Achsenabschnitt (intercept)
- \(\beta_1, \beta_2, ..., \beta_k\): Regressionskoeffizienten
- \(\epsilon\): Störterm (error term)
- Voraussetzungen: Linearität, Unabhängigkeit, Homoskedastizität, Normalverteilung der Fehler
- Koeffizienten bestimmen: Methode der kleinsten Quadrate
- Modellgüte: Bestimmtheitsmaß (\(R^2\)), Adjustiertes \(R^2\)
- Multikollinearität prüfen: Variance Inflation Factor (VIF)