Statistics - Cheatsheet
Histogramme und Boxplots zur Datenvisualisierung
Definition:
Histogramme und Boxplots sind wichtige Werkzeuge zur Datenvisualisierung; sie geben Einblicke in die Verteilung und Streuung der Daten.
Details:
- Histogramme: Grafische Darstellung der Häufigkeitsverteilung numerischer Daten durch Balken
- Boxplots: Visualisierung der Streuung von Daten durch Darstellung der Quartile, des Median und möglicher Ausreißer
- Histogramm: X-Achse - Datenintervalle, Y-Achse - Häufigkeit \texttt{(Frequency)}
- Boxplot-Komponenten: Minimum, Q1 (unteres Quartil), Median (Q2), Q3 (oberes Quartil), Maximum und Ausreißer
- Boxplots zeigen spezifische Eigenschaften wie Symmetrie, Schiefe und Ausreißer der Datenverteilung
- Beide Diagramme helfen, die statistischen Eigenschaften der Daten schnell zu erfassen
Berechnung und Interpretation von Konfidenzintervallen
Definition:
Konfidenzintervall schätzt den Bereich, in dem ein Populationsparameter mit einer bestimmten Wahrscheinlichkeit liegt.
Details:
- Formel für das Konfidenzintervall: \( \bar{x} \pm z* \frac{\sigma}{\sqrt{n}} \)
- \(\bar{x}\): Stichprobenmittelwert
- \(z\): z-Wert (kritischer Wert)
- \(\sigma\): Standardabweichung der Population
- \(n\): Stichprobengröße
- Je höher das Konfidenzniveau, desto breiter das Intervall
- Interpretation: Bereich enthält den wahren Populationsparameter mit einer bestimmten Wahrscheinlichkeit (z.B. 95%)
Durchführung und Auswertung von Hypothesentests
Definition:
Hypothesentests prüfen Annahmen über Populationen basierend auf Stichprobendaten.
Details:
- Nullhypothese (\textbf{H0}): Status quo, keine Wirkung/Unterschied.
- Alternativhypothese (\textbf{H1}): Gegenteil der Nullhypothese.
- Signifikanzniveau (\textbf{α}): Wahrscheinlichkeit, \textbf{H0} abzulehnen, wenn sie wahr ist.
- Teststatistik: Berechneter Wert, basierend auf Stichprobendaten.
- \textbf{p}-Wert: Wahrscheinlichkeit, dass Teststatistik mindestens so extrem ist wie beobachtet, wenn \textbf{H0} wahr ist.
- Entscheidungsregel: \textbf{p}-Wert < \textbf{α} ⇒ \textbf{H0} ablehnen, sonst \textbf{H0} beibehalten.
- Zweistichproben-t-Test, \textbf{χ²}-Test, ANOVA: Häufig verwendete Tests.
- Ergebnisse grafisch und tabellarisch darstellen.
Anwendung und Diagnose von linearen und multiplen Regressionsmodellen
Definition:
Verwendung statistischer Techniken zur Modellierung und Analyse von Beziehungen zwischen einer abhängigen Variable und einer oder mehreren unabhängigen Variablen; Diagnosetools evaluieren Modellgüte und Annahmen.
Details:
- Lineare Regression: \( y = \beta_0 + \beta_1x + \epsilon \)
- Multiple Regression: \( y = \beta_0 + \beta_1x_1 + \beta_2x_2 + ... + \beta_nx_n + \epsilon \)
- Residuenanalyse: Überprüfung der Homoskedastizität, Normalverteilung und Autokorrelation der Residuen
- Multikollinearität: Variance Inflation Factor (VIF) zur Überprüfung der Abhängigkeit zwischen unabhängigen Variablen
- Bestimmtheitsmaß \( R^2 \): Güte der Anpassung des Modells an die Daten
- Durbin-Watson-Test: Test auf Autokorrelation der Residuen
- F-Statistik: Gesamtsignifikanz des Modells
Interpretation von Regressionskoeffizienten und Bestimmtheitsmaß (R²)
Definition:
Interpretation der Schätzwerte von Regressionskoeffizienten und Bewertung der Güte des Modells mithilfe von R²
Details:
- Regressionskoeffizienten (β): geben die durchschnittliche Veränderung der abhängigen Variable (\text{Y}) pro Einheit der unabhängigen Variable (\text{X}) an.
- R² (Bestimmtheitsmaß): misst den Anteil der Varianz der abhängigen Variable, der durch das Modell erklärt wird.
- Formeln:
- Regressionsgleichung: \(Y = β_0 + β_1 X_1 + β_2 X_2 + ... + β_n X_n + \epsilon\)
- Bestimmtheitsmaß: \[ R^2 = 1 - \frac{\text{RSS}}{\text{TSS}} \]
- RSS: Residual Sum of Squares (Summe der quadrierten Residuen)
- TSS: Total Sum of Squares (Gesamtsumme der quadrierten Abweichungen)
Verständnis und Anwendung wichtiger Wahrscheinlichkeitsverteilungen (z.B. Normalverteilung)
Definition:
Eigenschaften und Anwendung wichtiger Wahrscheinlichkeitsverteilungen (Normalverteilung, Binomialverteilung, Poissonverteilung); Zusammenhang zwischen Zufallsvariablen und deren Verteilungen
Details:
- Normalverteilung: Glockenförmige Kurve, symmetrisch um den Mittelwert \( \mu \), Standardabweichung \( \sigma \); Dichtefunktion: \[ f(x) = \frac{1}{\sigma \sqrt{2\pi}} e^{-\frac{1}{2} \left( \frac{x-\mu}{\sigma} \right)^2} \]
- Binomialverteilung: Diskrete Verteilung; Anzahl der Erfolge in unabhängigen Bernoulli-Experimenten; Wahrscheinlichkeit: \[ P(X=k) = \binom{n}{k} p^k (1-p)^{n-k} \]
- Poissonverteilung: Modellierung seltener Ereignisse; Erwartungswert \( \lambda \); Wahrscheinlichkeit: \[ P(X=k) = \frac{\lambda^k e^{-\lambda}}{k!} \]
Varianzanalyse (ANOVA) und Post-hoc-Tests
Definition:
Vergleicht Mittelwerte von mehr als zwei Gruppen und prüft, ob Unterschiede zufällig sind oder nicht. Post-hoc-Tests erforderlichen zur Identifikation spezifischer Gruppenunterschiede nach ANOVA.
Details:
- H0: Alle Gruppenmittelwerte sind gleich.
- Varianzzerlegung in zwischen- und innerhalb-Gruppen-Varianz.
- F-Statistik zur Entscheidung über H0:
- F-Wert =\( \frac{\text{zwischen-Gruppen-Varianz}}{\text{innerhalb-Gruppen-Varianz}} \)
- Post-hoc-Tests (z.B. Tukey HSD) nach signifikanten ANOVA-Ergebnissen zur Identifizierung spezifischer Unterschiede.
Berechnung und Interpretation von Streuungsmaßnahmen (Standardabweichung und Varianz)
Definition:
Berechnung und Interpretation von Streuungsmaßen zur Bestimmung der Variabilität eines Datensatzes.
Details:
- Varianz ( \sigma^2 \ bzw. s^2 ): Durchschnitt der quadrierten Abweichungen vom Mittelwert.
- Formel für Varianz:
- Für Population: \[ \sigma^2 = \frac{1}{N} \sum_{i=1}^{N}(x_i - \mu)^2 \]
- Für Stichprobe: \[ s^2 = \frac{1}{n-1} \sum_{i=1}^{n}(x_i - \bar{x})^2 \]
- Standardabweichung ( \sigma \ bzw. s ): Quadratwurzel der Varianz, misst die Streuung der Daten.
- Formel für Standardabweichung:
- Für Population: \[ \sigma = \sqrt{\sigma^2} \]
- Für Stichprobe: \[ s = \sqrt{s^2} \]
- Interpretation:
- Geringe Standardabweichung: Daten nahe am Mittelwert.
- Hohe Standardabweichung: Daten weit vom Mittelwert entfernt.