Statistics - Cheatsheet.pdf

Statistics - Cheatsheet
Statistics - Cheatsheet Histogramme und Boxplots zur Datenvisualisierung Definition: Histogramme und Boxplots sind wichtige Werkzeuge zur Datenvisualisierung; sie geben Einblicke in die Verteilung und Streuung der Daten. Details: Histogramme: Grafische Darstellung der Häufigkeitsverteilung numerischer Daten durch Balken Boxplots: Visualisierung der Streuung von Daten durch Darstellung der Quartile...

© StudySmarter 2024, all rights reserved.

Statistics - Cheatsheet

Histogramme und Boxplots zur Datenvisualisierung

Definition:

Histogramme und Boxplots sind wichtige Werkzeuge zur Datenvisualisierung; sie geben Einblicke in die Verteilung und Streuung der Daten.

Details:

  • Histogramme: Grafische Darstellung der Häufigkeitsverteilung numerischer Daten durch Balken
  • Boxplots: Visualisierung der Streuung von Daten durch Darstellung der Quartile, des Median und möglicher Ausreißer
  • Histogramm: X-Achse - Datenintervalle, Y-Achse - Häufigkeit \texttt{(Frequency)}
  • Boxplot-Komponenten: Minimum, Q1 (unteres Quartil), Median (Q2), Q3 (oberes Quartil), Maximum und Ausreißer
  • Boxplots zeigen spezifische Eigenschaften wie Symmetrie, Schiefe und Ausreißer der Datenverteilung
  • Beide Diagramme helfen, die statistischen Eigenschaften der Daten schnell zu erfassen

Berechnung und Interpretation von Konfidenzintervallen

Definition:

Konfidenzintervall schätzt den Bereich, in dem ein Populationsparameter mit einer bestimmten Wahrscheinlichkeit liegt.

Details:

  • Formel für das Konfidenzintervall: \( \bar{x} \pm z* \frac{\sigma}{\sqrt{n}} \)
  • \(\bar{x}\): Stichprobenmittelwert
  • \(z\): z-Wert (kritischer Wert)
  • \(\sigma\): Standardabweichung der Population
  • \(n\): Stichprobengröße
  • Je höher das Konfidenzniveau, desto breiter das Intervall
  • Interpretation: Bereich enthält den wahren Populationsparameter mit einer bestimmten Wahrscheinlichkeit (z.B. 95%)

Durchführung und Auswertung von Hypothesentests

Definition:

Hypothesentests prüfen Annahmen über Populationen basierend auf Stichprobendaten.

Details:

  • Nullhypothese (\textbf{H0}): Status quo, keine Wirkung/Unterschied.
  • Alternativhypothese (\textbf{H1}): Gegenteil der Nullhypothese.
  • Signifikanzniveau (\textbf{α}): Wahrscheinlichkeit, \textbf{H0} abzulehnen, wenn sie wahr ist.
  • Teststatistik: Berechneter Wert, basierend auf Stichprobendaten.
  • \textbf{p}-Wert: Wahrscheinlichkeit, dass Teststatistik mindestens so extrem ist wie beobachtet, wenn \textbf{H0} wahr ist.
  • Entscheidungsregel: \textbf{p}-Wert < \textbf{α} ⇒ \textbf{H0} ablehnen, sonst \textbf{H0} beibehalten.
  • Zweistichproben-t-Test, \textbf{χ²}-Test, ANOVA: Häufig verwendete Tests.
  • Ergebnisse grafisch und tabellarisch darstellen.

Anwendung und Diagnose von linearen und multiplen Regressionsmodellen

Definition:

Verwendung statistischer Techniken zur Modellierung und Analyse von Beziehungen zwischen einer abhängigen Variable und einer oder mehreren unabhängigen Variablen; Diagnosetools evaluieren Modellgüte und Annahmen.

Details:

  • Lineare Regression: \( y = \beta_0 + \beta_1x + \epsilon \)
  • Multiple Regression: \( y = \beta_0 + \beta_1x_1 + \beta_2x_2 + ... + \beta_nx_n + \epsilon \)
  • Residuenanalyse: Überprüfung der Homoskedastizität, Normalverteilung und Autokorrelation der Residuen
  • Multikollinearität: Variance Inflation Factor (VIF) zur Überprüfung der Abhängigkeit zwischen unabhängigen Variablen
  • Bestimmtheitsmaß \( R^2 \): Güte der Anpassung des Modells an die Daten
  • Durbin-Watson-Test: Test auf Autokorrelation der Residuen
  • F-Statistik: Gesamtsignifikanz des Modells

Interpretation von Regressionskoeffizienten und Bestimmtheitsmaß (R²)

Definition:

Interpretation der Schätzwerte von Regressionskoeffizienten und Bewertung der Güte des Modells mithilfe von R²

Details:

  • Regressionskoeffizienten (β): geben die durchschnittliche Veränderung der abhängigen Variable (\text{Y}) pro Einheit der unabhängigen Variable (\text{X}) an.
  • R² (Bestimmtheitsmaß): misst den Anteil der Varianz der abhängigen Variable, der durch das Modell erklärt wird.
  • Formeln:
  • Regressionsgleichung: \(Y = β_0 + β_1 X_1 + β_2 X_2 + ... + β_n X_n + \epsilon\)
  • Bestimmtheitsmaß: \[ R^2 = 1 - \frac{\text{RSS}}{\text{TSS}} \]
  • RSS: Residual Sum of Squares (Summe der quadrierten Residuen)
  • TSS: Total Sum of Squares (Gesamtsumme der quadrierten Abweichungen)

Verständnis und Anwendung wichtiger Wahrscheinlichkeitsverteilungen (z.B. Normalverteilung)

Definition:

Eigenschaften und Anwendung wichtiger Wahrscheinlichkeitsverteilungen (Normalverteilung, Binomialverteilung, Poissonverteilung); Zusammenhang zwischen Zufallsvariablen und deren Verteilungen

Details:

  • Normalverteilung: Glockenförmige Kurve, symmetrisch um den Mittelwert \( \mu \), Standardabweichung \( \sigma \); Dichtefunktion: \[ f(x) = \frac{1}{\sigma \sqrt{2\pi}} e^{-\frac{1}{2} \left( \frac{x-\mu}{\sigma} \right)^2} \]
  • Binomialverteilung: Diskrete Verteilung; Anzahl der Erfolge in unabhängigen Bernoulli-Experimenten; Wahrscheinlichkeit: \[ P(X=k) = \binom{n}{k} p^k (1-p)^{n-k} \]
  • Poissonverteilung: Modellierung seltener Ereignisse; Erwartungswert \( \lambda \); Wahrscheinlichkeit: \[ P(X=k) = \frac{\lambda^k e^{-\lambda}}{k!} \]

Varianzanalyse (ANOVA) und Post-hoc-Tests

Definition:

Vergleicht Mittelwerte von mehr als zwei Gruppen und prüft, ob Unterschiede zufällig sind oder nicht. Post-hoc-Tests erforderlichen zur Identifikation spezifischer Gruppenunterschiede nach ANOVA.

Details:

  • H0: Alle Gruppenmittelwerte sind gleich.
  • Varianzzerlegung in zwischen- und innerhalb-Gruppen-Varianz.
  • F-Statistik zur Entscheidung über H0:
  • F-Wert =\( \frac{\text{zwischen-Gruppen-Varianz}}{\text{innerhalb-Gruppen-Varianz}} \)
  • Post-hoc-Tests (z.B. Tukey HSD) nach signifikanten ANOVA-Ergebnissen zur Identifizierung spezifischer Unterschiede.

Berechnung und Interpretation von Streuungsmaßnahmen (Standardabweichung und Varianz)

Definition:

Berechnung und Interpretation von Streuungsmaßen zur Bestimmung der Variabilität eines Datensatzes.

Details:

  • Varianz ( \sigma^2 \ bzw. s^2 ): Durchschnitt der quadrierten Abweichungen vom Mittelwert.
  • Formel für Varianz:
  • Für Population: \[ \sigma^2 = \frac{1}{N} \sum_{i=1}^{N}(x_i - \mu)^2 \]
  • Für Stichprobe: \[ s^2 = \frac{1}{n-1} \sum_{i=1}^{n}(x_i - \bar{x})^2 \]
  • Standardabweichung ( \sigma \ bzw. s ): Quadratwurzel der Varianz, misst die Streuung der Daten.
  • Formel für Standardabweichung:
  • Für Population: \[ \sigma = \sqrt{\sigma^2} \]
  • Für Stichprobe: \[ s = \sqrt{s^2} \]
  • Interpretation:
  • Geringe Standardabweichung: Daten nahe am Mittelwert.
  • Hohe Standardabweichung: Daten weit vom Mittelwert entfernt.
Sign Up

Melde dich kostenlos an, um Zugriff auf das vollständige Dokument zu erhalten

Mit unserer kostenlosen Lernplattform erhältst du Zugang zu Millionen von Dokumenten, Karteikarten und Unterlagen.

Kostenloses Konto erstellen

Du hast bereits ein Konto? Anmelden