Statistik - Cheatsheet
Mittelwert, Median, Modus
Definition:
Definitionen und Erklärungen der zentralen Tendenzmaße in der Statistik.
Details:
- Mittelwert (arithmetisches Mittel): Durchschnittswert einer Datenmenge. Berechnung:
- Median: Der Wert, der die geordnete Datenmenge in zwei gleich große Hälften teilt.
- Modus: Der am häufigsten vorkommende Wert in einer Datenmenge.
Varianz und Standardabweichung
Definition:
Varianz beschreibt die durchschnittliche quadratische Abweichung der Messwerte vom Mittelwert, Standardabweichung ist die Quadratwurzel der Varianz.
Details:
- Varianz:
- Standardabweichung:
- Maß für die Streuung der Daten
- Wichtiger für das Verständnis der Datenverteilung
- Einheit der Varianz: Quadrat der ursprünglichen Einheit
- Einheit der Standardabweichung: Ursprüngliche Einheit
Boxplot-Darstellung
Definition:
Graphische Darstellung zur Visualisierung der Verteilung einer Datenmenge basierend auf den Quartilen.
Details:
- Box: Interquartilsabstand (IQR)
- Linie innerhalb der Box: Median
- Whiskers: 1.5 \times IQR
- Ausreißer: Datenpunkte außerhalb der Whiskers
- Häufig genutzt zur Erkennung von Symmetrie und Ausreißern
Korrelation und Kovarianz
Definition:
Korrelation misst die Stärke und Richtung einer linearen Beziehung zwischen zwei Variablen. Kovarianz misst die Richtung der linearen Beziehung zwischen zwei Variablen und deren gemeinsame Variation.
Details:
- Kovarianz:
- Korrelation: standardisierte Form der Kovarianz,
- Wertebereich der Korrelation:
- Korrelation bedeutet keine lineare Beziehung
- Korrelation oder bedeutet perfekte lineare Beziehung
Bayes' Theorem
Definition:
Bayes' Theorem zur Berechnung der Wahrscheinlichkeit eines Ereignisses basierend auf vorheriger Wissen oder Ereignissen.
Details:
Normalverteilung
Definition:
Wahrscheinlichkeitsverteilung, gekennzeichnet durch die Glockenkurve; symmetrisch um den Mittelwert mit der Standardabweichung .
Details:
- Dichtefunktion:
- Erwartungswert:
- Varianz:
- 68-95-99,7 Regel: ca. 68% innerhalb von , 95% innerhalb von , 99,7% innerhalb von
Hypothesentests und p-Werte
Definition:
Hypothesentests überprüfen, ob eine Annahme über eine Population mit Daten übereinstimmt. Ein p-Wert gibt die Wahrscheinlichkeit an, dass das beobachtete Ergebnis oder ein extremeres unter der Nullhypothese eintritt.
Details:
- Nullhypothese (H0): Annahme, die geprüft wird.
- Alternativhypothese (H1): Die Annahme, die angenommen wird, wenn H0 abgelehnt wird.
- Signifikanzniveau (α): Akzeptable Fehlerwahrscheinlichkeit, üblicherweise 0,05 oder 5%.
- p-Wert: Wahrscheinlichkeit, das beobachtete Ergebnis unter H0 zu erhalten.
- p < α: H0 ablehnen, H1 annehmen.
- p ≥ α: H0 nicht ablehnen.
- Zweiseitiger Test: Test in beide Richtungen.
- Einseitiger Test: Test in eine Richtung.
- Berechnung des p-Werts oft über Teststatistik wie \textit{t-Test}, \textit{z-Test}, etc.
Multiple Regression
Definition:
Multiple Regression quantifiziert die Beziehung zwischen einer abhängigen Variable (y) und mehreren unabhängigen Variablen (x).
Details:
- Regressionsgleichung:
- : abhängige Variable
- : unabhängige Variablen
- : Achsenabschnitt (intercept)
- : Regressionskoeffizienten
- : Störterm (error term)
- Voraussetzungen: Linearität, Unabhängigkeit, Homoskedastizität, Normalverteilung der Fehler
- Koeffizienten bestimmen: Methode der kleinsten Quadrate
- Modellgüte: Bestimmtheitsmaß (), Adjustiertes
- Multikollinearität prüfen: Variance Inflation Factor (VIF)