Statistik II - Cheatsheet
Grundbegriffe der Statistik: Mittelwert, Median, Modus
Definition:
Grundlegende Kenngrößen zur Beschreibung der zentralen Tendenz einer Datenverteilung.
Details:
- Mittelwert (arithmetisches Mittel): Summe aller Werte geteilt durch die Anzahl der Werte. Formel: \( \bar{x} = \frac{1}{n} \sum_{i=1}^{n} x_i \)
- Median: Wert, der die Daten in zwei gleich große Hälften teilt. Bei ungerader Anzahl der Daten der mittlere Wert, bei gerader Durchschnitt der beiden mittleren Werte.
- Modus: Der Wert, der am häufigsten in den Daten vorkommt. Bei mehreren häufigsten Werten existieren mehrere Modi.
Einführung in die lineare Regression
Definition:
Grundlegende Methode zur Modellierung der Beziehung zwischen einer abhängigen und einer oder mehreren unabhängigen Variablen; Ziel ist die Vorhersage und Erklärung der abhängigen Variable.
Details:
- Modellgleichung: \( Y = \beta_0 + \beta_1 X + \text{Fehler} \)
- Abhängige Variable (Y): das vorhergesagte Ergebnis
- Unabhängige Variable (X): der Prädiktor
- Schätzer der Koeffizienten \( \beta_0 \) (Achsenabschnitt) und \( \beta_1 \) (Steigung)
- Minimierung der Fehlerquadratsumme (OLS-Methode)
- Gütemaße: R², F-Test, t-Tests für Koeffizienten
- Voraussetzungen: Linearität, Unabhängigkeit, Homoskedastizität, Normalverteilung der Fehler
Erwartungswert, Varianz und Momente
Definition:
Erwartungswert: Maß für den Durchschnittswert einer Zufallsvariablen. Varianz: Maß für die Streuung der Werte um den Erwartungswert. Momente: Beschreiben die Verteilung einer Zufallsvariablen.
Details:
- Erwartungswert: \(E(X) = \sum x_i p(x_i)\) oder \(E(X) = \int_{-\infty}^{\infty} x f(x) dx\)
- Varianz: \(Var(X) = E[(X - E(X))^2] = \sum (x_i - \mu)^2 p(x_i) = \sigma^2\)
- Standardabweichung: \( \sigma = \sqrt{Var(X)} \)
- n-ter Moment: \( M_n = E(X^n) \), Zentriertes n-tes Moment: \( \mu_n = E[(X - \mu)^n] \)
Gesetz der großen Zahlen und Zentraler Grenzwertsatz
Definition:
Grundlagen der Wahrscheinlichkeitstheorie, wichtig für das Verständnis der Stichprobenverteilung und deren Konvergenzverhalten.
Details:
- Gesetz der großen Zahlen (GLGZ): Mit wachsendem Stichprobenumfang nähert sich der Stichprobenmittelwert dem Erwartungswert der Grundgesamtheit.
- Formel GLGZ: \[\frac{1}{n} \sum_{i=1}^{n} X_i \rightarrow \mu \]
- Zentraler Grenzwertsatz (ZGWZ): Bei hinreichend großer Stichprobe nähert sich die Verteilung der Stichprobenmittelwerte einer Normalverteilung unabhängig von der Verteilung der Grundgesamtheit.
- Formel ZGWZ: \[ \frac{ \bar{X} - \mu}{\frac{\sigma}{\sqrt{n}}} \rightarrow N(0,1) \]
- Erklärt, warum Normalverteilungen in der Statistik so bedeutsam sind.
Konfidenzintervalle und ihre Berechnung
Definition:
Konfidenzintervalle geben an, in welchem Bereich der wahre Populationsparameter mit einer bestimmten Wahrscheinlichkeit liegt.
Details:
- 95%-Konfidenzintervall: \( \mu \pm 1.96 \cdot \frac{\sigma}{\sqrt{n}} \)
- 50%-Konfidenzintervall: \( \mu \pm 0.67 \cdot \frac{\sigma}{\sqrt{n}} \)
- Schrittweise Berechnung: Mittelwert (\(\bar{x}\)), Standardabweichung (\(s\)), Stichprobengröße (\(n\)), z-Wert
- Bedeutung: Intervallbreite sinkt mit steigender Stichprobengröße, Unsicherheit reduziert sich
- Anwendbar bei Normalverteilung und großer Stichprobe
Parameterestimierung mit der Methode der kleinsten Quadrate
Definition:
Schätzung von Regressionsparametern durch Minimierung der Summe der quadrierten Abweichungen zwischen den beobachteten und den vorhergesagten Werten.
Details:
- Schätzfunktion: \boldsymbol{\beta} = (\boldsymbol{X}^T \boldsymbol{X})^{-1} \boldsymbol{X}^T \boldsymbol{y}
- Ziel: Minimierung der Funktion: S(\boldsymbol{\beta}) = \boldsymbol{\beta}^T \boldsymbol{X}^T \boldsymbol{X} \boldsymbol{\beta} - 2 \boldsymbol{\beta}^T \boldsymbol{X}^T \boldsymbol{y} + \boldsymbol{y}^T \boldsymbol{y}
- Residuen: \boldsymbol{e} = \boldsymbol{y} - \boldsymbol{X} \boldsymbol{\beta}
- Varianz der Residuen: \boldsymbol{\text{Var}}(\boldsymbol{e}) = \frac{\boldsymbol{e}^T \boldsymbol{e}}{n - k}
Verwendung von Software-Tools wie SPSS, R oder Python für Datenvisualisierung
Definition:
Verwendung von Software-Tools wie SPSS, R oder Python für Datenvisualisierung umfasst die Darstellung von Daten in grafischer Form zur Erleichterung der Analyse und Interpretation.
Details:
- SPSS: Menü-basierte Oberfläche, leicht zu erlernen, gut für Standardanalysen.
- R: Skripting-Sprache, hohe Flexibilität, leistungsstarke Bibliotheken wie ggplot2 für komplexe Visualisierungen.
- Python: Vielseitige Programmiersprache, Bibliotheken wie matplotlib und seaborn für diverse Visualisierungsaufgaben.
- \textbf{Beispiele:} Histogramme, Boxplots, Scatterplots, Heatmaps.
- Syntax: Basisbefehle kennen (z.B. \texttt{ggplot()} in R, \texttt{plt.plot()} in Python).
- Export & Integration: Grafiken für Berichte exportieren (\texttt{.png}, \texttt{.pdf}, etc.).