Statistik I - Cheatsheet
Mittelwerte, Mediane und Moden in der deskriptiven Statistik
Definition:
Maße der zentralen Tendenz zur Beschreibung der Lage von Datenverteilungen
Details:
- Mittelwert (arithmetisches Mittel): \[\bar{x} = \frac{1}{n} \sum_{i=1}^{n} x_i\]
- Median: Wert, der die geordnete Stichprobe in zwei Hälften teilt. Für ungerade \((n)\): \(Median = x_{(n+1)/2}\). Für gerade \((n)\): \(Median = \frac{x_{(n/2)} + x_{(n/2 + 1)}}{2}\).
- Modus (Modalwert): Wert, der am häufigsten in einer Stichprobe vorkommt.
Streuungsmaße: Varianz und Standardabweichung
Definition:
Maße für die Streuung der Daten um den Mittelwert. Varianz: Durchschnitt der quadrierten Abweichungen vom Mittelwert. Standardabweichung: Quadratwurzel der Varianz.
Details:
- Varianz (\(\text{Var}(X)\)): \[\sigma^2 = \frac{1}{N} \sum_{i=1}^{N} (x_i - \bar{x})^2\]
- Standardabweichung (\(\sigma\)): \[\sigma = \sqrt{\text{Var}(X)} = \sqrt{\frac{1}{N} \sum_{i=1}^{N} (x_i - \bar{x})^2}\]
- Für Stichproben (\(s^2\)): \[s^2 = \frac{1}{n-1} \sum_{i=1}^{n} (x_i - \bar{x})^2\]
- Standardabweichung der Stichprobe (\(s\)): \[s = \sqrt{s^2}\]
- Empfindlich gegenüber Ausreißern
- Wichtige Voraussetzung für viele inferenzstatistische Tests
Grundlagen der Wahrscheinlichkeitstheorie und Satz von Bayes
Definition:
Grundlagen der Wahrscheinlichkeitstheorie umfassen die mathematischen Konzepte, um Unsicherheiten zu modellieren und zu analysieren. Der Satz von Bayes ermöglicht die Berechnung bedingter Wahrscheinlichkeiten basierend auf bekannten Informationen.
Details:
- Wahrscheinlichkeitsverteilung: Verteilung von Wahrscheinlichkeiten über eine Menge möglicher Ereignisse
- Axiomatische Definitionen nach Kolmogorow
- Grundbegriffe: Ereignisse, Zufallsvariablen, Erwartungswert, Varianz
- Wahrscheinlichkeitsmasse: Summe (diskret) bzw. Integral (stetig) ergibt 1
- P(A|B) = \frac{P(B|A) \, P(A)}{P(B)}
- Bedingte Wahrscheinlichkeit und totale Wahrscheinlichkeit
Diskrete und kontinuierliche Zufallsvariablen
Definition:
Diskrete Variablen: endliche oder abzählbar unendliche Menge von Werten. Kontinuierliche Variablen: überabzählbar unendliche Werte.
Details:
- Diskrete Zufallsvariable:
- Wertebereich ist abzählbar (z.B. Würfelergebnis: 1-6)
- Wahrscheinlichkeitsfunktion: \( P(X = x_i) \)
- Kontinuierliche Zufallsvariable:
- Wertebereich ist überabzählbar (z.B. Temperatur)
- Dichtefunktion: \( f_X(x) \)
- Verteilung muss integriert werden, um Wahrscheinlichkeiten zu ermitteln: \[ P(a \leq X \leq b) = \int_{a}^{b} f_X(x) dx \]
Null- und Alternativhypothesen und Fehlerarten
Definition:
Nullhypothese (\textit{H0}): keine Wirkung oder Unterschied; Alternativhypothese (\textit{H1}): es gibt eine Wirkung oder Unterschied.
Details:
- Nullhypothese (\textit{H0}): Hypothese, die geprüft wird; oft Annahme kein Effekt/Unterschied
- Alternativhypothese (\textit{H1}): gegenläufig zur \textit{H0}; Hypothese Effekt/Unterschied vorhanden
- Fehler 1. Art (\textit{α}): \textit{H0} ablehnen, obwohl wahr
- Fehler 2. Art (\textit{β}): \textit{H0} beibehalten, obwohl falsch
- Testentscheidung: basierend auf Signifikanzniveau \textit{α} und Teststärke (macht des Tests)
- Formeln: \textit{α} = P(Fehler 1. Art), \textit{β} = P(Fehler 2. Art)
Konfidenzintervalle und ihre Interpretation
Definition:
Intervall, das den wahren Populationsparameter mit einer bestimmten Wahrscheinlichkeit einschließt.
Details:
- Berechnung: \[ CI = \bar{x} \pm z* \left( \frac{\sigma}{\sqrt{n}} \right) \]
- \(\bar{x}\): Stichprobenmittelwert
- \(z\): Z-Wert des gewünschten Konfidenzniveaus (z.B. 1.96 für 95%)
- \(\sigma\): Populationsstandardabweichung
- \(n\): Stichprobengröße
- Interpretation: Bei 95% Konfidenzniveau enthält das Intervall in 95 von 100 Fällen den wahren Parameter.
t-Tests und F-Tests in den Hypothesentests
Definition:
t-Tests und F-Tests sind statistische Verfahren zum Testen von Hypothesen über Mittelwerte und Varianzen.
Details:
- t-Test: Vergleicht Mittelwerte zweier Gruppen.
- Ein-Stichproben-t-Test: \( t = \frac{\bar{x} - \mu}{s/\sqrt{n}} \) (mittlerer Unterschied wird getestet; Teststatistik folgt einer t-Verteilung).
- Unabhängiger t-Test: \( t = \frac{\bar{x}_1 - \bar{x}_2}{\sqrt{s_p^2 (\frac{1}{n_1} + \frac{1}{n_2})}}\) \( s_p^2 = \frac{(n_1 - 1)s_1^2 + (n_2 - 1)s_2^2}{n_1 + n_2 - 2} \) (zwei unabhängige Stichproben).
- Abhängiger t-Test: \( t = \frac{\bar{d}}{s_d / \sqrt{n}} \) (paarweiser Vergleich).
- F-Test: Testet Varianzunterschiede.
- F-Test-Formel: \( F = \frac{s_1^2}{s_2^2} \) (nutzt die Varianzen von zwei Stichproben).
- ANOVA (Analyse der Varianz) nutzt F-Statistik: \( F = \frac{MS_{between}}{MS_{within}} \) \( MS = \frac{SS}{df} \) (testet Unterschiede zwischen mehreren Gruppen).
Grundlagen der Statistiksoftware wie SPSS und R
Definition:
Grundlegende Einführung in Statistiksoftware zur Datenanalyse, wichtig für Anwendungsbeispiele in Psychologie.
Details:
- SPSS: Benutzerfreundlichkeit durch GUI, umfangreiche Dokumentation. Wichtige Befehle:
Frequencies
, Descriptives
, Analyze
. - R: Leistungsstark, flexibel, Open Source. Grundlegende Syntax:
summary()
, lm()
, ggplot2
. - Datenimport: SPSS über
File -> Open
; R über read.csv()
, read.table()
. - Visualisierung: SPSS über
Graphs
; R über plot()
, ggplot2
. - Statistische Tests: SPSS über
Analyze -> Compare Means
; R über t.test()
, anova()
.