Lineare Regression und Multiple Regression
Definition:
Analyse der linearen Beziehung zwischen einer abhängigen Variable und einer oder mehreren unabhängigen Variablen.
Details:
- Lineare Regression Model: \( Y = \beta_0 + \beta_1X + \text{Fehler} \)
- Multiple Regression Model: \( Y = \beta_0 + \beta_1X_1 + \beta_2X_2 + \beta_3X_3 + \text{Fehler} \)
- Gütemaße: R-Quadrat, F-Test
- Annahmen: Linearität, Normalverteilung der Fehler, Homoskedastizität, Unabhängigkeit der Fehler
- Schätzung der Koeffizienten: Methode der kleinsten Quadrate
- Interpretation der Koeffizienten: Einfluss der unabhängigen Variablen auf die abhängige Variable
Bestimmtheitsmaß (r²) und Interpretation
Definition:
Maß für den Erklärungsgehalt eines Regressionsmodells. Gibt an, wie gut die unabhängigen Variablen die Varianz der abhängigen Variable erklären.
Details:
- Wertebereich: 0 bis 1
- Interpretation: Ein r² von 0.80 bedeutet, dass 80% der Varianz der abhängigen Variable durch das Modell erklärt werden.
- Berechnung: \[ r^2 = 1 - \frac{SS_{res}}{SS_{tot}} \] wobei \( SS_{res} \) die Residualsumme der Quadrate und \( SS_{tot} \) die totale Summe der Quadrate ist.
Signifikanzniveau und p-Wert
Definition:
Maß für statistische Fehlerwahrscheinlichkeit und Entscheidungsregel zur Hypothesenannnahme oder -ablehnung
Details:
- Signifikanzniveau (\(\alpha\)): Wahrscheinlichkeit, dass der Fehler 1. Art (\(\alpha\)-Fehler) auftritt; typischerweise 0,05 oder 5%
- \(p\)-Wert: Wahrscheinlichkeit, unter der Nullhypothese Beobachtetes oder Extremeres zu erhalten
- Wenn \(p\)-Wert < \(\alpha\), wird die Nullhypothese abgelehnt
- \(p\)-Wert berechnet sich aus Teststatistik und Verteilung der Teststatistik unter der Nullhypothese
t-Tests, chi-Quadrat-Tests, und F-Tests
Definition:
t-Tests, chi-Quadrat-Tests und F-Tests werden in der induktiven Statistik genutzt, um Hypothesen zu überprüfen und statistische Signifikanz zu bestimmen.
Details:
- t-Tests: Überprüfen Mittelwerts-Unterschiede zwischen zwei Gruppen.
- Formel für die t-Test-Statistik:
- \[ t = \frac{\bar{x}_1 - \bar{x}_2}{\sqrt{\frac{s^2_1}{n_1} + \frac{s^2_2}{n_2}}} \]
- \( \bar{x}_1, \bar{x}_2 \): Mittelwerte der Gruppen
- \( s^2_1, s^2_2 \): Varianzen der Gruppen
- \( n_1, n_2 \): Stichprobengrößen
- \( t \)-Test-Arten: unverbundener T-Test, verbundener T-Test
- chi-Quadrat-Tests: Überprüfen Unabhängigkeit zwischen zwei kategorialen Variablen.
- Formel für die chi-Quadrat-Statistik:
- \[ \chi^2 = \sum \frac{(O_i - E_i)^2}{E_i} \]
- \( O_i \): Beobachtete Häufigkeiten
- \( E_i \): Erwartete Häufigkeiten
- F-Tests: Vergleichen Varianzen zwischen zwei oder mehr Gruppen.
- Formel für die F-Test-Statistik:
- \[ F = \frac{S^2_1}{S^2_2} \]
- \( S^2_1 \): Größere Varianz
- \( S^2_2 \): Kleinere Varianz
Bedingte Wahrscheinlichkeit und Unabhängigkeit
Definition:
Bedingte Wahrscheinlichkeit beschreibt die Wahrscheinlichkeit eines Ereignisses, gegeben, dass ein anderes Ereignis bereits eingetreten ist. Unabhängigkeit bedeutet, dass das Eintreten eines Ereignisses keinen Einfluss auf die Wahrscheinlichkeit eines anderen Ereignisses hat.
Details:
- Bedingte Wahrscheinlichkeit: \( P(A|B) = \frac{P(A \cap B)}{P(B)} \)
- Unabhängigkeit: \( P(A \cap B) = P(A) \cdot P(B) \)
- Wenn A und B unabhängig sind, dann gilt: \( P(A|B) = P(A) \) und \( P(B|A) = P(B) \)
Satz von Bayes
Definition:
Verwendet zur Aktualisierung von Wahrscheinlichkeiten basierend auf neuen Informationen.
Details:
- Bayes' Theorem: \[ P(A|B) = \frac{P(B|A) \, P(A)}{P(B)} \]
- \( P(A|B) \): Bedingte Wahrscheinlichkeit von A gegeben B
- \( P(B|A) \): Bedingte Wahrscheinlichkeit von B gegeben A
- \( P(A) \) und \( P(B) \): Unbedingte Wahrscheinlichkeiten der Ereignisse A und B
Post-hoc-Tests
Definition:
Post-hoc-Tests werden nach der Durchführung einer ANOVA eingesetzt, um festzustellen, welche Gruppen sich signifikant voneinander unterscheiden.
Details:
- ANOVA prüft nur, ob es insgesamt Unterschiede gibt.
- Post-hoc-Tests spezifizieren die Unterschiede zwischen Gruppen.
- Häufige Post-hoc-Tests: Tukey, Scheffé, Bonferroni.
- Korrigieren für multiples Testen (Alpha-Fehler-Inflation).
- Tukey-Test für gleiche Gruppengrößen geeignet.
- Scheffé-Test konservativer, für ungleiche Gruppengrößen.