Biometrie und Epidemiologie - Cheatsheet
Histogramme und Boxplots
Definition:
Histogramme und Boxplots sind grafische Werkzeuge zur Darstellung und Analyse von Datenverteilungen.
Details:
- Histogramm: zeigt die Häufigkeitsverteilung von Daten.
- Boxplot: fasst Verteilungen durch Quartile und Extremwerte zusammen.
- Histogramm: geeignet für große Stichproben; wichtig: Klassenbreite.
- Boxplot: zeigt Median, Quartile (Q1, Q3) und mögliche Ausreißer.
- Formeln:
- Datenklassenzahl im Histogramm: \( k = \sqrt{n} \ ), wobei \( n \) die Anzahl der Datenpunkte ist.
- IQR (Interquartilsabstand) im Boxplot: \( IQR = Q3 - Q1 \).
Berechnung und Interpretation von Konfidenzintervallen
Definition:
Berechnung der Unsicherheit eines statistischen Parameters; Interpretation als Bereich, der den wahren Wert des Parameters mit einer bestimmten Wahrscheinlichkeit enthält
Details:
- Konfidenzintervall (KI): Bereich um einen geschätzten Parameter
- Berechnung des KI: \[ \hat{\theta} \pm z \cdot \frac{\sigma}{\sqrt{n}} \] (für Mittelwert, Normalverteilung)
- \(\hat{\theta}\): geschätzter Parameter
- \(z\): Z-Wert (abhängig von Konfidenzniveau, z.B., 1.96 für 95%)
- \(\sigma\): Standardabweichung
- \(n\): Stichprobengröße
- Interpretation: Mit x%iger Sicherheit liegt der wahre Parameterwert im KI
Multivariate Regressionsmodelle
Definition:
Statistisches Verfahren, um Zusammenhänge zwischen einer abhängigen Variable und mehreren unabhängigen Variablen zu analysieren.
Details:
- Formel: \[ y = \beta_0 + \beta_1 x_1 + \beta_2 x_2 + \cdots + \beta_n x_n + \epsilon \]
- \( y \): abhängige Variable
- \( x_1, x_2, \ldots, x_n \): unabhängige Variablen
- \( \beta_0 \): Interzept
- \( \beta_1, \beta_2, \ldots, \beta_n \): Regressionskoeffizienten
- \( \epsilon \): Fehlerterm
- Hilfreich zur Kontrolle von Störvariablen und zur Untersuchung komplexer Beziehungen
- Erweiterte Modelle: z.B. logistische Regression für binäre abhängige Variablen
Hauptkomponentenanalyse (PCA)
Definition:
Methode zur Dimensionsreduktion in Datensätzen durch Transformation auf neue Achsen (Hauptkomponenten), die die größte Varianz erklären.
Details:
- Ziel: Verringerung der Anzahl der Variablen, Beibehaltung der wichtigsten Datenvariationen
- Neue Achsen: Hauptkomponenten, orthogonal und unkorreliert
- Varianzmaximierung: Jede Hauptkomponente erfasst die maximale mögliche Varianz im Datensatz
- Eigenvektoren (Achsen): Richtungen der größten Datenvarianz
- Eigenwerte: Varianzbetrag jeder Hauptkomponente
- Berechnung: Kovarianzmatrix, Eigenwertzerlegung
- Eingesetzt in: Mustererkennung, Bildverarbeitung, Datenvorverarbeitung
Odds Ratio und Relatives Risiko
Definition:
Odds Ratio (OR) und Relatives Risiko (RR) sind statistische Maße zur Beurteilung von assoziativen Zusammenhängen zwischen Exposition und Ergebnis.
Details:
- OR: Verhältnis der Chancen, dass ein Ereignis in zwei Gruppen auftritt.
- RR: Verhältnis der Wahrscheinlichkeit eines Ereignisses in der Expositionsgruppe zur Wahrscheinlichkeit in der Kontrollgruppe.
- Formeln:
- OR: \[ OR = \frac{(a/c)}{(b/d)} = \frac{a \times d}{b \times c} \]
- RR: \[ RR = \frac{[a / (a + b)]}{[c / (c + d)]} \]
- a = Anzahl der Exponierten mit Ereignis
- b = Anzahl der Exponierten ohne Ereignis
- c = Anzahl der Nicht-Exponierten mit Ereignis
- d = Anzahl der Nicht-Exponierten ohne Ereignis
Bias und Confounding in epidemiologischen Studien
Definition:
Bias: systematischer Fehler, der zu verzerrten Ergebnissen führt.Konfundierung: Verzerrung, wenn die Wirkung der zu untersuchenden Variable mit der einer anderen Variable vermischt wird.
Details:
- Bias:
- Selektionsbias: Fehler bei der Auswahl der Studienteilnehmer
- Informationsbias: Fehler bei der Datenerhebung
- Konfundierung:
- Eine Variable ist ein Konfounder, wenn sie sowohl mit der Exposition als auch mit dem Outcome assoziiert ist
- Kontrolle von Konfundern: Randomisierung, Matching, Stratifikation, multivariable Analyse
Stichprobenumfang und Power-Analyse
Definition:
Berechnung der benötigten Stichprobengröße zur Erreichung einer ausreichenden Teststärke (Power).
Details:
- Ziel: Bestimmung der minimalen Stichprobengröße, um einen Effekt mit einer vorgegebenen Wahrscheinlichkeit zu erkennen.
- Teststärke (Power) = 1 - β: Wahrscheinlichkeit, einen vorhandenen Effekt korrekt zu erkennen.
- Signifikanzniveau (α): Maximale Wahrscheinlichkeit, einen Nullhypothesentest fälschlicherweise zu verwerfen (Typ-I-Fehler).
- Effektgröße (Cohen's d, \(\beta\)): Standardmaß zur Beschreibung der Stärke eines Effektes.
- Formel für benötigte Stichprobengröße bei Ein-Stichproben-t-Test: \( n = \frac{{(Z_{1-\alpha/2} + Z_{1-\beta})^2 \cdot \sigma^2}}{{d^2}} \), wobei \(d\) die Effektgröße und \(\sigma\) die Standardabweichung ist.
- Software-Tools: G*Power, R-Paket 'pwr'.