Introduction to Statistics and Statistical Programming - Cheatsheet
Arithmetisches Mittel, Median und Modus: Definitionen und Unterschiede
Definition:
Arithmetisches Mittel, Median, Modus: Kennzahlen zur Beschreibung der zentralen Tendenz in einer Datenverteilung
Details:
- Arithmetisches Mittel: Durchschnittswert aller Datenpunkte, berechnet als Summe der Werte geteilt durch die Anzahl der Werte. \[ \bar{x} = \frac{1}{n} \sum_{i=1}^{n} x_i \]
- Median: Zentralwert einer geordneten Datenreihe; teilt die Datenmenge in zwei Hälften. Für eine ungerade Anzahl an Datenpunkten: Wert in der Mitte; für eine gerade Anzahl an Datenpunkten: Durchschnitt der beiden mittleren Werte.
- Modus (Modalwert): Wert, der in der Datenreihe am häufigsten vorkommt.
- Unterschiede: - Arithmetisches Mittel empfindlich gegenüber Ausreißern - Median robust gegenüber Ausreißern - Modus kann mehrere Werte haben, wenn mehrere Werte gleich häufig auftreten (multimodal)
Bedingte Wahrscheinlichkeit und Unabhängigkeit: Formeln und Anwendungen
Definition:
Bedingte Wahrscheinlichkeit beschreibt die Wahrscheinlichkeit eines Ereignisses unter der Bedingung, dass ein anderes Ereignis bereits eingetreten ist. Unabhängigkeit bedeutet, dass das Eintreten eines Ereignisses keinen Einfluss auf das Eintreten eines anderen Ereignisses hat.
Details:
- Bedingte Wahrscheinlichkeit: \(P(A|B) = \frac{P(A \cap B)}{P(B)}\) falls \(P(B) > 0\)
- Zwei Ereignisse A und B sind unabhängig, wenn \(P(A \cap B) = P(A) \cdot P(B)\)
- Formeln für Unabhängigkeit in bedingten Wahrscheinlichkeiten: \(P(A|B) = P(A)\) und \(P(B|A) = P(B)\)
- Anwendung in statistischen Modellen und Datenanalysen, z.B. Bayes'sches Theorem: \(P(A|B) = \frac{P(B|A) \cdot P(A)}{P(B)}\)
- Wichtig für Entscheidungsfindung unter Unsicherheit und in Prognosen
Diskrete und stetige Wahrscheinlichkeitsverteilungen: Gemeinsame Verteilungen und Beispielverteilungen
Definition:
Diskrete und stetige Wahrscheinlichkeitsverteilungen beschreiben gemeinsame Verteilungen für mehrere Zufallsvariablen und geben Beispielverteilungen an.
Details:
- Diskrete Verteilungen: Werte sind abzählbar (z.B. Binomialverteilung, Poissonverteilung)
- Stetige Verteilungen: Werte sind über ein Intervall definiert (z.B. Normalverteilung, Exponentialverteilung)
- Gemeinsame Verteilungen: Multivariate Verteilung, beschreibt Wahrscheinlichkeiten mehrerer Zufallsvariablen.
- Beispiel: Gemeinsame Dichtefunktion für stetige Variable: \( f_{X,Y}(x,y) = \frac{\partial^2}{\partial x \partial y} F_{X,Y}(x,y) \)
- Beispiel: Gemeinsame Verteilungsfunktion für diskrete Variable: \( P(X = x, Y = y) = P_X(x) \cdot P_Y(y) \)
- Marginale Verteilung: \( P_X(x) = \sum_y P_{X,Y}(x,y) \) oder \( f_X(x) = \int_{-\infty}^{\infty} f_{X,Y}(x,y) \, dy \)
Konfidenzintervalle: Berechnung und Interpretation
Definition:
Konfidenzintervalle werden genutzt, um den Bereich anzugeben, in dem ein unbekannter Parameter mit einer bestimmten Wahrscheinlichkeit liegt.
Details:
- Berechnung: \( \hat{\theta} \pm z_{\alpha/2} \cdot \frac{\sigma}{\sqrt{n}} \)
- \( \hat{\theta} \): Punktschätzer
- \( z_{\alpha/2} \): kritischer Wert
- \( \sigma \): Standardabweichung
- \( n \): Stichprobenumfang
- Interpretation: Ein 95% Konfidenzintervall bedeutet, dass wir in 95% der Fälle erwarten, dass es den wahren Parameterwert enthält.
Punktschätzung und Intervallschätzung: Unterschied und Methoden
Definition:
Punktschätzung liefert einen einzelnen Schätzwert für einen unbekannten Parameter, während Intervallschätzung einen Bereich angibt, innerhalb dessen der Parameter mit gewisser Wahrscheinlichkeit liegt.
Details:
- Punktschätzung: Einzelwert, z.B. \(\bar{x}\) zur Schätzung des Mittelwerts
- Intervallschätzung: Bereich, z.B. Konfidenzintervall, \[\bar{x} \pm z_{\alpha/2} \cdot \frac{\sigma}{\sqrt{n}}\]
- Methoden der Punktschätzung: Maximum-Likelihood-Schätzung (MLE), Momentenmethode
- Methoden der Intervallschätzung: Konfidenzintervalle, Bootstrap-Verfahren
Hypothesentests: Formulierung, Durchführung und Interpretation
Definition:
Hypothesentests: Überprüfung Hypothese gegen alternative Hypothese anhand statistischer Daten.
Details:
- Nullhypothese (\(H_0\)): Annahme, die getestet wird.
- Alternativhypothese (\(H_a\)): Gegenhypothese zu \(H_0\).
- Signifikanzniveau (\(\alpha\)): Wahrscheinlichkeit, die \(H_0\) fälschlicherweise ablehnt (typ. 0,05).
- Teststatistik: Berechnete Metrik zur Entscheidung über \(H_0\)/\(H_a\).
- p-Wert: Wahrscheinlichkeit, unter \(H_0\) beobachtetes oder extremeres Ergebnis zu erhalten; \(\text{p-Wert} \leq \alpha\) - \(H_0\) ablehnen.
- Interpretation: Entscheidung basiert auf Vergleich p-Wert und \(\alpha\), und praktische Relevanz der Ergebnisse berücksichtigen.
- Verschiedene Testarten: z.B., t-Test, Chi-Quadrat-Test.
- Testauswahl abhängig von Daten und Hypothesen.
Lineare Regression: Einfach und mehrfach, Modellannahmen und Interpretation
Definition:
Lineare Regression analysiert die Beziehung zwischen einer abhängigen Variablen und einer oder mehreren unabhängigen Variablen durch eine lineare Gleichung.
Details:
- Einfach: Eine abhängige Variable, eine unabhängige Variable
- Mehrfach: Eine abhängige Variable, mehrere unabhängige Variablen
- Modell: \[ y_i = \beta_0 + \beta_1 x_{i1} + \beta_2 x_{i2} + ... + \beta_k x_{ik} + \epsilon_i \]
- Modellannahmen:
- Lineare Beziehung
- Unabhängigkeit der Fehler
- Homoskedastizität
- Normalverteilung der Fehler
- Interpretation der Koeffizienten:
- \(\beta_0\): Achsenabschnitt
- \(\beta_i\): Änderung in \(y\) für eine Einheit Änderung in \(x_i\)
Grundlagen der Programmiersprache R: Datenimport, -manipulation und grundlegende Befehle
Definition:
Grundlegende Konzepte des Datenimports und der Datenbearbeitung in R, sowie grundlegende Befehle.
Details:
- Datenimport:
read.csv()
, read.table()
, readr
-Package - Datenmanipulation:
dplyr
-Package (filter()
, select()
, mutate()
, summarize()
), tidyr
-Package - Grundlegende Befehle: Datentypen (
numeric
, character
, factor
), Strukturen (vector
, matrix
, data.frame
, list
) - Grundrechenarten: Addition
+
, Subtraktion -
, Multiplikation *
, Division /