Introduction to Statistics and Statistical Programming - Cheatsheet
Unterschied zwischen deskriptiver und inferentieller Statistik
Definition:
Unterschied zwischen deskriptiver und inferentieller Statistik: Deskriptive Statistik beschreibt und analysiert vorhandene Daten; inferentielle Statistik zieht daraus Schlüsse über eine Grundgesamtheit.
Details:
- Deskriptive Statistik: Beschreibt Datensätze durch Maße wie Mittelwert (\bar{x}), Median, Modus, Standardabweichung (\sigma), etc.
- Inferentielle Statistik: Nutzt Stichprobendaten zur Schätzung und Hypothesenprüfung über eine Population unter Verwendung von Konfidenzintervallen und Signifikanztests (z.B. t-Test, Chi-Quadrat-Test).
Lagemasse: Mittelwert, Median, Modus
Definition:
Lagemasse beschreiben die zentrale Tendenz einer Datenverteilung.
Details:
- Mittelwert (\(\bar{x}\)): \[ \bar{x} = \frac{1}{n} \sum_{i=1}^{n} x_i \] Empfindlich gegenüber Ausreißern.
- Median: Wert, der die Daten in zwei Hälften teilt. Bei ungerader Anzahl der Daten der mittlere Wert, bei gerader Anzahl das arithmetische Mittel der beiden mittleren Werte. Nicht empfindlich gegenüber Ausreißern.
- Modus: Der häufigste Wert in einer Datenverteilung. Eine Verteilung kann keinen, einen oder mehrere Modi haben.
Bedingte Wahrscheinlichkeit und Unabhängigkeit
Definition:
Bedingte Wahrscheinlichkeit beschreibt die Wahrscheinlichkeit eines Ereignisses unter der Bedingung, dass ein anderes Ereignis bereits eingetreten ist.
Details:
- Bedingte Wahrscheinlichkeit: \(P(A|B) = \frac{P(A \cap B)}{P(B)}\) Voraussetzung: \(P(B) > 0\)
- Zwei Ereignisse A und B sind unabhängig, wenn \(P(A \cap B) = P(A) \cdot P(B)\)
- Alternativ: \(P(A|B) = P(A)\) und \(P(B|A) = P(B)\) suggerieren Unabhängigkeit
- Unabhängigkeit von mehreren Ereignissen: Alle möglichen Paarungen müssen unabhängig sein
Hypothesentests: Nullhypothese und Alternativhypothese
Definition:
Nullhypothese (H0) und Alternativhypothese (H1) sind zentrale Konzepte bei Hypothesentests, die genutzt werden, um Annahmen über eine Population basierend auf Stichprobendaten zu prüfen.
Details:
- Nullhypothese (H0): Die Annahme, die getestet wird; normalerweise, dass kein Effekt oder Unterschied existiert.
- Alternativhypothese (H1): Die Annahme, die zugrunde gelegt wird, wenn H0 verworfen wird; normalerweise, dass ein Effekt oder Unterschied existiert.
- Teststatistik: Berechnete Größe aus den Stichprobendaten, die genutzt wird, um H0 zu testen.
- Signifikanzniveau (\alpha): Die Wahrscheinlichkeit, H0 abzulehnen, wenn sie wahr ist; oft 0.05.
- p-Wert: Die Wahrscheinlichkeit, die beobachteten Daten (oder extremere) unter der Annahme, dass H0 wahr ist, zu bekommen.
- Entscheidungsregel: Wenn p-Wert \leq \alpha, lehne H0 ab; sonst akzeptiere H0.
Signifikanzniveau und Teststärke
Definition:
Signifikanzniveau (Alpha) ist die Wahrscheinlichkeit, einen Fehler 1. Art zu begehen. Teststärke (Power, 1 - Beta) ist die Wahrscheinlichkeit, einen Fehler 2. Art zu vermeiden.
Details:
- Signifikanzniveau \( \alpha \) festgelegt vor dem Test, typischerweise 0.05.
- Fehler 1. Art: Die Nullhypothese wird fälschlicherweise verworfen.
- Teststärke hängt von \( n \) (Stichprobengröße), \( \alpha \), Effektgröße und Varianz ab.
- Fehler 2. Art \( \beta \): Nullhypothese wird fälschlicherweise nicht verworfen.
Grundlagen der Programmiersprachen R und Python
Definition:
Grundkonzepte und Syntaxelemente von R und Python für statistische Programmierung.
Details:
- Beide: hohe Lesbarkeit, umfangreiche Bibliotheken (z.B. numpy, pandas für Python; dplyr, ggplot2 für R)
- Python: allgemeine Programmiersprache, auch für Webentwicklung, Data Science
- R: speziell für Statistik, Datenanalyse
- Syntax: Python indiziert mit Einrückung; R mit Klammern
- Grundlegende Datentypen: Integer, Float, String, Bool (beide); Vektor, Matrix, DataFrame (R); Liste, Dictionary, DataFrame (Python)
- Statistische Funktionen: \texttt{mean()}, \texttt{median()}, \texttt{var()} (beide)
- Import: \texttt{import pandas as pd} (Python); \texttt{library(dplyr)} (R)
Datenmanipulation und -bereinigung
Definition:
Korrektur und Anpassung von Daten zur Sicherstellung ihrer Qualität und Eignung für Analysen.
Details:
- Fehlerkorrektur: Entfernung oder Korrektur fehlerhafter Daten.
- Umwandlung: Werteformate angleichen, z.B. Datumformat.
- Fehlende Werte: Behandlung fehlender Datenpunkte (Imputation, Entfernung).
- Duplikate: Identifizieren und Entfernen redundanter Datenzeilen.
- Ausreißer: Erkennung und ggf. Behandlung.
- Aggregation: Daten zusammenfassen.
- Filtern: Auswahl relevanter Daten.
Erstellung von Grafiken und Visualisierungen
Definition:
Erstellung von Grafiken und Visualisierungen zur Darstellung und Analyse von Daten
Details:
- Verwende Bibliotheken z.B. ggplot2 in R oder Matplotlib in Python
- Grundlegende Plots: Histogramme, Boxplots, Streudiagramme, Liniendiagramme
- Syntaxbeispiele:
- ggplot2:
ggplot(data, aes(x, y)) + geom_point()
- Matplotlib:
plt.plot(x, y)
- Wichtige Parameter: Titel, Achsenbeschriftungen, Legenden
- Interpretation der erstellten Grafiken basierend auf den Analysemethoden