Häufigkeitsverteilungen
Definition:
Grafische und tabellarische Darstellung der Verteilung von Werten einer Variablen in einer Stichprobe.
Details:
- Absolute Häufigkeit: Anzahl der Beobachtungen eines Wertes
- Relative Häufigkeit: \(h_i = \frac{n_i}{n}\)
- Kumulative Häufigkeit: Summe der Häufigkeiten bis zu einem bestimmten Wert
- Histogramm: Grafische Darstellung der Häufigkeitsverteilung für metrische Daten
- Stabdiagramm: Für kategoriale Daten
- Wichtig für die Beschreibung und Analyse von Stichproben
Box-Plots
Definition:
Box-Plots visualisieren die Verteilung einer metrischen Variable durch fünf Kennwerte: Minimum, 1. Quartil, Median, 3. Quartil, Maximum.
Details:
- Median = \({Q_2}\) = 50%-Perzentil
- 1. Quartil = \({Q_1}\) = 25%-Perzentil
- 3. Quartil = \({Q_3}\) = 75%-Perzentil
- Interquartilsabstand (IQR) = \({Q_3 - Q_1}\)
- Whiskers = typische Länge: \({1,5 \cdot IQR}\) zu beiden Seiten, aber beschränkt bis zum Minimum/Maximum der Daten
- Ausreißer = Datenpunkte außerhalb der Whiskers
Satz von Bayes
Definition:
Satz von Bayes beschreibt die Beziehung zwischen bedingten Wahrscheinlichkeiten zweier Ereignisse.
Details:
- Formel: \(P(A|B) = \frac{P(B|A) \cdot P(A)}{P(B)} \)
- \(P(A|B)\): Wahrscheinlichkeit von A gegeben B
- \(P(B|A)\): Wahrscheinlichkeit von B gegeben A
- \(P(A)\): Wahrscheinlichkeit von A
- \(P(B)\): Wahrscheinlichkeit von B
Median
Definition:
Wert, der die sortierte Stichprobe in zwei Hälften teilt, 50% der Werte liegen unterhalb und 50% oberhalb des Medians.
Details:
- Unterscheidet sich je nach Anzahl der Beobachtungen (n) zwischen geradzahlig und ungerade:
- Bei ungerader Anzahl: Median = Wert an Position \(\frac{n+1}{2}\)
- Bei gerader Anzahl: Median = Durchschnitt der Werte an den Positionen \(\frac{n}{2}\) und \(\frac{n}{2}+1\)
- Unempfindlich gegenüber Ausreißern
Standardabweichung
Definition:
Maß für die Streuung der Werte einer Zufallsvariablen um ihren Mittelwert.
Details:
- Berechnung: Quadratwurzel der Varianz
- Formel: \( \sigma = \sqrt{\frac{\sum_{i=1}^{n}(x_i-\bar{x})^2}{n}} \)
- eigene Einheit: Vorsicht bei Interpretation
- Erhöht sich bei größerer Streuung der Daten
Variationskoeffizient
Definition:
Maß zur Beschreibung der relativen Streuung einer Zufallsvariable im Verhältnis zu ihrem Mittelwert.
Details:
- Formel: \(CV = \frac{\sigma}{\mu}\)
- \(\sigma\): Standardabweichung
- \(\mu\): Mittelwert
- Ausdruck oft in Prozent
- Ermöglicht Vergleich der Variabilität zwischen unterschiedlichen Datensätzen
Verhältnis- und Intervallskalen
Definition:
Verhältnis- und Intervallskalen sind zwei Arten von metrischen Skalen in der deskriptiven Statistik.
Details:
- Intervallskala: Abstände interpretierbar, aber kein absoluter Nullpunkt (z.B. Temperatur in Celsius, Kalenderzeit).
- Verhältnisskala: Abstände und Verhältnisse interpretierbar, absoluter Nullpunkt vorhanden (z.B. Gewicht, Länge, Kelvin-Skala).
- Zentrale Maße: Mittelwert \( \bar{x} = \frac{1}{n} \sum_{i=1}^{n} x_i \), Varianz \( s^2 = \frac{1}{n-1} \sum_{i=1}^{n} (x_i - \bar{x})^2 \).
- Transformationen: Bei Intervallskalen lineare Transformation (\ y = a + bx \), bei Verhältnisskalen proportionale Transformation (\ y = bx \).
Kreuztabellen
Definition:
Tabellarische Darstellung der Häufigkeiten zweier kategorialer Variablen.
Details:
- Zeilen: Kategorien der einen Variablen
- Spalten: Kategorien der anderen Variablen
- Häufigkeiten: Werte in den Zellen der Tabelle
- Randverteilungen: Zeilen- und Spaltensummen