Statistik II - Cheatsheet.pdf

Statistik II - Cheatsheet
Statistik II - Cheatsheet Grundbegriffe der Statistik: Mittelwert, Median, Modus Definition: Grundlegende Kenngrößen zur Beschreibung der zentralen Tendenz einer Datenverteilung. Details: Mittelwert (arithmetisches Mittel): Summe aller Werte geteilt durch die Anzahl der Werte. Formel: \( \bar{x} = \frac{1}{n} \sum_{i=1}^{n} x_i \) Median: Wert, der die Daten in zwei gleich große Hälften teilt. Bei...

© StudySmarter 2024, all rights reserved.

Statistik II - Cheatsheet

Grundbegriffe der Statistik: Mittelwert, Median, Modus

Definition:

Grundlegende Kenngrößen zur Beschreibung der zentralen Tendenz einer Datenverteilung.

Details:

  • Mittelwert (arithmetisches Mittel): Summe aller Werte geteilt durch die Anzahl der Werte. Formel: \( \bar{x} = \frac{1}{n} \sum_{i=1}^{n} x_i \)
  • Median: Wert, der die Daten in zwei gleich große Hälften teilt. Bei ungerader Anzahl der Daten der mittlere Wert, bei gerader Durchschnitt der beiden mittleren Werte.
  • Modus: Der Wert, der am häufigsten in den Daten vorkommt. Bei mehreren häufigsten Werten existieren mehrere Modi.

Einführung in die lineare Regression

Definition:

Grundlegende Methode zur Modellierung der Beziehung zwischen einer abhängigen und einer oder mehreren unabhängigen Variablen; Ziel ist die Vorhersage und Erklärung der abhängigen Variable.

Details:

  • Modellgleichung: \( Y = \beta_0 + \beta_1 X + \text{Fehler} \)
  • Abhängige Variable (Y): das vorhergesagte Ergebnis
  • Unabhängige Variable (X): der Prädiktor
  • Schätzer der Koeffizienten \( \beta_0 \) (Achsenabschnitt) und \( \beta_1 \) (Steigung)
  • Minimierung der Fehlerquadratsumme (OLS-Methode)
  • Gütemaße: R², F-Test, t-Tests für Koeffizienten
  • Voraussetzungen: Linearität, Unabhängigkeit, Homoskedastizität, Normalverteilung der Fehler

Erwartungswert, Varianz und Momente

Definition:

Erwartungswert: Maß für den Durchschnittswert einer Zufallsvariablen. Varianz: Maß für die Streuung der Werte um den Erwartungswert. Momente: Beschreiben die Verteilung einer Zufallsvariablen.

Details:

  • Erwartungswert: \(E(X) = \sum x_i p(x_i)\) oder \(E(X) = \int_{-\infty}^{\infty} x f(x) dx\)
  • Varianz: \(Var(X) = E[(X - E(X))^2] = \sum (x_i - \mu)^2 p(x_i) = \sigma^2\)
  • Standardabweichung: \( \sigma = \sqrt{Var(X)} \)
  • n-ter Moment: \( M_n = E(X^n) \), Zentriertes n-tes Moment: \( \mu_n = E[(X - \mu)^n] \)

Gesetz der großen Zahlen und Zentraler Grenzwertsatz

Definition:

Grundlagen der Wahrscheinlichkeitstheorie, wichtig für das Verständnis der Stichprobenverteilung und deren Konvergenzverhalten.

Details:

  • Gesetz der großen Zahlen (GLGZ): Mit wachsendem Stichprobenumfang nähert sich der Stichprobenmittelwert dem Erwartungswert der Grundgesamtheit.
  • Formel GLGZ: \[\frac{1}{n} \sum_{i=1}^{n} X_i \rightarrow \mu \]
  • Zentraler Grenzwertsatz (ZGWZ): Bei hinreichend großer Stichprobe nähert sich die Verteilung der Stichprobenmittelwerte einer Normalverteilung unabhängig von der Verteilung der Grundgesamtheit.
  • Formel ZGWZ: \[ \frac{ \bar{X} - \mu}{\frac{\sigma}{\sqrt{n}}} \rightarrow N(0,1) \]
  • Erklärt, warum Normalverteilungen in der Statistik so bedeutsam sind.

Konfidenzintervalle und ihre Berechnung

Definition:

Konfidenzintervalle geben an, in welchem Bereich der wahre Populationsparameter mit einer bestimmten Wahrscheinlichkeit liegt.

Details:

  • 95%-Konfidenzintervall: \( \mu \pm 1.96 \cdot \frac{\sigma}{\sqrt{n}} \)
  • 50%-Konfidenzintervall: \( \mu \pm 0.67 \cdot \frac{\sigma}{\sqrt{n}} \)
  • Schrittweise Berechnung: Mittelwert (\(\bar{x}\)), Standardabweichung (\(s\)), Stichprobengröße (\(n\)), z-Wert
  • Bedeutung: Intervallbreite sinkt mit steigender Stichprobengröße, Unsicherheit reduziert sich
  • Anwendbar bei Normalverteilung und großer Stichprobe

Parameterestimierung mit der Methode der kleinsten Quadrate

Definition:

Schätzung von Regressionsparametern durch Minimierung der Summe der quadrierten Abweichungen zwischen den beobachteten und den vorhergesagten Werten.

Details:

  • Schätzfunktion: \boldsymbol{\beta} = (\boldsymbol{X}^T \boldsymbol{X})^{-1} \boldsymbol{X}^T \boldsymbol{y}
  • Ziel: Minimierung der Funktion: S(\boldsymbol{\beta}) = \boldsymbol{\beta}^T \boldsymbol{X}^T \boldsymbol{X} \boldsymbol{\beta} - 2 \boldsymbol{\beta}^T \boldsymbol{X}^T \boldsymbol{y} + \boldsymbol{y}^T \boldsymbol{y}
  • Residuen: \boldsymbol{e} = \boldsymbol{y} - \boldsymbol{X} \boldsymbol{\beta}
  • Varianz der Residuen: \boldsymbol{\text{Var}}(\boldsymbol{e}) = \frac{\boldsymbol{e}^T \boldsymbol{e}}{n - k}

Verwendung von Software-Tools wie SPSS, R oder Python für Datenvisualisierung

Definition:

Verwendung von Software-Tools wie SPSS, R oder Python für Datenvisualisierung umfasst die Darstellung von Daten in grafischer Form zur Erleichterung der Analyse und Interpretation.

Details:

  • SPSS: Menü-basierte Oberfläche, leicht zu erlernen, gut für Standardanalysen.
  • R: Skripting-Sprache, hohe Flexibilität, leistungsstarke Bibliotheken wie ggplot2 für komplexe Visualisierungen.
  • Python: Vielseitige Programmiersprache, Bibliotheken wie matplotlib und seaborn für diverse Visualisierungsaufgaben.
  • \textbf{Beispiele:} Histogramme, Boxplots, Scatterplots, Heatmaps.
  • Syntax: Basisbefehle kennen (z.B. \texttt{ggplot()} in R, \texttt{plt.plot()} in Python).
  • Export & Integration: Grafiken für Berichte exportieren (\texttt{.png}, \texttt{.pdf}, etc.).
Sign Up

Melde dich kostenlos an, um Zugriff auf das vollständige Dokument zu erhalten

Mit unserer kostenlosen Lernplattform erhältst du Zugang zu Millionen von Dokumenten, Karteikarten und Unterlagen.

Kostenloses Konto erstellen

Du hast bereits ein Konto? Anmelden