Introduction to Statistics and Statistical Programming - Cheatsheet.pdf

Introduction to Statistics and Statistical Programming - Cheatsheet
Introduction to Statistics and Statistical Programming - Cheatsheet Arithmetisches Mittel, Median und Modus: Definitionen und Unterschiede Definition: Arithmetisches Mittel, Median, Modus: Kennzahlen zur Beschreibung der zentralen Tendenz in einer Datenverteilung Details: Arithmetisches Mittel: Durchschnittswert aller Datenpunkte, berechnet als Summe der Werte geteilt durch die Anzahl der Werte. \...

© StudySmarter 2024, all rights reserved.

Introduction to Statistics and Statistical Programming - Cheatsheet

Arithmetisches Mittel, Median und Modus: Definitionen und Unterschiede

Definition:

Arithmetisches Mittel, Median, Modus: Kennzahlen zur Beschreibung der zentralen Tendenz in einer Datenverteilung

Details:

  • Arithmetisches Mittel: Durchschnittswert aller Datenpunkte, berechnet als Summe der Werte geteilt durch die Anzahl der Werte. \[ \bar{x} = \frac{1}{n} \sum_{i=1}^{n} x_i \]
  • Median: Zentralwert einer geordneten Datenreihe; teilt die Datenmenge in zwei Hälften. Für eine ungerade Anzahl an Datenpunkten: Wert in der Mitte; für eine gerade Anzahl an Datenpunkten: Durchschnitt der beiden mittleren Werte.
  • Modus (Modalwert): Wert, der in der Datenreihe am häufigsten vorkommt.
  • Unterschiede: - Arithmetisches Mittel empfindlich gegenüber Ausreißern - Median robust gegenüber Ausreißern - Modus kann mehrere Werte haben, wenn mehrere Werte gleich häufig auftreten (multimodal)

Bedingte Wahrscheinlichkeit und Unabhängigkeit: Formeln und Anwendungen

Definition:

Bedingte Wahrscheinlichkeit beschreibt die Wahrscheinlichkeit eines Ereignisses unter der Bedingung, dass ein anderes Ereignis bereits eingetreten ist. Unabhängigkeit bedeutet, dass das Eintreten eines Ereignisses keinen Einfluss auf das Eintreten eines anderen Ereignisses hat.

Details:

  • Bedingte Wahrscheinlichkeit: \(P(A|B) = \frac{P(A \cap B)}{P(B)}\) falls \(P(B) > 0\)
  • Zwei Ereignisse A und B sind unabhängig, wenn \(P(A \cap B) = P(A) \cdot P(B)\)
  • Formeln für Unabhängigkeit in bedingten Wahrscheinlichkeiten: \(P(A|B) = P(A)\) und \(P(B|A) = P(B)\)
  • Anwendung in statistischen Modellen und Datenanalysen, z.B. Bayes'sches Theorem: \(P(A|B) = \frac{P(B|A) \cdot P(A)}{P(B)}\)
  • Wichtig für Entscheidungsfindung unter Unsicherheit und in Prognosen

Diskrete und stetige Wahrscheinlichkeitsverteilungen: Gemeinsame Verteilungen und Beispielverteilungen

Definition:

Diskrete und stetige Wahrscheinlichkeitsverteilungen beschreiben gemeinsame Verteilungen für mehrere Zufallsvariablen und geben Beispielverteilungen an.

Details:

  • Diskrete Verteilungen: Werte sind abzählbar (z.B. Binomialverteilung, Poissonverteilung)
  • Stetige Verteilungen: Werte sind über ein Intervall definiert (z.B. Normalverteilung, Exponentialverteilung)
  • Gemeinsame Verteilungen: Multivariate Verteilung, beschreibt Wahrscheinlichkeiten mehrerer Zufallsvariablen.
  • Beispiel: Gemeinsame Dichtefunktion für stetige Variable: \( f_{X,Y}(x,y) = \frac{\partial^2}{\partial x \partial y} F_{X,Y}(x,y) \)
  • Beispiel: Gemeinsame Verteilungsfunktion für diskrete Variable: \( P(X = x, Y = y) = P_X(x) \cdot P_Y(y) \)
  • Marginale Verteilung: \( P_X(x) = \sum_y P_{X,Y}(x,y) \) oder \( f_X(x) = \int_{-\infty}^{\infty} f_{X,Y}(x,y) \, dy \)

Konfidenzintervalle: Berechnung und Interpretation

Definition:

Konfidenzintervalle werden genutzt, um den Bereich anzugeben, in dem ein unbekannter Parameter mit einer bestimmten Wahrscheinlichkeit liegt.

Details:

  • Berechnung: \( \hat{\theta} \pm z_{\alpha/2} \cdot \frac{\sigma}{\sqrt{n}} \)
  • \( \hat{\theta} \): Punktschätzer
  • \( z_{\alpha/2} \): kritischer Wert
  • \( \sigma \): Standardabweichung
  • \( n \): Stichprobenumfang
  • Interpretation: Ein 95% Konfidenzintervall bedeutet, dass wir in 95% der Fälle erwarten, dass es den wahren Parameterwert enthält.

Punktschätzung und Intervallschätzung: Unterschied und Methoden

Definition:

Punktschätzung liefert einen einzelnen Schätzwert für einen unbekannten Parameter, während Intervallschätzung einen Bereich angibt, innerhalb dessen der Parameter mit gewisser Wahrscheinlichkeit liegt.

Details:

  • Punktschätzung: Einzelwert, z.B. \(\bar{x}\) zur Schätzung des Mittelwerts
  • Intervallschätzung: Bereich, z.B. Konfidenzintervall, \[\bar{x} \pm z_{\alpha/2} \cdot \frac{\sigma}{\sqrt{n}}\]
  • Methoden der Punktschätzung: Maximum-Likelihood-Schätzung (MLE), Momentenmethode
  • Methoden der Intervallschätzung: Konfidenzintervalle, Bootstrap-Verfahren

Hypothesentests: Formulierung, Durchführung und Interpretation

Definition:

Hypothesentests: Überprüfung Hypothese gegen alternative Hypothese anhand statistischer Daten.

Details:

  • Nullhypothese (\(H_0\)): Annahme, die getestet wird.
  • Alternativhypothese (\(H_a\)): Gegenhypothese zu \(H_0\).
  • Signifikanzniveau (\(\alpha\)): Wahrscheinlichkeit, die \(H_0\) fälschlicherweise ablehnt (typ. 0,05).
  • Teststatistik: Berechnete Metrik zur Entscheidung über \(H_0\)/\(H_a\).
  • p-Wert: Wahrscheinlichkeit, unter \(H_0\) beobachtetes oder extremeres Ergebnis zu erhalten; \(\text{p-Wert} \leq \alpha\) - \(H_0\) ablehnen.
  • Interpretation: Entscheidung basiert auf Vergleich p-Wert und \(\alpha\), und praktische Relevanz der Ergebnisse berücksichtigen.
  • Verschiedene Testarten: z.B., t-Test, Chi-Quadrat-Test.
  • Testauswahl abhängig von Daten und Hypothesen.

Lineare Regression: Einfach und mehrfach, Modellannahmen und Interpretation

Definition:

Lineare Regression analysiert die Beziehung zwischen einer abhängigen Variablen und einer oder mehreren unabhängigen Variablen durch eine lineare Gleichung.

Details:

  • Einfach: Eine abhängige Variable, eine unabhängige Variable
  • Mehrfach: Eine abhängige Variable, mehrere unabhängige Variablen
  • Modell: \[ y_i = \beta_0 + \beta_1 x_{i1} + \beta_2 x_{i2} + ... + \beta_k x_{ik} + \epsilon_i \]
  • Modellannahmen:
    • Lineare Beziehung
    • Unabhängigkeit der Fehler
    • Homoskedastizität
    • Normalverteilung der Fehler
  • Interpretation der Koeffizienten:
    • \(\beta_0\): Achsenabschnitt
    • \(\beta_i\): Änderung in \(y\) für eine Einheit Änderung in \(x_i\)

Grundlagen der Programmiersprache R: Datenimport, -manipulation und grundlegende Befehle

Definition:

Grundlegende Konzepte des Datenimports und der Datenbearbeitung in R, sowie grundlegende Befehle.

Details:

  • Datenimport: read.csv(), read.table(), readr-Package
  • Datenmanipulation: dplyr-Package (filter(), select(), mutate(), summarize()), tidyr-Package
  • Grundlegende Befehle: Datentypen (numeric, character, factor), Strukturen (vector, matrix, data.frame, list)
  • Grundrechenarten: Addition +, Subtraktion -, Multiplikation *, Division /
Sign Up

Melde dich kostenlos an, um Zugriff auf das vollständige Dokument zu erhalten

Mit unserer kostenlosen Lernplattform erhältst du Zugang zu Millionen von Dokumenten, Karteikarten und Unterlagen.

Kostenloses Konto erstellen

Du hast bereits ein Konto? Anmelden