Introduction to Statistics and Statistical Programming - Cheatsheet.pdf

Introduction to Statistics and Statistical Programming - Cheatsheet
Introduction to Statistics and Statistical Programming - Cheatsheet Unterschied zwischen deskriptiver und inferentieller Statistik Definition: Unterschied zwischen deskriptiver und inferentieller Statistik: Deskriptive Statistik beschreibt und analysiert vorhandene Daten; inferentielle Statistik zieht daraus Schlüsse über eine Grundgesamtheit. Details: Deskriptive Statistik: Beschreibt Datensätze ...

© StudySmarter 2024, all rights reserved.

Introduction to Statistics and Statistical Programming - Cheatsheet

Unterschied zwischen deskriptiver und inferentieller Statistik

Definition:

Unterschied zwischen deskriptiver und inferentieller Statistik: Deskriptive Statistik beschreibt und analysiert vorhandene Daten; inferentielle Statistik zieht daraus Schlüsse über eine Grundgesamtheit.

Details:

  • Deskriptive Statistik: Beschreibt Datensätze durch Maße wie Mittelwert (\bar{x}), Median, Modus, Standardabweichung (\sigma), etc.
  • Inferentielle Statistik: Nutzt Stichprobendaten zur Schätzung und Hypothesenprüfung über eine Population unter Verwendung von Konfidenzintervallen und Signifikanztests (z.B. t-Test, Chi-Quadrat-Test).

Lagemasse: Mittelwert, Median, Modus

Definition:

Lagemasse beschreiben die zentrale Tendenz einer Datenverteilung.

Details:

  • Mittelwert (\(\bar{x}\)): \[ \bar{x} = \frac{1}{n} \sum_{i=1}^{n} x_i \] Empfindlich gegenüber Ausreißern.
  • Median: Wert, der die Daten in zwei Hälften teilt. Bei ungerader Anzahl der Daten der mittlere Wert, bei gerader Anzahl das arithmetische Mittel der beiden mittleren Werte. Nicht empfindlich gegenüber Ausreißern.
  • Modus: Der häufigste Wert in einer Datenverteilung. Eine Verteilung kann keinen, einen oder mehrere Modi haben.

Bedingte Wahrscheinlichkeit und Unabhängigkeit

Definition:

Bedingte Wahrscheinlichkeit beschreibt die Wahrscheinlichkeit eines Ereignisses unter der Bedingung, dass ein anderes Ereignis bereits eingetreten ist.

Details:

  • Bedingte Wahrscheinlichkeit: \(P(A|B) = \frac{P(A \cap B)}{P(B)}\) Voraussetzung: \(P(B) > 0\)
  • Zwei Ereignisse A und B sind unabhängig, wenn \(P(A \cap B) = P(A) \cdot P(B)\)
  • Alternativ: \(P(A|B) = P(A)\) und \(P(B|A) = P(B)\) suggerieren Unabhängigkeit
  • Unabhängigkeit von mehreren Ereignissen: Alle möglichen Paarungen müssen unabhängig sein

Hypothesentests: Nullhypothese und Alternativhypothese

Definition:

Nullhypothese (H0) und Alternativhypothese (H1) sind zentrale Konzepte bei Hypothesentests, die genutzt werden, um Annahmen über eine Population basierend auf Stichprobendaten zu prüfen.

Details:

  • Nullhypothese (H0): Die Annahme, die getestet wird; normalerweise, dass kein Effekt oder Unterschied existiert.
  • Alternativhypothese (H1): Die Annahme, die zugrunde gelegt wird, wenn H0 verworfen wird; normalerweise, dass ein Effekt oder Unterschied existiert.
  • Teststatistik: Berechnete Größe aus den Stichprobendaten, die genutzt wird, um H0 zu testen.
  • Signifikanzniveau (\alpha): Die Wahrscheinlichkeit, H0 abzulehnen, wenn sie wahr ist; oft 0.05.
  • p-Wert: Die Wahrscheinlichkeit, die beobachteten Daten (oder extremere) unter der Annahme, dass H0 wahr ist, zu bekommen.
  • Entscheidungsregel: Wenn p-Wert \leq \alpha, lehne H0 ab; sonst akzeptiere H0.

Signifikanzniveau und Teststärke

Definition:

Signifikanzniveau (Alpha) ist die Wahrscheinlichkeit, einen Fehler 1. Art zu begehen. Teststärke (Power, 1 - Beta) ist die Wahrscheinlichkeit, einen Fehler 2. Art zu vermeiden.

Details:

  • Signifikanzniveau \( \alpha \) festgelegt vor dem Test, typischerweise 0.05.
  • Fehler 1. Art: Die Nullhypothese wird fälschlicherweise verworfen.
  • Teststärke hängt von \( n \) (Stichprobengröße), \( \alpha \), Effektgröße und Varianz ab.
  • Fehler 2. Art \( \beta \): Nullhypothese wird fälschlicherweise nicht verworfen.

Grundlagen der Programmiersprachen R und Python

Definition:

Grundkonzepte und Syntaxelemente von R und Python für statistische Programmierung.

Details:

  • Beide: hohe Lesbarkeit, umfangreiche Bibliotheken (z.B. numpy, pandas für Python; dplyr, ggplot2 für R)
  • Python: allgemeine Programmiersprache, auch für Webentwicklung, Data Science
  • R: speziell für Statistik, Datenanalyse
  • Syntax: Python indiziert mit Einrückung; R mit Klammern
  • Grundlegende Datentypen: Integer, Float, String, Bool (beide); Vektor, Matrix, DataFrame (R); Liste, Dictionary, DataFrame (Python)
  • Statistische Funktionen: \texttt{mean()}, \texttt{median()}, \texttt{var()} (beide)
  • Import: \texttt{import pandas as pd} (Python); \texttt{library(dplyr)} (R)

Datenmanipulation und -bereinigung

Definition:

Korrektur und Anpassung von Daten zur Sicherstellung ihrer Qualität und Eignung für Analysen.

Details:

  • Fehlerkorrektur: Entfernung oder Korrektur fehlerhafter Daten.
  • Umwandlung: Werteformate angleichen, z.B. Datumformat.
  • Fehlende Werte: Behandlung fehlender Datenpunkte (Imputation, Entfernung).
  • Duplikate: Identifizieren und Entfernen redundanter Datenzeilen.
  • Ausreißer: Erkennung und ggf. Behandlung.
  • Aggregation: Daten zusammenfassen.
  • Filtern: Auswahl relevanter Daten.

Erstellung von Grafiken und Visualisierungen

Definition:

Erstellung von Grafiken und Visualisierungen zur Darstellung und Analyse von Daten

Details:

  • Verwende Bibliotheken z.B. ggplot2 in R oder Matplotlib in Python
  • Grundlegende Plots: Histogramme, Boxplots, Streudiagramme, Liniendiagramme
  • Syntaxbeispiele:
  • ggplot2: ggplot(data, aes(x, y)) + geom_point()
  • Matplotlib: plt.plot(x, y)
  • Wichtige Parameter: Titel, Achsenbeschriftungen, Legenden
  • Interpretation der erstellten Grafiken basierend auf den Analysemethoden
Sign Up

Melde dich kostenlos an, um Zugriff auf das vollständige Dokument zu erhalten

Mit unserer kostenlosen Lernplattform erhältst du Zugang zu Millionen von Dokumenten, Karteikarten und Unterlagen.

Kostenloses Konto erstellen

Du hast bereits ein Konto? Anmelden