Multivariate Statistik - Cheatsheet.pdf

Multivariate Statistik - Cheatsheet
Multivariate Statistik - Cheatsheet Grundkonzepte der multivariaten Statistik Definition: Konzepte und Techniken zur gleichzeitigen Analyse mehrerer Variablen. Details: Manifeste vs. latente Variablen Varianz-Kovarianz-Struktur Dimensionenreduktion: PCA Multivariate Normalverteilung Hypothesentests: MANOVA Clusteranalyse und Diskriminanzanalyse Datenstruktur und -manipulation Definition: Vorbereit...

© StudySmarter 2024, all rights reserved.

Multivariate Statistik - Cheatsheet

Grundkonzepte der multivariaten Statistik

Definition:

Konzepte und Techniken zur gleichzeitigen Analyse mehrerer Variablen.

Details:

  • Manifeste vs. latente Variablen
  • Varianz-Kovarianz-Struktur
  • Dimensionenreduktion: PCA
  • Multivariate Normalverteilung
  • Hypothesentests: MANOVA
  • Clusteranalyse und Diskriminanzanalyse

Datenstruktur und -manipulation

Definition:

Vorbereitung und Anpassung von Datensätzen für die Analyse.

Details:

  • Fehlende Daten: $\text{NA}$ behandeln
  • Skalierung: Standardisierung ($\frac{x-\bar{x}}{s}$) und Normalisierung ($\frac{x-\text{min}(x)}{\text{max}(x)-\text{min}(x)}$)
  • Transformation: Log-Transformation, Potenztransformation
  • Datenbereinigung: Duplikate entfernen, Fehlerkorrektur
  • Codierung: Kategorische Variablen in numerische Werte umwandeln

Modellerstellung und -anpassung bei der linearen Regression

Definition:

Erstellung eines statistischen Modells zur Vorhersage einer abhängigen Variable anhand einer oder mehrerer unabhängiger Variablen. Anpassung des Modells zur Optimierung der Vorhersagegenauigkeit.

Details:

  • Modellformel: \( y = \beta_0 + \beta_1 x_1 + \beta_2 x_2 + ... + \beta_p x_p + \text{Fehler} \)
  • Schätzmethoden: Kleinste-Quadrate-Methode (OLS)
  • Güte des Modells: R^2, Adjustiertes R^2, F-Test
  • Modelldiagnostik: Residuenanalyse, Multikollinearitätsprüfung (VIF)
  • Modelloptimierung: Schrittweise Regression, Regularisierungstechniken (Lasso, Ridge)

Extraktionsmethoden der Faktoranalyse

Definition:

Extraktionsmethoden der Faktoranalyse: Statistische Verfahren zur Bestimmung der zugrunde liegenden Faktorenstruktur in einem Datensatz.

Details:

  • Hauptkomponentenanalyse (PCA): Maximiert die Varianz, extrahiert Hauptkomponenten durch Eigenwerte und Eigenvektoren der Kovarianzmatrix.
  • Formel zur Eigenwertberechnung: \[ \mathbf{A} \mathbf{v} = \lambda \mathbf{v} \]
  • Maximum-Likelihood-Methode: Schätzt Parameter, die beobachtete Kovarianz am besten erklären; basiert auf multivariater Normalverteilung.
  • Principal Axis Factoring (PAF): Minimiert die Residuen der Reproduktionsmatrix, erfordert Schätzung der Kommunalitäten.
  • Alpha-Faktor-Analyse: Minimiert Kommunalitätsdifferenzen, verwendet bivariate Korrelationen.
  • Image-Faktorenanalyse: Verwendet Regressionsmethode, um systematische Varianz zu extrahieren.
  • Parallelanalyse: Bestimmt die Anzahl signifikanter Faktoren mittels Vergleich von Eigenwerten realer vs. randomisierter Daten.

Diskriminanzfunktionen und deren Berechnung

Definition:

Verwendung von Diskriminanzfunktionen zur Trennung und Klassifikation von Gruppen basierend auf deren Merkmalen.

Details:

  • Ziel: Maximierung der Trennung zwischen Gruppen.
  • Funktion: Linearkombinationen der Prädiktoren, die Gruppen am besten trennen.
  • Berechnung: Lösen eines Eigenwertproblems.
    • Diskriminanzfunktion: \[ D_k = \boldsymbol{a}_k^T \boldsymbol{x} \] mit \( \boldsymbol{a}_k \) als Koeffizientenvektor und \( \boldsymbol{x} \) als Merkmalvektor.
    • Maximierung der Varianz zwischen Gruppen im Vergleich zur Varianz innerhalb der Gruppen: \[ \frac{\boldsymbol{a}_k^T \boldsymbol{B} \boldsymbol{a}_k}{\boldsymbol{a}_k^T \boldsymbol{W} \boldsymbol{a}_k} \]
    • Eigenequation zum Lösen: \[ \boldsymbol{B} \boldsymbol{a}_k = \boldsymbol{\theta}_k \boldsymbol{W} \boldsymbol{a}_k \],\( \boldsymbol{B} \): Streuungsmatrix zwischen den Gruppen,\( \boldsymbol{W} \): Streuungsmatrix innerhalb der Gruppen.
    • Klassifikation: Zuordnung von Datenpunkten basierend auf Diskriminanzwerten.

Hierarchische und k-Means-Clusteranalyse

Definition:

Hierarchische und k-Means-Clusteranalyse sind Methoden zur Gruppierung von Datenpunkten basierend auf deren Eigenschaften.

Details:

  • Hierarchische Clusteranalyse:
    • Bildet eine Hierarchie von Clustern
    • Ergebnisse werden oft in Form eines Dendrogramms dargestellt
    • Zwei Ansätze: agglomerativ (von Einzelpunkten zu Clustern) und divisiv (vom Gesamtdatenpunkt zu Einzelpunkten)
  • k-Means-Clusteranalyse:
    • Teilt Daten in k Cluster, wobei k vorab festgelegt wird
    • Iterativer Prozess der Minimierung der Varianz innerhalb der Cluster
    • Schritte:
  1. Anfangszentroiden wählen
  2. Zuweisung der Datenpunkte zum nächstgelegenen Zentroiden
  3. Neuberechnung der Zentroiden
  4. Wiederholung der Schritte 2 und 3 bis Konvergenz

Diagnose von Modelfehlentwicklungen (z.B. Heteroskedastizität)

Definition:

Identifikation und Behandlung von Störungen/Verzerrungen in Modellen, die die Gültigkeit von Analyseergebnissen beeinflussen.

Details:

  • Heteroskedastizität: Varianz der Residuen ist nicht konstant.
  • Erkennung: Plot der Residuen gegen vorhergesagte Werte oder Breusch-Pagan-Test.
  • Behandlung: Transformation der Daten (z.B. Log-Transformation), robuste Standardfehler verwenden.
  • Multikollinearität: Unabhängige Variablen stark korreliert.
  • Erkennung: Variance Inflation Factor (VIF).
  • Behandlung: Reduktion der Anzahl der Variablen, Hauptkomponentenanalyse (PCA).
  • Autokorrelation: Residuen sind korreliert.
  • Erkennung: Durbin-Watson-Test.
  • Behandlung: Hinzufügen von Lagged Variablen, ARIMA Modelle.

Rotationstechniken zur Interpretation von Faktoren

Definition:

Rotationstechniken verbessern die Interpretierbarkeit der Faktoren bei der Faktorenanalyse.

Details:

  • Varimax-Rotation: Maximiert Varianz der quadrierten Faktorladungen, erleichtert Identifikation
  • Quartimax-Rotation: Maximiert Einfachstruktur durch Minimierung der Anzahl an Faktoren pro Variable
  • Oblique-Rotation: Erlaubt Korrelationen zwischen Faktoren, führt zu realistischeren Modellen (z.B. Oblimin, Promax)
  • Ziel: Verbessern Klarheit und Interpretierbarkeit der Faktorstruktur
Sign Up

Melde dich kostenlos an, um Zugriff auf das vollständige Dokument zu erhalten

Mit unserer kostenlosen Lernplattform erhältst du Zugang zu Millionen von Dokumenten, Karteikarten und Unterlagen.

Kostenloses Konto erstellen

Du hast bereits ein Konto? Anmelden