Multivariate Statistik - Cheatsheet
Grundkonzepte der multivariaten Statistik
Definition:
Konzepte und Techniken zur gleichzeitigen Analyse mehrerer Variablen.
Details:
- Manifeste vs. latente Variablen
- Varianz-Kovarianz-Struktur
- Dimensionenreduktion: PCA
- Multivariate Normalverteilung
- Hypothesentests: MANOVA
- Clusteranalyse und Diskriminanzanalyse
Datenstruktur und -manipulation
Definition:
Vorbereitung und Anpassung von Datensätzen für die Analyse.
Details:
- Fehlende Daten: $\text{NA}$ behandeln
- Skalierung: Standardisierung ($\frac{x-\bar{x}}{s}$) und Normalisierung ($\frac{x-\text{min}(x)}{\text{max}(x)-\text{min}(x)}$)
- Transformation: Log-Transformation, Potenztransformation
- Datenbereinigung: Duplikate entfernen, Fehlerkorrektur
- Codierung: Kategorische Variablen in numerische Werte umwandeln
Modellerstellung und -anpassung bei der linearen Regression
Definition:
Erstellung eines statistischen Modells zur Vorhersage einer abhängigen Variable anhand einer oder mehrerer unabhängiger Variablen. Anpassung des Modells zur Optimierung der Vorhersagegenauigkeit.
Details:
- Modellformel: \( y = \beta_0 + \beta_1 x_1 + \beta_2 x_2 + ... + \beta_p x_p + \text{Fehler} \)
- Schätzmethoden: Kleinste-Quadrate-Methode (OLS)
- Güte des Modells: R^2, Adjustiertes R^2, F-Test
- Modelldiagnostik: Residuenanalyse, Multikollinearitätsprüfung (VIF)
- Modelloptimierung: Schrittweise Regression, Regularisierungstechniken (Lasso, Ridge)
Extraktionsmethoden der Faktoranalyse
Definition:
Extraktionsmethoden der Faktoranalyse: Statistische Verfahren zur Bestimmung der zugrunde liegenden Faktorenstruktur in einem Datensatz.
Details:
- Hauptkomponentenanalyse (PCA): Maximiert die Varianz, extrahiert Hauptkomponenten durch Eigenwerte und Eigenvektoren der Kovarianzmatrix.
- Formel zur Eigenwertberechnung: \[ \mathbf{A} \mathbf{v} = \lambda \mathbf{v} \]
- Maximum-Likelihood-Methode: Schätzt Parameter, die beobachtete Kovarianz am besten erklären; basiert auf multivariater Normalverteilung.
- Principal Axis Factoring (PAF): Minimiert die Residuen der Reproduktionsmatrix, erfordert Schätzung der Kommunalitäten.
- Alpha-Faktor-Analyse: Minimiert Kommunalitätsdifferenzen, verwendet bivariate Korrelationen.
- Image-Faktorenanalyse: Verwendet Regressionsmethode, um systematische Varianz zu extrahieren.
- Parallelanalyse: Bestimmt die Anzahl signifikanter Faktoren mittels Vergleich von Eigenwerten realer vs. randomisierter Daten.
Diskriminanzfunktionen und deren Berechnung
Definition:
Verwendung von Diskriminanzfunktionen zur Trennung und Klassifikation von Gruppen basierend auf deren Merkmalen.
Details:
- Ziel: Maximierung der Trennung zwischen Gruppen.
- Funktion: Linearkombinationen der Prädiktoren, die Gruppen am besten trennen.
- Berechnung: Lösen eines Eigenwertproblems.
- Diskriminanzfunktion: \[ D_k = \boldsymbol{a}_k^T \boldsymbol{x} \] mit \( \boldsymbol{a}_k \) als Koeffizientenvektor und \( \boldsymbol{x} \) als Merkmalvektor.
- Maximierung der Varianz zwischen Gruppen im Vergleich zur Varianz innerhalb der Gruppen: \[ \frac{\boldsymbol{a}_k^T \boldsymbol{B} \boldsymbol{a}_k}{\boldsymbol{a}_k^T \boldsymbol{W} \boldsymbol{a}_k} \]
- Eigenequation zum Lösen: \[ \boldsymbol{B} \boldsymbol{a}_k = \boldsymbol{\theta}_k \boldsymbol{W} \boldsymbol{a}_k \],\( \boldsymbol{B} \): Streuungsmatrix zwischen den Gruppen,\( \boldsymbol{W} \): Streuungsmatrix innerhalb der Gruppen.
- Klassifikation: Zuordnung von Datenpunkten basierend auf Diskriminanzwerten.
Hierarchische und k-Means-Clusteranalyse
Definition:
Hierarchische und k-Means-Clusteranalyse sind Methoden zur Gruppierung von Datenpunkten basierend auf deren Eigenschaften.
Details:
- Hierarchische Clusteranalyse:
- Bildet eine Hierarchie von Clustern
- Ergebnisse werden oft in Form eines Dendrogramms dargestellt
- Zwei Ansätze: agglomerativ (von Einzelpunkten zu Clustern) und divisiv (vom Gesamtdatenpunkt zu Einzelpunkten)
- k-Means-Clusteranalyse:
- Teilt Daten in k Cluster, wobei k vorab festgelegt wird
- Iterativer Prozess der Minimierung der Varianz innerhalb der Cluster
- Schritte:
- Anfangszentroiden wählen
- Zuweisung der Datenpunkte zum nächstgelegenen Zentroiden
- Neuberechnung der Zentroiden
- Wiederholung der Schritte 2 und 3 bis Konvergenz
Diagnose von Modelfehlentwicklungen (z.B. Heteroskedastizität)
Definition:
Identifikation und Behandlung von Störungen/Verzerrungen in Modellen, die die Gültigkeit von Analyseergebnissen beeinflussen.
Details:
- Heteroskedastizität: Varianz der Residuen ist nicht konstant.
- Erkennung: Plot der Residuen gegen vorhergesagte Werte oder Breusch-Pagan-Test.
- Behandlung: Transformation der Daten (z.B. Log-Transformation), robuste Standardfehler verwenden.
- Multikollinearität: Unabhängige Variablen stark korreliert.
- Erkennung: Variance Inflation Factor (VIF).
- Behandlung: Reduktion der Anzahl der Variablen, Hauptkomponentenanalyse (PCA).
- Autokorrelation: Residuen sind korreliert.
- Erkennung: Durbin-Watson-Test.
- Behandlung: Hinzufügen von Lagged Variablen, ARIMA Modelle.
Rotationstechniken zur Interpretation von Faktoren
Definition:
Rotationstechniken verbessern die Interpretierbarkeit der Faktoren bei der Faktorenanalyse.
Details:
- Varimax-Rotation: Maximiert Varianz der quadrierten Faktorladungen, erleichtert Identifikation
- Quartimax-Rotation: Maximiert Einfachstruktur durch Minimierung der Anzahl an Faktoren pro Variable
- Oblique-Rotation: Erlaubt Korrelationen zwischen Faktoren, führt zu realistischeren Modellen (z.B. Oblimin, Promax)
- Ziel: Verbessern Klarheit und Interpretierbarkeit der Faktorstruktur