Informationsvisualisierung - Cheatsheet
Definition und Ziele der Informationsvisualisierung
Definition:
Informationsvisualisierung: Umwandlung von abstrakten, meist textuell oder numerisch kodierten Daten in visuelle Formen. Ziel: Verbesserung des Verständnisses und der Analyse großer Datenmengen.
Details:
- Verbesserung der Datenanalyse und -interpretation
- Nutzung visueller Metaphern zur Darstellung komplexer Datenstrukturen
- Unterstützung bei der Identifikation von Mustern und Trends
- Förderung der Entdeckungslosigkeit durch interaktive Visualisierungen und Benutzerinteraktionen
- Anwendung in verschiedensten Bereichen wie Wirtschaft, Wissenschaft und Medizin
- Herausforderungen: Auswahl geeigneter Visualisierungsmethoden, Vermeidung von Informationsüberflutung, Sicherstellung der Datenintegrität
- Werkzeuge: D3.js, Tableau, Matplotlib, ggplot2
Theorien zur visuellen Wahrnehmung
Definition:
Theorien zur visuellen Wahrnehmung analysieren, wie wir visuelle Informationen verarbeiten und interpretieren.
Details:
- Gestalttheorie: Prinzipien der Gruppierung (Nähe, Ähnlichkeit, Fortsetzung, Geschlossenheit)
- Präattentive Verarbeitung: Automatische Erkennung visueller Merkmale (Farbe, Form, Größe)
- Konstruktivistische Theorie: Wahrnehmung als aktiver Prozess, basierend auf Hypothesen und Erfahrungen
- Ökologische Wahrnehmungstheorie: Direkte Wahrnehmung durch vorhandene Information in der Umwelt (Affordanzen)
Visuelles Encoding: Farben, Formen und Größen
Definition:
Methoden zur Darstellung von Daten durch visuelle Eigenschaften.
Details:
- Farben: Nutze Farbe für Kategorien, Heatmaps und zur Unterscheidung von Datenpunkten. Verwende Farbskalen (\textit{colormap}) für quantitative Daten.
- Formen: Unterschiedliche Formen kennzeichnen verschiedene Kategorien oder Stati (z.B. Kreise, Quadrate, Dreiecke).
- Größen: Nutze Größenunterschiede zur Darstellung von Mengen oder wichtigen Datenpunkten. Beachte visuelle Hierarchie und Skalierung (z.B. logarithmische Skalen).
Techniken zur Datenmanipulation und -analyse
Definition:
Techniken zur Verarbeitung und Untersuchung von Datenstrukturen zur Gewinnung nützlicher Informationen.
Details:
- Datenvorverarbeitung: Bereinigung, Transformation, Normalisierung.
- Filterung und Aggregation
- Statistische Analyse: Mittelwert, Median, Standardabweichung.
- Datenvisualisierung: Histogramme, Scatterplots, Heatmaps.
- Datenmodellierung: Regression, Clustering, Klassifikation.
- Werkzeuge: Python (Pandas, NumPy), R, SQL
Zeitreihen- und Geodatenvisualisierung
Definition:
Visualisierung von Zeitreihendaten und geografischen Daten zur Identifikation von Mustern, Trends und Anomalien.
Details:
- Zeitreihen: Datenpunkte in zeitlicher Ordnung
- Geodaten: Räumliche Informationen zu geografischen Standorten
- Heatmaps: Darstellungsform zur Anzeige der Dichte/Intensität (zeitlich/räumlich)
- Choroplethenkarten: Datenwerte als Farbschattierungen auf Karten
- Line Charts: Visualisierung von Trends über Zeit
- Map Projections: Methoden zur Abbildung der 3D-Welt auf 2D-Karten (z.B. Mercator, Robinson)
- Interaktive Visualisierungen: Erlauben Exploration und Detailanalyse
- Datenvorbereitung erforderlich: Normalisierung, Bereinigung
- Software-Tools: D3.js, Leaflet, QGIS
Überblick über gängige Visualisierungstools (z.B. Tableau, D3.js)
Definition:
Gängige Visualisierungstools helfen Daten in verständliche grafische Formate umzuwandeln.
Details:
- Tableau: Drag-and-drop Interface, ideal für schnelle Dashboards und Berichte, unterstützt viele Datenquellen.
- D3.js: JavaScript-Bibliothek, ermöglicht komplexe, interaktive und hochgradig anpassbare Visualisierungen über SVG, HTML und CSS.
- ggplot2: R-Paket, bietet eine deklarative Syntax für die Erstellung statischer Grafiken, basiert auf der 'Grammar of Graphics'.
- Power BI: Microsoft-Tool, ähnlich wie Tableau, integriert gut in das Microsoft-Ökosystem, unterstützt kollaboratives Arbeiten und Automatisierungsmöglichkeiten.
- Matplotlib: Python-Bibliothek, bietet eine Vielzahl von 2D-Grafiken, hochgradig anpassbar über Code.
Explorative Datenanalyse (EDA)
Definition:
Untersuchung und Visualisierung von Datensätzen, um ihre Hauptmerkmale zu verstehen, ohne Annahmen über ihre Struktur zu treffen.
Details:
- Ziel: Muster und Ausreißer identifizieren
- Techniken: Plotten von Graphen (Histogramme, Scatterplots, Boxplots)
- Berechnung von statistischen Kennzahlen: Mittelwert, Median, Varianz
- Visualisierungstools: Matplotlib, Seaborn, ggplot2
- \textbf{Statistische Kennzahlen}:
- Mittelwert (\textbf{Mean}): \[\bar{x} = \frac{1}{N} \sum_{i=1}^{N} x_i\]
- Median: Wert, der die Daten in zwei Hälften teilt
- Varianz (\textbf{Variance}): \[\text{Var}(X) = \frac{1}{N} \sum_{i=1}^{N} (x_i - \bar{x})^2\]
Ethische Aspekte der Datenvisualisierung
Definition:
Berücksichtigt moralische Prinzipien bei der Darstellung von Daten, um Verzerrungen, Missverständnisse oder Manipulationen zu vermeiden.
Details:
- Transparenz: Klare Darstellung der Datenquelle und der Visualisierungsmethoden.
- Genauigkeit: Vermeidung von Fehlinterpretationen oder irreführenden Darstellungen.
- Integrität: Keine absichtliche Manipulation der Daten.
- Anonymität: Sicherstellung der Privatsphäre bei der Darstellung sensibler Daten.
- Kultur: Berücksichtigung kultureller Unterschiede und Verständlichkeit.