Advanced Business Analytics Seminar - Cheatsheet
Datenaufbereitung und Feature Engineering
Definition:
Vorbereitende Schritte zur Bereinigung, Transformation und Auswahl von relevanten Datenmerkmalen für Modellierung in der Datenanalyse.
Details:
- Datenbereinigung: Umgang mit fehlenden Werten, Entfernen von Ausreißern
- Datenintegration: Zusammenführung verschiedener Datenquellen
- Datenumwandlung: Transformation von Variablen und Skalen
- Feature-Engineering: Erstellung neuer Merkmale aus bestehenden Daten
- Skalierung: Normalisierung oder Standardisierung von Daten
- Codierung: Umwandlung kategorialer Daten in numerische Formate
- Dimensionalitätsreduktion: Anwendung von Techniken wie PCA
Lineare Regression und Logistische Regression
Definition:
Lineare Regression: Modellierungsansatz zur Vorhersage einer kontinuierlichen Zielvariable basierend auf einer oder mehreren Prädiktoren. Logistische Regression: Modell zur Vorhersage binärer Zielvariablen, wobei die Zielvariable als Wahrscheinlichkeit interpretiert wird.
Details:
- Lineare Regression:
- linearer Zusammenhang zwischen Prädiktoren und Zielvariable
- Modell: \[ y = \beta_0 + \beta_1x_1 + ... + \beta_nx_n + u \]
- Minimierung des Residualsumme-Quadrats (RSS)
- Logistische Regression:
- verwendet für binäre Klassifikation
- Modell: \[ \text{logit}(p) = \beta_0 + \beta_1x_1 + ... + \beta_nx_n \]
- Schätzt Wahrscheinlichkeiten mit der logistischen Funktion: \[ p = \frac{1}{1 + e^{-(\beta_0 + \beta_1x_1 + ... + \beta_nx_n)}} \]
Künstliche neuronale Netze
Definition:
Künstliche neuronale Netze modellieren biologische neuronale Netzwerke, um Mustererkennung und maschinelles Lernen zu ermöglichen.
Details:
- Bestandteile: Neuronen (Knoten), Verbindungen (Gewichte)
- Schichten: Eingabeschicht, versteckte Schichten, Ausgabeschicht
- Aktivierungsfunktionen: Sigmoid, ReLU, Tanh, etc.
- Training durch Backpropagation und Optimierungsalgorithmen wie Gradient Descent
- Kostenfunktion: misst die Fehlerrate, z.B. Mean Squared Error (MSE)
- Datenanpassung: Vermeidung von Overfitting durch Regularisierungstechniken wie Dropout
- Architekturen: Feedforward Netzwerke, Convolutional Neural Networks (CNN), Recurrent Neural Networks (RNN)
Explorative Datenanalyse
Definition:
Explorative Datenanalyse (EDA) untersucht Datensätze, um deren Hauptmerkmale zu verstehen, oft mit visuellen Mitteln.
Details:
- Identifizierung von Mustern, Beziehungen und Ausreißern
- Verwendung von Diagrammen wie Histogrammen, Box-Plots, und Scatterplots
- Statistische Maße wie Mittelwert (\(\mu\)), Median, Standardabweichung (\(\sigma\))
- Häufig angewandte Methoden: deskriptive Statistik, Data Visualization
- Erster Schritt in der Datenanalyse vor komplexeren Modellierungen
- Verwendung von Python-Bibliotheken wie Pandas, Matplotlib, Seaborn
Erstellung von Diagrammen und Grafiken mit Tableau
Definition:
Diagramme und Grafiken mit Tableau erstellen, um Daten visuell darzustellen und Analysen übersichtlich zu präsentieren.
Details:
- Datenquelle verbinden und bereinigen
- Drag-and-drop Funktion zur schnellen Diagrammerstellung
- Palette von Diagrammtypen (Balken-, Linien-, Streudiagramme, etc.)
- Filtern, Gruppieren und Sortieren von Daten
- Farbkodierung und Etikettierung für bessere Übersicht
- Dashboards erstellen und teilen
- Berechnete Felder und Parameter für fortgeschrittene Analysen
- Einbindung von Maps für geographische Daten
Ensemble-Methoden
Definition:
Ensemble-Methoden nutzen mehrere Modelle, um die Vorhersagegenauigkeit zu verbessern.
Details:
- Bagging: Mehrere Modelle trainieren und deren Ergebnisse mitteln (z.B. Random Forest).
- Boosting: Sukzessiv Modelle auf Residuen vorangegangener Modelle trainieren (z.B. AdaBoost, Gradient Boosting).
- Stacking: Verschiedene Modelle kombinieren, indem ein Meta-Modell deren Vorhersagen nutzt.
- Vorteile: Höhere Genauigkeit, Robustheit gegenüber Überanpassung.
- Nachteile: Höherer Rechenaufwand, schwierige Interpretierbarkeit.
Big Data-Technologien in der digitalen Transformation
Definition:
Big Data-Technologien spielen eine zentrale Rolle in der digitalen Transformation, indem sie große Mengen an Daten sammeln, speichern, analysieren und verarbeiten, um wertvolle Erkenntnisse und bessere Geschäftsentscheidungen zu ermöglichen.
Details:
- Datenerfassung: Verwendung von Sensoren, IoT-Geräten, sozialen Medien, etc.
- Speicherung: Nutzung von verteilten Datenspeichersystemen wie Hadoop und NoSQL-Datenbanken.
- Datenverarbeitung: Einsatz von Technologien wie MapReduce, Spark für die parallele Datenverarbeitung.
- Analyse: Nutzung von Maschinenlern-, Data Mining- und Statistik-Tools.
- Visualisierung: Darstellung der Daten mit Tools wie Tableau, Power BI.
- Vorteile: Effizienzsteigerung, bessere Entscheidungsfindung, Personalisierung von Dienstleistungen.
- Herausforderungen: Datenschutz, Datenqualität, Integration heterogener Datenquellen.
Peer-Feedback und kollaboratives Lernen bei Datenprojekten
Definition:
Methode, bei der Studierende im Rahmen von Datenprojekten durch gegenseitiges Feedback und Zusammenarbeit lernen.
Details:
- Fördert tiefere Einblicke und Verständnis für komplexe Datenanalysen.
- Ermöglicht den Austausch verschiedener Perspektiven und Ansätze.
- Verbessert Problemlösungsfähigkeiten und kritisches Denken.
- Stärkt Teamarbeit und Kommunikationsfähigkeiten.
- Nutze k constructive Kritik und aktives Zuhören.