Advanced Business Analytics Seminar - Cheatsheet.pdf

Advanced Business Analytics Seminar - Cheatsheet
Advanced Business Analytics Seminar - Cheatsheet Datenaufbereitung und Feature Engineering Definition: Vorbereitende Schritte zur Bereinigung, Transformation und Auswahl von relevanten Datenmerkmalen für Modellierung in der Datenanalyse. Details: Datenbereinigung: Umgang mit fehlenden Werten, Entfernen von Ausreißern Datenintegration: Zusammenführung verschiedener Datenquellen Datenumwandlung: Tra...

© StudySmarter 2025, all rights reserved.

Advanced Business Analytics Seminar - Cheatsheet

Datenaufbereitung und Feature Engineering

Definition:

Vorbereitende Schritte zur Bereinigung, Transformation und Auswahl von relevanten Datenmerkmalen für Modellierung in der Datenanalyse.

Details:

  • Datenbereinigung: Umgang mit fehlenden Werten, Entfernen von Ausreißern
  • Datenintegration: Zusammenführung verschiedener Datenquellen
  • Datenumwandlung: Transformation von Variablen und Skalen
  • Feature-Engineering: Erstellung neuer Merkmale aus bestehenden Daten
  • Skalierung: Normalisierung oder Standardisierung von Daten
  • Codierung: Umwandlung kategorialer Daten in numerische Formate
  • Dimensionalitätsreduktion: Anwendung von Techniken wie PCA

Lineare Regression und Logistische Regression

Definition:

Lineare Regression: Modellierungsansatz zur Vorhersage einer kontinuierlichen Zielvariable basierend auf einer oder mehreren Prädiktoren. Logistische Regression: Modell zur Vorhersage binärer Zielvariablen, wobei die Zielvariable als Wahrscheinlichkeit interpretiert wird.

Details:

  • Lineare Regression:
    • linearer Zusammenhang zwischen Prädiktoren und Zielvariable
    • Modell: \[ y = \beta_0 + \beta_1x_1 + ... + \beta_nx_n + u \]
    • Minimierung des Residualsumme-Quadrats (RSS)
  • Logistische Regression:
    • verwendet für binäre Klassifikation
    • Modell: \[ \text{logit}(p) = \beta_0 + \beta_1x_1 + ... + \beta_nx_n \]
    • Schätzt Wahrscheinlichkeiten mit der logistischen Funktion: \[ p = \frac{1}{1 + e^{-(\beta_0 + \beta_1x_1 + ... + \beta_nx_n)}} \]

Künstliche neuronale Netze

Definition:

Künstliche neuronale Netze modellieren biologische neuronale Netzwerke, um Mustererkennung und maschinelles Lernen zu ermöglichen.

Details:

  • Bestandteile: Neuronen (Knoten), Verbindungen (Gewichte)
  • Schichten: Eingabeschicht, versteckte Schichten, Ausgabeschicht
  • Aktivierungsfunktionen: Sigmoid, ReLU, Tanh, etc.
  • Training durch Backpropagation und Optimierungsalgorithmen wie Gradient Descent
  • Kostenfunktion: misst die Fehlerrate, z.B. Mean Squared Error (MSE)
  • Datenanpassung: Vermeidung von Overfitting durch Regularisierungstechniken wie Dropout
  • Architekturen: Feedforward Netzwerke, Convolutional Neural Networks (CNN), Recurrent Neural Networks (RNN)

Explorative Datenanalyse

Definition:

Explorative Datenanalyse (EDA) untersucht Datensätze, um deren Hauptmerkmale zu verstehen, oft mit visuellen Mitteln.

Details:

  • Identifizierung von Mustern, Beziehungen und Ausreißern
  • Verwendung von Diagrammen wie Histogrammen, Box-Plots, und Scatterplots
  • Statistische Maße wie Mittelwert (\(\mu\)), Median, Standardabweichung (\(\sigma\))
  • Häufig angewandte Methoden: deskriptive Statistik, Data Visualization
  • Erster Schritt in der Datenanalyse vor komplexeren Modellierungen
  • Verwendung von Python-Bibliotheken wie Pandas, Matplotlib, Seaborn

Erstellung von Diagrammen und Grafiken mit Tableau

Definition:

Diagramme und Grafiken mit Tableau erstellen, um Daten visuell darzustellen und Analysen übersichtlich zu präsentieren.

Details:

  • Datenquelle verbinden und bereinigen
  • Drag-and-drop Funktion zur schnellen Diagrammerstellung
  • Palette von Diagrammtypen (Balken-, Linien-, Streudiagramme, etc.)
  • Filtern, Gruppieren und Sortieren von Daten
  • Farbkodierung und Etikettierung für bessere Übersicht
  • Dashboards erstellen und teilen
  • Berechnete Felder und Parameter für fortgeschrittene Analysen
  • Einbindung von Maps für geographische Daten

Ensemble-Methoden

Definition:

Ensemble-Methoden nutzen mehrere Modelle, um die Vorhersagegenauigkeit zu verbessern.

Details:

  • Bagging: Mehrere Modelle trainieren und deren Ergebnisse mitteln (z.B. Random Forest).
  • Boosting: Sukzessiv Modelle auf Residuen vorangegangener Modelle trainieren (z.B. AdaBoost, Gradient Boosting).
  • Stacking: Verschiedene Modelle kombinieren, indem ein Meta-Modell deren Vorhersagen nutzt.
  • Vorteile: Höhere Genauigkeit, Robustheit gegenüber Überanpassung.
  • Nachteile: Höherer Rechenaufwand, schwierige Interpretierbarkeit.

Big Data-Technologien in der digitalen Transformation

Definition:

Big Data-Technologien spielen eine zentrale Rolle in der digitalen Transformation, indem sie große Mengen an Daten sammeln, speichern, analysieren und verarbeiten, um wertvolle Erkenntnisse und bessere Geschäftsentscheidungen zu ermöglichen.

Details:

  • Datenerfassung: Verwendung von Sensoren, IoT-Geräten, sozialen Medien, etc.
  • Speicherung: Nutzung von verteilten Datenspeichersystemen wie Hadoop und NoSQL-Datenbanken.
  • Datenverarbeitung: Einsatz von Technologien wie MapReduce, Spark für die parallele Datenverarbeitung.
  • Analyse: Nutzung von Maschinenlern-, Data Mining- und Statistik-Tools.
  • Visualisierung: Darstellung der Daten mit Tools wie Tableau, Power BI.
  • Vorteile: Effizienzsteigerung, bessere Entscheidungsfindung, Personalisierung von Dienstleistungen.
  • Herausforderungen: Datenschutz, Datenqualität, Integration heterogener Datenquellen.

Peer-Feedback und kollaboratives Lernen bei Datenprojekten

Definition:

Methode, bei der Studierende im Rahmen von Datenprojekten durch gegenseitiges Feedback und Zusammenarbeit lernen.

Details:

  • Fördert tiefere Einblicke und Verständnis für komplexe Datenanalysen.
  • Ermöglicht den Austausch verschiedener Perspektiven und Ansätze.
  • Verbessert Problemlösungsfähigkeiten und kritisches Denken.
  • Stärkt Teamarbeit und Kommunikationsfähigkeiten.
  • Nutze k constructive Kritik und aktives Zuhören.
Sign Up

Melde dich kostenlos an, um Zugriff auf das vollständige Dokument zu erhalten

Mit unserer kostenlosen Lernplattform erhältst du Zugang zu Millionen von Dokumenten, Karteikarten und Unterlagen.

Kostenloses Konto erstellen

Du hast bereits ein Konto? Anmelden