Advanced Business Analytics Seminar - Exam.pdf

Advanced Business Analytics Seminar - Exam
Advanced Business Analytics Seminar - Exam Aufgabe 1) Datenaufbereitung und Feature Engineering sind grundlegende Schritte in der Datenanalyse, um die Qualität und Nutzbarkeit der Daten zu sichern. Diese Schritte umfassen die Bereinigung, Transformation und Auswahl relevanter Datenmerkmale für die Modellierung. Gegeben sei ein Datensatz mit fehlenden Werten, Ausreißern, verschiedenen Datenquellen ...

© StudySmarter 2024, all rights reserved.

Advanced Business Analytics Seminar - Exam

Aufgabe 1)

Datenaufbereitung und Feature Engineering sind grundlegende Schritte in der Datenanalyse, um die Qualität und Nutzbarkeit der Daten zu sichern. Diese Schritte umfassen die Bereinigung, Transformation und Auswahl relevanter Datenmerkmale für die Modellierung. Gegeben sei ein Datensatz mit fehlenden Werten, Ausreißern, verschiedenen Datenquellen und unterschiedlichen Variablenskalierungen.

a)

Du hast einen Datensatz mit 10.000 Einträgen und mehreren Attributen. 5% der Daten sind fehlende Werte. Welche Techniken der Datenbereinigung würdest Du anwenden, um dieses Problem zu lösen, und warum?

Lösung:

Um die fehlenden Werte in einem Datensatz mit 10.000 Einträgen und mehreren Attributen zu bereinigen, gibt es verschiedene Techniken, die Du anwenden kannst. Hier sind einige davon und die Gründe, warum sie nützlich sein können:

  • Entfernen von Einträgen: Wenn der Prozentsatz der fehlenden Daten gering ist und es keine wesentliche Verzerrung der Analyse verursacht, kannst Du die Einträge mit fehlenden Werten entfernen. In Deinem Fall sind es 5%, also 500 Einträge, was verkraftbar sein könnte. Nachteil: Kann zu Informationsverlust führen.
  • Mean/Median Imputation: Fehlen Daten in numerischen Spalten, kannst Du den Mittelwert oder Median der verfügbaren Daten in dieser Spalte einfügen. Dies minimiert Verzerrungen durch extreme Werte. Nachteil: Verringert die Varianz und kann das Modell weniger genau machen.
  • Mode Imputation: Bei kategorialen Daten kann der häufigste Wert (Modus) eingefügt werden. Dies ist eine einfache Methode, um fehlende kategoriale Daten zu behandeln. Nachteil: Kann zu einer Überschätzung eines bestimmten Wertes führen.
  • KNN Imputation: Die k-Nearest Neighbors (k-NN) Methode verwendet Ähnlichkeitsmetriken, um die fehlenden Werte basierend auf ähnlichen Einträgen zu schätzen. Vorteil: Nutzt Muster in den Daten entfaltet höhere Effizienz. Nachteil: Rechenaufwändig, besonders bei großen Datensätzen.
  • Regression Imputation: Verwende andere Merkmale, um ein Regressionsmodell zu erstellen, das die fehlenden Werte vorhersagt. Vorteil: Nützlich, wenn es starke Korrelationen zwischen den Merkmalen gibt. Nachteil: Komplexer als einfache Mittel- oder Modus-Imputation.
  • Mehrfache Imputation: Mehrere Imputationen werden durchgeführt und die Ergebnisse werden kombiniert, um die Unsicherheit in den Vorhersagen der fehlenden Werte zu berücksichtigen. Vorteil: Berücksichtigt Variabilität, führt zu robusteren Ergebnissen.Nachteil: Erfordert umfängliche Berechnung und mehrere Datensätze.

Die Wahl der Methode hängt von der Art der Daten, der Menge der fehlenden Werte und den speziellen Anforderungen der Analyse ab. Es kann auch sinnvoll sein, mehrere Techniken zu kombinieren, um die bestmögliche Datenqualität zu erreichen.

b)

Angenommen, der Datensatz enthält numerische und kategorische Variablen. Die numerischen Variablen sind in verschiedenen Maßstäben (z.B. einige Werte liegen zwischen 0-1, andere zwischen 1.000-10.000). Beschreibe die Schritte, die unternommen werden sollten, um diese Variablen für eine nachfolgende Modellierung zu transformieren und zu skalieren. Zeige dies durch eine Beispieltransformation für eine numerische Variable des Datensatzes.

Lösung:

Um einen Datensatz, der numerische und kategoriale Variablen enthält, für die Modellierung vorzubereiten, musst Du beide Arten von Variablen entsprechend transformieren und skalieren. Hier sind die Schritte, die Du unternehmen solltest, und ein Beispiel für die Transformation einer numerischen Variable:

  • Status der Variablen prüfen: Trenne die numerischen und kategorialen Variablen voneinander.
  • Umwandlung kategorialer Variablen: Kategoriale Variablen müssen in numerische Werte umgewandelt werden. Dies kann durch verschiedene Verfahren erfolgen:
    • One-Hot Encoding: Für kategoriale Variablen mit wenigen Kategorien.
    • Label Encoding: Eine einfache Methode, bei der jede Kategorie eine eindeutige numerische Kennzeichnung erhält.
  • Bereinigung der Daten: Behandle fehlende Werte und Ausreißer in den numerischen Variablen. Verwende Techniken wie Mean/Median Imputation oder Entfernung von Ausreißern.
  • Normalisierung und Standardisierung: Die numerischen Variablen sollten auf gleiche Maßstäbe gebracht werden, um eine konsistente Skalierung zu erreichen. Hier kommen die Min-Max-Skalierung und die Standardisierung ins Spiel.

Beispiel für die Transformation einer numerischen Variable

Angenommen, wir haben eine numerische Variable “Einkommen”, die Werte zwischen 1.000 und 10.000 enthält. Wir werden die Min-Max-Skalierung verwenden, um die Werte auf einen Bereich von 0 bis 1 zu transformieren.

Die Formel für die Min-Max-Skalierung lautet:

\[ X_{neu} = \frac{X - X_{min}}{X_{max} - X_{min}} \]

Gegeben:

  • Minimales Einkommen (\(X_{min}\)) = 1.000
  • Maximales Einkommen (\(X_{max}\)) = 10.000
  • Ein spezifischer Datenpunkt (\(X\)) = 4.500

Die Transformation ergibt folgendes:

\[ X_{neu} = \frac{4500 - 1000}{10000 - 1000} = \frac{3500}{9000} = 0.3889 \]

Standardisierung einer numerischen Variable

Alternativ kannst Du die Standardisierung anwenden, wobei die Werte so transformiert werden, dass sie einen Mittelwert von 0 und eine Standardabweichung von 1 haben. Dies erfolgt mit der Formel:

\[ X_{neu} = \frac{X - \bar{X}}{\text{Std}} \]

Hierbei:

  • \( \bar{X} \) ist der Mittelwert der Variable „Einkommen”
  • \( \text{Std} \) ist die Standardabweichung der Variable „Einkommen”

Angenommen: \( \bar{X} = 5.500 \) und \( \text{Std} = 2.000 \)

Für einen spezifischen Datenpunkt (\(X\)) = 4.500 ergibt dies:

\[ X_{neu} = \frac{4500 - 5500}{2000} = \frac{-1000}{2000} = -0.5 \]

Diese Schritte und Methoden gewährleisten, dass alle numerischen Variablen auf einer vergleichbaren Skala liegen und machen die Daten für die weitere Modellierung bereit.

Aufgabe 2)

Im Rahmen eines Projekts in der Abteilung Business Analytics müsst ihr mögliche Zusammenhänge zwischen verschiedenen Prädiktoren und einer Zielvariablen untersuchen. Es stehen euch Daten von mehreren hundert Kunden zur Verfügung. Es wird erwartet, dass ihr sowohl die Lineare Regression als auch die Logistische Regression anwendet, um verschiedene Analyseziele zu erreichen.

a)

Nehmt an, ihr wollt den Jahresumsatz (kontinuierliche Zielvariable) eines Kunden basierend auf den Prädiktoren 'Anzahl der Bestellungen', 'Durchschnittliche Bestellgröße' und 'Kundenzufriedenheit' vorhersagen. Erkläre den Ansatz der Linearen Regression, formuliert das Modell mit den gegebenen Prädiktoren und beschreibt die Methode zur Bestimmung der Modellparameter.

  • Formuliere das Modell der Linearen Regression und erkläre, welche Annahmen getroffen werden.
  • Erkläre, wie die Residualsumme der Quadrate (RSS) minimiert wird, um die Modellparameter zu schätzen.
  • Diskutiere die Wichtigkeit der Annahme der Linearität in diesem Kontext und erwähne mögliche Schritte zur Überprüfung dieser Annahme.

Lösung:

Um den Jahresumsatz eines Kunden basierend auf den Prädiktoren 'Anzahl der Bestellungen', 'Durchschnittliche Bestellgröße' und 'Kundenzufriedenheit' vorherzusagen, nutzen wir das Modell der Linearen Regression. Folgende Schritte sind notwendig.

  • Formulierung des Modells der Linearen Regression und AnnahmenDas Modell der Linearen Regression kann wie folgt formuliert werden:
  • Formulierung des Modells:
  • Wir haben eine kontinuierliche Zielvariable 'Jahresumsatz' (\text{Revenue}) und die Prädiktoren 'Anzahl der Bestellungen' (\text{Orders}), 'Durchschnittliche Bestellgröße' (\text{AvgOrderSize}) und 'Kundenzufriedenheit' (\text{CustomerSatisfaction}). Das Modell kann ausgedrückt werden als:

    \[\text{Revenue} = \beta_0 + \beta_1 \text{Orders} + \beta_2 \text{AvgOrderSize} + \beta_3 \text{CustomerSatisfaction} + \epsilon\]
    Hierbei sind:
    • \(\beta_0\): Der Achsenabschnitt
    • \(\beta_1, \beta_2, \beta_3\): die Regressionskoeffizienten ('Steigungskoeffizienten') für die jeweiligen Prädiktoren
    • \(\beta_1\): Koeffizient für 'Anzahl der Bestellungen'
    • \(\beta_2\): Koeffizient für 'Durchschnittliche Bestellgröße'
    • \(\beta_3\): Koeffizient für 'Kundenzufriedenheit'
    • \(\epsilon\): Ist der Fehlerterm, der die Abweichung des tatsächlichen Umsatzes vom vorhergesagten Wert erfasst.
  • Annahmen:
    • Linearität: Die Beziehung zwischen Prädiktoren und Zielvariablen ist linear. D.h., Änderungen in den Prädiktoren führen zu proportionalen Änderungen in der Zielvariablen.
    • Homoskedastizität: Die Varianz der Residuen (Fehlerterme) ist konstant über alle Werte der Prädiktoren hinweg.
    • Unabhängigkeit der Fehler: Die Fehlerterme sind voneinander unabhängig.
    • Normalität der Fehler: Die Fehlerterme sind normalverteilt mit einem Erwartungswert von null.
    • Bestimmung der Modellparameter durch Minimierung der Residualsumme der Quadrate (RSS)

    Die Parameter des Modells (\(\beta_0, \beta_1, \beta_2, \beta_3\)) werden durch das Verfahren der Kleinste-Quadrate-Schätzung ermittelt. Hierbei wird die Residualsumme der Quadrate (RSS, Residual Sum of Squares) minimiert, um die besten Schätzwerte für die Regressionskoeffizienten zu finden.

    • Formel für RSS:

    Die RSS ist definiert als:

    \[RSS = \sum_{i=1}^{n}(y_i - \hat{y}_i)^2\] \[ \hat{y}_i = \beta_0 + \beta_1 x_{i1} + \beta_2 x_{i2} + \beta_3 x_{i3} \]

    Hierbei ist \(y_i\) der tatsächliche Wert des Jahresumsatzes, und \(\hat{y}_i\) ist der durch das Modell vorhergesagte Wert.

    • \(n\): Anzahl der Kunden

    Um die RSS zu minimieren, leiten wir die RSS-Funktion teilweise bezüglich jedes Regressionskoeffizienten ab und setzen die Ableitungen gleich null. Dies führt zu einem System von Gleichungen, das wir lösen können, um die Werte der Regressionskoeffizienten zu finden:

    \[\frac{\partial RSS}{\partial \beta_0} = 0\] \[\frac{\partial RSS}{\partial \beta_1} = 0\] \[\frac{\partial RSS}{\partial \beta_2} = 0\] \[\frac{\partial RSS}{\partial \beta_3} = 0\]
  • Annahmen der Linearität und deren Überprüfung

Die Annahme der Linearität ist entscheidend, da sie sicherstellt, dass die Beziehung zwischen den Prädiktoren und der Zielvariablen linear ist. Wenn diese Annahme nicht erfüllt ist, kann das Modell ungenaue Vorhersagen liefern.Um die Linearität zu überprüfen, können folgende Schritte unternommen werden:

  • Residualplots:Ein Streudiagramm der Residuen gegen die vorhergesagten Werte. Bei Linearität sollten die Residuen zufällig um die horizontale Achse verteilt sein, ohne erkennbare Muster.
  • Pearson-Korrelation:Die Berechnung der Korrelation zwischen den Prädiktoren und der Zielvariablen kann Hinweise auf eine lineare Beziehung geben.
  • Transformationsmethoden:Falls eine nicht-lineare Beziehung festgestellt wird, können Transformationen der Prädiktoren (beispielsweise Log- oder Quadratwurzel-Transformationen) angewendet werden, um Linearität herzustellen.
  • Zusammenfassung:
  • Die Lineare Regression ist ein leistungsfähiges Werkzeug zur Vorhersage des Jahresumsatzes basierend auf Prädiktoren wie 'Anzahl der Bestellungen', 'Durchschnittliche Bestellgröße' und 'Kundenzufriedenheit'. Die sorgfältige Überprüfung der Modellannahmen und die Minimierung der RSS sind entscheidend für die Genauigkeit und Zuverlässigkeit des Modells.

b)

Für eine andere Analyse müsst ihr die Wahrscheinlichkeit dafür vorhersagen, dass ein Kunde auf ein neues Produktangebot positiv reagieren wird (binäre Zielvariable). Der Reaktionsstatus (0 = keine Reaktion, 1 = positive Reaktion) hängt von den Prädiktoren 'Anzahl der Bestellungen', 'Durchschnittliche Bestellgröße' und 'Kundenzufriedenheit' ab. Beschreibt das Modell der Logistischen Regression für dieses Problem und erklärt, wie ihr die Wahrscheinlichkeiten für die positive Reaktion schätzen würdet.

  • Formuliere das Modell der Logistischen Regression und erkläre die logistische Funktion.
  • Beschreibe, wie die logistische Funktion verwendet wird, um Wahrscheinlichkeiten zu schätzen.
  • Diskutiere die Unterschiede und Gemeinsamkeiten der Parameterbestimmung zwischen Logistischer und Linearer Regression.

Lösung:

Um die Wahrscheinlichkeit dafür vorherzusagen, dass ein Kunde auf ein neues Produktangebot positiv reagieren wird (binäre Zielvariable), nutzen wir das Modell der Logistischen Regression. Folgende Schritte sind notwendig:

  • Formulierung des Modells der Logistischen Regression und Erklärung der logistischen Funktion
  • Formulierung des Modells:
  • Wir haben eine binäre Zielvariable 'Reaktionsstatus' (0 = keine Reaktion, 1 = positive Reaktion) und die Prädiktoren 'Anzahl der Bestellungen' (\text{Orders}), 'Durchschnittliche Bestellgröße' (\text{AvgOrderSize}) und 'Kundenzufriedenheit' (\text{CustomerSatisfaction}). Das Modell der Logistischen Regression kann wie folgt ausgedrückt werden:

    \[\log\left(\frac{p}{1-p}\right) = \beta_0 + \beta_1 \text{Orders} + \beta_2 \text{AvgOrderSize} + \beta_3 \text{CustomerSatisfaction}\]
    Hierbei sind:
    • \(p\): Wahrscheinlichkeit einer positiven Reaktion (Reaktionsstatus = 1)
    • \(\beta_0\): Der Achsenabschnitt
    • \(\beta_1, \beta_2, \beta_3\): die Regressionskoeffizienten ('Steigungskoeffizienten') für die jeweiligen Prädiktoren:
    • \(\beta_1\): Koeffizient für 'Anzahl der Bestellungen'
    • \(\beta_2\): Koeffizient für 'Durchschnittliche Bestellgröße'
    • \(\beta_3\): Koeffizient für 'Kundenzufriedenheit'
  • Die logistische Funktion:Die logistische Funktion \(\sigma(z)\) wird genutzt, um Wahrscheinlichkeiten zu modellieren und stellt sicher, dass diese Werte zwischen 0 und 1 liegen:
  • \[\sigma(z) = \frac{1}{1 + e^{-z}}\]
    Hierbei ist \(z\) wie folgt definiert:
    \[z = \beta_0 + \beta_1 \text{Orders} + \beta_2 \text{AvgOrderSize} + \beta_3 \text{CustomerSatisfaction}\]
    • Beschreibung, wie die logistische Funktion verwendet wird, um Wahrscheinlichkeiten zu schätzen

    Um die Wahrscheinlichkeit einer positiven Reaktion (\(p\)) zu schätzen, setzen wir die lineare Kombination der Prädiktoren in die logistische Funktion ein:

    \[p = \sigma(z) = \frac{1}{1 + e^{-(\beta_0 + \beta_1 \text{Orders} + \beta_2 \text{AvgOrderSize} + \beta_3 \text{CustomerSatisfaction})}}\]
    Hierbei gibt \(p\) die geschätzte Wahrscheinlichkeit an, mit der ein Kunde positiv auf das neue Produktangebot reagieren wird.
    • Diskussion der Unterschiede und Gemeinsamkeiten der Parameterbestimmung zwischen Logistischer und Linearer Regression
    • Gemeinsamkeiten:
    • Beide Modelle nutzen Prädiktoren, um eine Zielvariable vorherzusagen (linear bei der linearen Regression und logistisch bei der logistischen Regression).
    • Beide Modelle ermitteln die Koeffizienten (\(\beta_0, \beta_1, \beta_2, \beta_3\)) durch Anpassung an die Daten.
    • Die Methode der Maximum-Likelihood-Schätzung (MLE) dient als Grundlage zur Ermittlung der Koeffizienten in beiden Fällen.
    • Unterschiede:
    • Bei der linearen Regression wird die Residualsumme der Quadrate (RSS) minimiert, während bei der logistischen Regression die Maximum-Likelihood-Schätzung (MLE) maximiert wird.
    • Die Linearität nimmt eine lineare Beziehung zwischen Prädiktoren und Zielvariablen an, während die logistische Regression eine S-förmige logistische Kurve nutzt, um Wahrscheinlichkeiten zu modellieren.
    • Die Zielvariable bei der linearen Regression ist kontinuierlich, während sie bei der logistischen Regression binär ist.
    • Zusammenfassung:

    Das Modell der Logistischen Regression eignet sich ideal zur Vorhersage der Wahrscheinlichkeit einer positiven Reaktion auf ein neues Produktangebot. Durch die Nutzung der logistischen Funktion lassen sich Wahrscheinlichkeiten schätzen, die zwischen 0 und 1 liegen. Die sorgfältige Bestimmung der Modellparameter ist entscheidend, um genaue und zuverlässige Vorhersagen zu treffen.

    c)

    Angenommen, nach der Schätzung der Modelle für die beiden Fragestellungen stellt ihr fest, dass einige Prädiktoren nicht signifikant sind. Erklärt, was ihr daraus schließen könnt und wie ihr das Modell entsprechend anpassen würdet. Geht dabei auf die Konzepte der Variablenselektion und Modellvalidierung ein.

    • Diskutiere die Bedeutung der Signifikanz von Prädiktoren.
    • Erkläre, wie du vorgehst, um nicht signifikante Prädiktoren zu identifizieren und zu entfernen.
    • Beschreibe Methoden der Variablenselektion (z.B. Vorwärtsselektion, Rückwärtsselektion).
    • Erörtert die Bedeutung der Modellvalidierung und nennt einige Methoden zur Durchführung dieser.

    Lösung:

    Nach der Schätzung der Modelle für die beiden Fragestellungen kann es vorkommen, dass einige Prädiktoren nicht signifikant sind. Folgende Schritte sind notwendig, um dieses Problem zu adressieren:

    • Diskutiere die Bedeutung der Signifikanz von Prädiktoren

    Die Signifikanz eines Prädiktors in einem Modell gibt an, wie stark dieser Prädiktor zur Erklärung der Zielvariablen beiträgt. Ein signifikantes Prädiktor hat einen statistisch bedeutsamen Einfluss auf die Zielvariable. Das bedeutet, dass die Wahrscheinlichkeit, dass der beobachtete Einfluss des Prädiktors zufällig auftritt, sehr gering ist. Die Signifikanz wird häufig durch den p-Wert gemessen. Ein niedriger p-Wert (meist kleiner als 0.05) deutet darauf hin, dass der Prädiktor signifikant ist.

    • Identifizierung und Entfernung nicht signifikanter Prädiktoren

    Um nicht signifikante Prädiktoren zu identifizieren, prüfen wir die p-Werte der Prädiktoren in unseren Modellen. Prädiktoren mit p-Werten größer als 0.05 sind in der Regel nicht signifikant und können aus dem Modell entfernt werden. So geht man dabei vor:

    • Führe eine Regressionsanalyse durch und ermittele die p-Werte für alle Prädiktoren.
    • Identifiziere Prädiktoren mit p-Werten größer als 0.05.
    • Entferne diese nicht signifikanten Prädiktoren schrittweise aus dem Modell und führe die Analyse erneut durch.
    • Prüfe nach jeder Anpassung die verbleibenden Prädiktoren auf Signifikanz.
    • Methoden der Variablenselektion

    Es gibt verschiedene Methoden zur Variablenselektion, um das beste Modell zu finden:

    • Vorwärtsselektion:
    • Beginne mit einem leeren Modell und füge schrittweise die signifikantesten Prädiktoren hinzu, bis keine weiteren signifikanten Prädiktoren mehr gefunden werden.

      • Beginne mit dem einfachsten Modell, das nur den Achsenabschnitt enthält.
      • Füge den Prädiktor hinzu, der die größte Verbesserung im Modell liefert (z.B. durch den niedrigsten p-Wert).
      • Wiederhole den Vorgang, bis keine weiteren signifikanten Prädiktoren hinzugefügt werden können.
    • Rückwärtsselektion:
    • Beginne mit einem vollständigen Modell, das alle Prädiktoren enthält, und entferne schrittweise die am wenigsten signifikanten Prädiktoren.

      • Beginne mit dem Modell, das alle verfügbaren Prädiktoren enthält.
      • Entferne den Prädiktor mit dem höchsten p-Wert (am wenigsten signifikant).
      • Wiederhole den Vorgang, bis alle verbleibenden Prädiktoren signifikant sind.
      • Schrittweise Regression (Stepwise Regression):
      • Kombination von Vorwärts- und Rückwärtsselektion. Prädiktoren werden sowohl hinzugefügt als auch entfernt, basierend auf ihrer Signifikanz.

      • Bedeutung der Modellvalidierung

      Die Modellvalidierung ist entscheidend, um sicherzustellen, dass das Modell nicht nur gut zu den Trainingsdaten passt, sondern auch zu neuen, unbekannten Daten verallgemeinert werden kann. Ohne adäquate Validierung besteht die Gefahr des Overfittings, bei dem das Modell zu sehr an die Trainingsdaten angepasst ist und bei neuen Daten schlecht performt. Methoden zur Modellvalidierung sind:

      • Trainings- und Testdatensatz:
      • Teile die Daten in einen Trainings- und einen Testdatensatz. Trainiere das Modell auf dem Trainingsdatensatz und evaluiere die Leistung auf dem Testdatensatz.

      • Kreuzvalidierung (Cross-Validation):
      • Verwende k-fache Kreuzvalidierung, bei der die Daten in k Teile geteilt werden. Trainiere das Modell k-mal, und jedes Mal wird ein anderer Teil als Testdatensatz verwendet, während die verbleibenden Teile zum Training verwendet werden. Die Leistung des Modells wird dann als Durchschnitt der k Läufe bewertet.

      • Leave-One-Out-Cross-Validation (LOOCV):
      • Eine extreme Form der Kreuzvalidierung, bei der jedes einzelne Datenpunkt einmal als Testdatensatz verwendet wird, während die übrigen Datenpunkte das Trainingsset bilden. Dies führt zu einer sehr genauen Schätzung der Modellleistung, kann aber bei großen Datensätzen sehr zeitaufwendig sein.

      • Zusammenfassung:

      Die Signifikanz von Prädiktoren spielt eine wichtige Rolle in der Modellbildung. Nicht signifikante Prädiktoren sollten identifiziert und entfernt werden, um das Modell zu verbessern. Methoden der Variablenselektion wie Vorwärts- und Rückwärtsselektion helfen, das beste Modell zu finden. Abschließend stellt die Modellvalidierung sicher, dass das Modell robust und verallgemeinerbar ist.

      d)

      In einem letzten Schritt wird von euch erwartet, die Leistungsfähigkeit der beiden Modelle zu vergleichen und zu bewerten. Erklärt die Vorgehensweise und welche Metriken ihr dabei verwenden würdet.

      • Beschreibe die Vorgehensweise, um die Leistung der Modelle der Linearen und der Logistischen Regression zu vergleichen.
      • Nenne und erkläre geeignete Leistungsmetriken sowohl für die Lineare Regression (z.B. R², RMSE) als auch für die Logistische Regression (z.B. AUC, Konfusionsmatrix).
      • Diskutiere, wie sich unterschiedliche Modellannahmen auf die Leistung und den Vergleich der Modelle auswirken können.

      Lösung:

      Um die Leistungsfähigkeit der beiden Modelle, der Linearen Regression und der Logistischen Regression, zu vergleichen und zu bewerten, ist eine systematische Vorgehensweise erforderlich. Folgende Schritte und Metriken sind dabei relevant:

      • Vorgehensweise, um die Leistung der Modelle der Linearen und der Logistischen Regression zu vergleichen

      Die Leistung der Modelle wird auf Basis von verschiedenen Metriken bewertet. Hierzu werden sowohl Trainings- als auch Testdatensätze verwendet, um sicherzustellen, dass die Modelle generalisierbar sind und nicht überangepasst (overfitted) sind.

  1. Daten in Trainings- und Testdatensätze aufteilen oder Kreuzvalidierungsmethoden verwenden.
  2. Modelle (Lineare und Logistische Regression) auf dem Trainingsdatensatz trainieren.
  3. Vorhersagen der Zielvariablen auf dem Testdatensatz durchführen.
  4. Metriken für beide Modelle berechnen.
  5. Modelle basierend auf diesen Metriken vergleichen.
  • Leistungsmetriken für die Lineare Regression
  • R² (Bestimmtheitsmaß):
  • \( R^2 \) misst den Anteil der Varianz in der Zielvariablen, der durch das Modell erklärt wird. Es liegt zwischen 0 und 1, wobei 1 eine perfekte Erklärung der Varianz darstellt.

    • \[ R^2 = 1 - \frac{\sum (y_i - \hat{y}_i)^2}{\sum (y_i - \bar{y})^2} \]

    Hierbei ist \( y_i \) der tatsächliche Wert, \( \hat{y}_i \) der vorhergesagte Wert, und \( \bar{y} \) ist der Durchschnitt der tatsächlichen Werte.

  • RMSE (Root Mean Squared Error):
  • \( RMSE \) misst die durchschnittliche Abweichung der vorhergesagten Werte von den tatsächlichen Werten. Ein niedrigerer RMSE-Wert deutet auf ein besseres Modell hin.

    • \[ RMSE = \sqrt{\frac{1}{n} \sum (y_i - \hat{y}_i)^2} \]

    Hierbei ist \( n \) die Anzahl der Beobachtungen.

    • Leistungsmetriken für die Logistische Regression
    • AUC (Area Under the ROC Curve):
    • Die Fläche unter der ROC-Kurve (Receiver Operating Characteristic) misst die Trennschärfe des Modells. Ein AUC-Wert von 0.5 entspricht dem Zufallsniveau, während 1 eine perfekte Klassifikation darstellt.

      • \[ AUC = \int_{0}^{1} ROC(t) dt \]
    • Konfusionsmatrix:
    • Die Konfusionsmatrix gibt die Anzahl der true positives (TP), true negatives (TN), false positives (FP) und false negatives (FN) an und hilft dabei, verschiedene Metriken zu berechnen:

      • Accuracy: \( \frac{TP+TN}{TP+TN+FP+FN} \)
      • Precision: \( \frac{TP}{TP+FP} \)
      • Recall (Sensitivity): \( \frac{TP}{TP+FN} \)
      • F1-Score: \( 2 \times \frac{\text{Precision} \times \text{Recall}}{\text{Precision} + \text{Recall}} \)
    • Diskussion der Auswirkungen unterschiedlicher Modellannahmen auf die Leistung und den Vergleich

    Die Annahmen, die den jeweiligen Modellen zugrunde liegen, können die Leistung und den Vergleich der Modelle erheblich beeinflussen:

    • Linearität (Lineare Regression):
    • Die Lineare Regression nimmt eine lineare Beziehung zwischen Prädiktoren und Zielvariable an. Wenn diese Annahme verletzt wird (z.B. wenn die Beziehung nicht linear ist), kann die Modellleistung stark beeinträchtigt sein. In solchen Fällen könnten Transformationen der Prädiktoren oder die Nutzung nichtlinearer Modelle (z.B. Polynomiale oder Splines) sinnvoll sein.

    • Logistische Funktion (Logistische Regression):
    • Die Logistische Regression nimmt eine logistische Beziehung zwischen Prädiktoren und log Odds der Zielvariable an. Wenn diese Beziehung nicht zutrifft, kann auch hier die Modellleistung beeinträchtigt sein. Abhilfe können erweiterte Modelle wie die generalisierten additiven Modelle (GAMs) bieten.

    • Multikollinearität:
    • Sowohl bei der Linearen als auch bei der Logistischen Regression kann Multikollinearität (hohe Korrelation zwischen Prädiktoren) die Schätzungen der Koeffizienten verzerren und die Interpretation erschweren. Methoden wie Principal Component Analysis (PCA) oder regelmäßige Modelle (z.B. Ridge- oder Lasso-Regression) können hier Abhilfe schaffen.

    • Homoskedastizität (Lineare Regression):
    • Die Annahme der konstanten Varianz der Residuen über alle Werte der Prädiktoren hinweg (Homoskedastizität) ist für die Lineare Regression wichtig. Verletzungen dieser Annahme können zu ineffizienten Schätzungen führen. Transformationsmethoden oder gewichtete Regressionen können hier nützlich sein.

    • Zusammenfassung:
    • Die Bewertung und der Vergleich der Leistungsfähigkeit der Linearen und der Logistischen Regression erfordert die Nutzung geeigneter Metriken, wie R² und RMSE für die Lineare Regression sowie AUC und Konfusionsmatrix für die Logistische Regression. Die Berücksichtigung der jeweiligen Modellannahmen und deren mögliche Verletzung sind entscheidend, um die Modelle korrekt zu interpretieren und zu vergleichen.

      Aufgabe 3)

      Künstliche neuronale Netze werden modelliert, um biologische neuronale Netzwerke nachzuahmen, insbesondere zur Mustererkennung und maschinellem Lernen. Diese Netzwerke bestehen aus Neuronen (Knoten) und Verbindungen (Gewichte). Ein typisches neuronales Netz ist in Schichten organisiert: Eingabeschicht, eine oder mehrere versteckte Schichten und eine Ausgabeschicht. Zur Entscheidungsfindung nutzt jedes Neuron eine Aktivierungsfunktion, wie Sigmoid, ReLU oder Tanh. Das Training dieser Netzwerke erfolgt meist durch Backpropagation und Optimierungsalgorithmen wie Gradient Descent. Die Kostenfunktion, beispielsweise der Mean Squared Error (MSE), misst die Fehlerrate des Modells. Um Overfitting zu vermeiden, werden Regularisierungstechniken wie Dropout angewendet. Unterschiedliche Architekturen, wie Feedforward Netzwerke, Convolutional Neural Networks (CNN) und Recurrent Neural Networks (RNN), erlauben die Anpassung an verschiedene Aufgaben.

      a)

      Angenommen, Du trainierst ein einfaches Feedforward neuronales Netz mit einer Eingabeschicht, einer versteckten Schicht mit 4 Neuronen und einer Ausgabeschicht mit einem einzigen Neuron. Das Netz soll für eine binäre Klassifikationsaufgabe genutzt werden, wobei die Aktivierungsfunktion in der versteckten Schicht ReLU und die in der Ausgabeschicht Sigmoid ist. Beschreibe den Trainingsprozess dieses neuronalen Netzes, einschließlich der notwendigen Schritte und Berechnungen, die bei der Backpropagation und dem Optimierungsalgorithmus Gradient Descent durchgeführt werden. Gehe dabei auf die Initialisierung der Gewichte, die Berechnung der Vorwärts- und Rückwärtspropagation sowie die Aktualisierung der Gewichte ein.

      Lösung:

      Um dieses Feedforward neuronale Netz zu trainieren, gehen wir Schritt für Schritt durch den Trainingsprozess, einschließlich der Initialisierung der Gewichte, der Vorwärts- und Rückwärtspropagation und der Aktualisierung der Gewichte mittels Gradient Descent.

      1. Initialisierung der Gewichte:

      • Wir beginnen mit der zufälligen Initialisierung der Gewichte. Diese Zufälligkeit stellt sicher, dass das Netz anfängt, verschiedene Muster zu lernen. Hier wäre es sinnvoll, die Gewichte klein zu halten, um die Stabilität des Trainings zu gewährleisten. Eine gebräuchliche Methode ist die Xavier-Initialisierung.

      2. Vorwärtspropagation:

      • Der Input wird durch das Netz geleitet, wobei zunächst die Eingabeschicht auf die versteckte Schicht wirkt. Angenommen, der Input sei X und die Gewichte der Eingabeschicht zur versteckten Schicht seien W1:
        • Berechnung des linearen Summensignals:
        • Einschliesslich der notwendigen Schritte und Berechnungen.

        Aufgabe 4)

        Als Data Scientist für ein Einzelhandelsunternehmen hast du einen Datensatz mit monatlichen Verkaufszahlen der letzten drei Jahre für verschiedene Filialen des Unternehmens. Du sollst eine explorative Datenanalyse (EDA) dieses Datensatzes durchführen und dabei Muster, Beziehungen und potenzielle Ausreißer identifizieren.

        a)

        Erstelle ein Histogramm der monatlichen Verkaufszahlen aller Filialen, um die Verteilung der Daten zu visualisieren. Diskutiere das Histogramm und identifiziere auffällige Verteilungen oder Ausreißer.

        Lösung:

        Um ein Histogramm der monatlichen Verkaufszahlen aller Filialen zu erstellen und die Verteilung der Daten zu visualisieren, führe die folgenden Schritte durch:

        • Schritte zur Erstellung des Histogramms:
          1. Lade den Datensatz in eine geeignete Softwareanwendung wie Python (mit Bibliotheken wie Pandas und Matplotlib) oder Excel.
          2. Stelle sicher, dass die Daten gut aufbereitet sind, indem Du fehlende Werte überprüfst und gegebenenfalls bereinigst.
          3. Aggregiere die monatlichen Verkaufszahlen aller Filialen.
          4. Erstelle ein Histogramm der aggregierten Verkaufszahlen.
          5. Führe eine erste visuelle Inspektion des Histogramms durch.
        • Beispielcode in Python:
           import pandas as pd import matplotlib.pyplot as plt# Lade den Datensatz df = pd.read_csv('verkaufszahlen.csv')# Aggregiere die monatlichen Verkaufszahlen monatliche_verkaufszahlen = df['Verkaufszahlen']# Erstelle das Histogramm plt.figure(figsize=(10, 6)) plt.hist(monatliche_verkaufszahlen, bins=30, color='blue', edgecolor='black') plt.title('Histogramm der monatlichen Verkaufszahlen aller Filialen') plt.xlabel('Verkaufszahlen') plt.ylabel('Häufigkeit') plt.grid(True) plt.show()  
        • Diskussion des Histogramms:
          • Ein Histogramm veranschaulicht die Verteilung der monatlichen Verkaufszahlen.
          • Wenn die Verteilung eine Glockenkurve aufweist, deutet dies auf eine normale Verteilung der Verkaufszahlen hin.
          • Eine Schiefe oder Asymmetrie könnte auf saisonale Trends oder unterschiedliche Leistungsniveaus zwischen Filialen hinweisen.
          • Beobachte die Anzahl der Ausreißer:
            • Einzelne hohe Verkaufswerte könnten Spitzenzeiten oder Promotions widerspiegeln.
            • Sehr niedrige Werte könnten auf Probleme in bestimmten Filialen hinweisen.
          • Achte auch auf Moden in der Verteilung, da mehrere Spitzenpunkte auf unterschiedliche Kundensegmente oder Produkte hinweisen könnten.

        c)

        Erstelle einen Scatterplot, der die Beziehung zwischen der Verkaufszahlen und der Anzahl der Kunden im Monat darstellt. Falls vorhanden, identifiziere und diskutiere jegliche Korrelationen zwischen diesen Variablen.

        Lösung:

        Um einen Scatterplot zu erstellen, der die Beziehung zwischen den Verkaufszahlen und der Anzahl der Kunden im Monat darstellt, folge diesen Schritten:

        • Schritte zur Erstellung des Scatterplots:
          1. Lade den Datensatz in eine geeignete Softwareanwendung wie Python (mit Bibliotheken wie Pandas und Matplotlib) oder Excel.
          2. Stelle sicher, dass die Daten gut aufbereitet sind, indem Du fehlende Werte überprüfst und gegebenenfalls bereinigst.
          3. Erstelle einen Scatterplot, bei dem die Verkaufszahlen auf der y-Achse und die Anzahl der Kunden auf der x-Achse aufgetragen werden.
        • Beispielcode in Python:
          import pandas as pdimport matplotlib.pyplot as plt# Lade den Datensatzdf = pd.read_csv('verkaufszahlen.csv')# Extrahiere die relevanten Datenverkaufszahlen = df['Verkaufszahlen']anzahl_kunden = df['Anzahl_Kunden']# Erstelle den Scatterplotplt.figure(figsize=(10, 6))plt.scatter(anzahl_kunden, verkaufszahlen, color='blue', edgecolor='black')plt.title('Scatterplot der Verkaufszahlen vs. Anzahl der Kunden')plt.xlabel('Anzahl der Kunden')plt.ylabel('Verkaufszahlen')plt.grid(True)plt.show()
        • Diskussion des Scatterplots und Identifikation von Korrelationen:
          • Korrelation:Eine Korrelation beschreibt die Stärke und Richtung, mit der zwei Variablen miteinander zusammenhängen. Pearson's Korrelationskoeffizient ist ein gängiges Maß für lineare Korrelation und kann Werte von -1 bis 1 annehmen:
            • 1 bedeutet eine perfekte positive lineare Beziehung.
            • -1 bedeutet eine perfekte negative lineare Beziehung.
            • 0 bedeutet keine lineare Beziehung.
          • Python-Code zur Berechnung der Korrelation:
            # Berechne die Pearson-Korrelationkorrelation = df['Verkaufszahlen'].corr(df['Anzahl_Kunden'])print(f'Pearson-Korrelationskoeffizient: {korrelation}')
          • Interpretation des Scatterplots:
            • Wenn die Punkte im Scatterplot einen Aufwärtstrend zeigen (d.h., sie neigen dazu, von links unten nach rechts oben zu verlaufen), gibt es eine positive Korrelation zwischen der Anzahl der Kunden und den Verkaufszahlen.
            • Wenn die Punkte einen Abwärtstrend zeigen (d.h., sie neigen dazu, von links oben nach rechts unten zu verlaufen), gibt es eine negative Korrelation.
            • Wenn die Punkte keine erkennbare Richtung aufweisen und zufällig verteilt sind, gibt es vermutlich keine lineare Beziehung zwischen den beiden Variablen.
            • Beispiel für positive Korrelation: Wenn mehr Kunden in einem Monat kommen, steigen die Verkaufszahlen entsprechend.
            • Beispiel für negative Korrelation: Wenn weniger Kunden in einem Monat kommen, sinken die Verkaufszahlen entsprechend.
            • Da wir in der Regel eine erwartete positive Beziehung zwischen der Anzahl der Kunden und den Verkaufszahlen annehmen, sollten wir im Scatterplot einen deutlichen Aufwärtstrend erkennen können. Falls dies nicht der Fall ist, könnten andere Faktoren wie saisonale Trends, Marketingaktionen oder besondere Ereignisse eine Rolle spielen.
Sign Up

Melde dich kostenlos an, um Zugriff auf das vollständige Dokument zu erhalten

Mit unserer kostenlosen Lernplattform erhältst du Zugang zu Millionen von Dokumenten, Karteikarten und Unterlagen.

Kostenloses Konto erstellen

Du hast bereits ein Konto? Anmelden