Programmierung und Data-Science - Cheatsheet.pdf

Programmierung und Data-Science - Cheatsheet
Deskriptive Statistik und Wahrscheinlichkeitsrechnung Definition: Beschreibende Statistik: Daten zusammenfassen und analysieren. Wahrscheinlichkeitsrechnung: Modelle zur Abschätzung der Wahrscheinlichkeit von Ereignissen. Details: Deskriptive Statistik Arithmetisches Mittel: \( \bar{x} = \frac{1}{n} \sum_{i=1}^{n} x_i \) Median: mittlerer Wert Standardabweichung: \( s = \sqrt{\frac{1}{n-1} \sum_{i...

© StudySmarter 2024, all rights reserved.

Deskriptive Statistik und Wahrscheinlichkeitsrechnung

Definition:

Beschreibende Statistik: Daten zusammenfassen und analysieren. Wahrscheinlichkeitsrechnung: Modelle zur Abschätzung der Wahrscheinlichkeit von Ereignissen.

Details:

  • Deskriptive Statistik
    • Arithmetisches Mittel: \( \bar{x} = \frac{1}{n} \sum_{i=1}^{n} x_i \)
    • Median: mittlerer Wert
    • Standardabweichung: \( s = \sqrt{\frac{1}{n-1} \sum_{i=1}^{n} (x_i - \bar{x})^2} \)
  • Wahrscheinlichkeitsrechnung
    • Grundbegriffe: Ereignis, Zufallsvariable, Wahrscheinlichkeitsfunktion
    • Wahrscheinlichkeit: \( P(A) = \frac{|A|}{|\Omega|} \)
    • Erwartungswert: \( E[X] = \sum_{i=1}^{n} x_i P(x_i) \)
    • Varianz: \( Var(X) = E[(X - E[X])^2] \)

Datenvorverarbeitung und Bereinigung

Definition:

Prozess der Vorbereitung von Rohdaten für die Analyse, um deren Qualität und Nützlichkeit zu verbessern.

Details:

  • Datenbereinigung: Entfernen von Duplikaten, Umgang mit fehlenden Werten.
  • Datenumwandlung: Normalisierung, Skalierung, Kodierung.
  • Fehlende Werte: \textit{Listwise Deletion}, Imputation.
  • Outlier-Erkennung: Verwendung statistischer Methoden (z. B. z-Score, IQR).
  • Feature-Engineering: Erstellen neuer Features, Auswahl relevanter Features.
  • Datenintegration: Zusammenführen von Daten aus verschiedenen Quellen.
  • Skriptbasierte Werkzeuge: pandas, NumPy in Python.

Explorative Datenanalyse

Definition:

Systematische Untersuchung von Datensätzen zur Zusammenfassungen ihrer Hauptmerkmale, oft mittels visueller Methoden.

Details:

  • Ziel: Entdeckung von Mustern, Auffälligkeiten, Hypothesenbildung.
  • Techniken: Beschreibende Statistiken (Mittelwert, Median, Modus), Visualisierungen (Histogramme, Streudiagramme, Boxplots).
  • Werkzeuge: Python (pandas, matplotlib, seaborn), R (ggplot2).
  • Datenbereinigung: Umgang mit fehlenden Werten, Ausreißern, Datenintegration.
  • Transformationsmethoden: Normalisierung, Skalierung.

Einführung in Python-Syntax und grundlegende Datenstrukturen

Definition:

Grundlagen der Python-Syntax und der grundlegenden Datenstrukturen; essentiell für die Programmierung und Data-Science in der Chemie

Details:

  • Kommentare: \texttt{#}
  • Variablen: keine Typdeklaration notwendig, z.B. \texttt{x = 42}
  • Datenstrukturen:
    • Listen: \texttt{[1, 2, 3]}
    • Tupel: \texttt{(1, 2, 3)}
    • Dictionaries: \texttt{\{ 'key': 'value' \}}
    • Mengen (Sets): \texttt{\{1, 2, 3\}}
  • Kontrollstrukturen: \texttt{if}, \texttt{elif}, \texttt{else}, \texttt{for}, \texttt{while}
  • Funktionen: Definieren mit \texttt{def} Schlüsselwort, z.B. \texttt{def funktion(x): return x+1}
  • Ein- und Ausgabe: \texttt{input()}, \texttt{print()}

Arbeiten mit NumPy und Pandas für Datenmanipulation

Definition:

Arbeiten mit NumPy und Pandas für Datenmanipulation ist wesentlich in Data-Science, um numerische Berechnungen und Datenanalyse durchzuführen.

Details:

  • NumPy: effiziente Operationen auf Arrays/Matrizen, \textbf{np.array()}, lineare Algebra, Statistik
  • Pandas: leistungsstarke Datenstrukturen (Series, DataFrames) für tabellarische Daten, \textbf{pd.DataFrame()}, Datenbereinigung, -analyse
  • DataFrames: Zeilen und Spalten indizierte Datenstrukturen
  • Grundlegende Methoden: \textbf{head()}, \textbf{describe()}, \textbf{merge()}, \textbf{groupby()}, \textbf{pivot()}
  • Datenmanipulation: Filtern, Sortieren, Aggregieren, Umformen
  • Beispiele: \textbf{df.mean()}, \textbf{df['Spalte'].sum()}, \textbf{np.mean(array)}, \textbf{np.dot(a, b)}

Sortier- und Suchalgorithmen

Definition:

Sortier- und Suchalgorithmen wird verwendet, um Daten zu organisieren und effizient zu durchsuchen.

Details:

  • Bubble Sort: Einfacher, aber ineffizienter Sortieralgorithmus. Vergleich benachbarter Elemente und Tauschen bei Bedarf.
  • Quick Sort: Effizienter Algorithmus, teilt Liste wiederholt in Teilmengen (Partitionierung).
  • Binary Search: Effizienter Suchalgorithmus für sortierte Listen. Teilt die Liste wiederholt in Hälften, um das Ziel zu finden.
  • Big-O Notation: \(O(n^2)\), \(O(n \log n)\), \(O(\log n)\) gibt die Komplexität an.

Erstellung von Diagrammen und Plots mit Matplotlib

Definition:

Erstellung von Diagrammen und Plots für Datenvisualisierung in Python mit dem Matplotlib-Modul.

Details:

  • Importiere das Modul: import matplotlib.pyplot as plt
  • Basisplot: plt.plot(x, y)
  • Diagramm anpassen: Titel plt.title('Titel'), Achsenbeschriftung plt.xlabel('X-Achse'), plt.ylabel('Y-Achse')
  • Raster hinzufügen: plt.grid(True)
  • Legende hinzufügen: plt.legend(['Label1', 'Label2'])
  • Balkendiagramm: plt.bar(x, height)
  • Histogramm: plt.hist(data, bins)
  • Scatterplot: plt.scatter(x, y)
  • Plot anzeigen: plt.show()

Grundlagen des maschinellen Lernens und Modellbewertung

Definition:

Grundbegriffe und Methoden des maschinellen Lernens und deren Anwendung zur Evaluation und Optimierung von Modellen

Details:

  • Supervised vs. Unsupervised Learning
  • Trainings-, Validierungs- und Testdaten
  • Überanpassung (Overfitting) und Unteranpassung (Underfitting)
  • Modellevaluation: Kreuzvalidierung, Precision, Recall, F1-Score
  • Fehlermetriken: MSE, MAE, RMSE
  • Regularisierung: L1, L2
Sign Up

Melde dich kostenlos an, um Zugriff auf das vollständige Dokument zu erhalten

Mit unserer kostenlosen Lernplattform erhältst du Zugang zu Millionen von Dokumenten, Karteikarten und Unterlagen.

Kostenloses Konto erstellen

Du hast bereits ein Konto? Anmelden