Deskriptive Statistik und Wahrscheinlichkeitsrechnung
Definition:
Beschreibende Statistik: Daten zusammenfassen und analysieren. Wahrscheinlichkeitsrechnung: Modelle zur Abschätzung der Wahrscheinlichkeit von Ereignissen.
Details:
- Deskriptive Statistik
- Arithmetisches Mittel: \( \bar{x} = \frac{1}{n} \sum_{i=1}^{n} x_i \)
- Median: mittlerer Wert
- Standardabweichung: \( s = \sqrt{\frac{1}{n-1} \sum_{i=1}^{n} (x_i - \bar{x})^2} \)
- Wahrscheinlichkeitsrechnung
- Grundbegriffe: Ereignis, Zufallsvariable, Wahrscheinlichkeitsfunktion
- Wahrscheinlichkeit: \( P(A) = \frac{|A|}{|\Omega|} \)
- Erwartungswert: \( E[X] = \sum_{i=1}^{n} x_i P(x_i) \)
- Varianz: \( Var(X) = E[(X - E[X])^2] \)
Datenvorverarbeitung und Bereinigung
Definition:
Prozess der Vorbereitung von Rohdaten für die Analyse, um deren Qualität und Nützlichkeit zu verbessern.
Details:
- Datenbereinigung: Entfernen von Duplikaten, Umgang mit fehlenden Werten.
- Datenumwandlung: Normalisierung, Skalierung, Kodierung.
- Fehlende Werte: \textit{Listwise Deletion}, Imputation.
- Outlier-Erkennung: Verwendung statistischer Methoden (z. B. z-Score, IQR).
- Feature-Engineering: Erstellen neuer Features, Auswahl relevanter Features.
- Datenintegration: Zusammenführen von Daten aus verschiedenen Quellen.
- Skriptbasierte Werkzeuge: pandas, NumPy in Python.
Explorative Datenanalyse
Definition:
Systematische Untersuchung von Datensätzen zur Zusammenfassungen ihrer Hauptmerkmale, oft mittels visueller Methoden.
Details:
- Ziel: Entdeckung von Mustern, Auffälligkeiten, Hypothesenbildung.
- Techniken: Beschreibende Statistiken (Mittelwert, Median, Modus), Visualisierungen (Histogramme, Streudiagramme, Boxplots).
- Werkzeuge: Python (pandas, matplotlib, seaborn), R (ggplot2).
- Datenbereinigung: Umgang mit fehlenden Werten, Ausreißern, Datenintegration.
- Transformationsmethoden: Normalisierung, Skalierung.
Einführung in Python-Syntax und grundlegende Datenstrukturen
Definition:
Grundlagen der Python-Syntax und der grundlegenden Datenstrukturen; essentiell für die Programmierung und Data-Science in der Chemie
Details:
- Kommentare: \texttt{#}
- Variablen: keine Typdeklaration notwendig, z.B. \texttt{x = 42}
- Datenstrukturen:
- Listen: \texttt{[1, 2, 3]}
- Tupel: \texttt{(1, 2, 3)}
- Dictionaries: \texttt{\{ 'key': 'value' \}}
- Mengen (Sets): \texttt{\{1, 2, 3\}}
- Kontrollstrukturen: \texttt{if}, \texttt{elif}, \texttt{else}, \texttt{for}, \texttt{while}
- Funktionen: Definieren mit \texttt{def} Schlüsselwort, z.B. \texttt{def funktion(x): return x+1}
- Ein- und Ausgabe: \texttt{input()}, \texttt{print()}
Arbeiten mit NumPy und Pandas für Datenmanipulation
Definition:
Arbeiten mit NumPy und Pandas für Datenmanipulation ist wesentlich in Data-Science, um numerische Berechnungen und Datenanalyse durchzuführen.
Details:
- NumPy: effiziente Operationen auf Arrays/Matrizen, \textbf{np.array()}, lineare Algebra, Statistik
- Pandas: leistungsstarke Datenstrukturen (Series, DataFrames) für tabellarische Daten, \textbf{pd.DataFrame()}, Datenbereinigung, -analyse
- DataFrames: Zeilen und Spalten indizierte Datenstrukturen
- Grundlegende Methoden: \textbf{head()}, \textbf{describe()}, \textbf{merge()}, \textbf{groupby()}, \textbf{pivot()}
- Datenmanipulation: Filtern, Sortieren, Aggregieren, Umformen
- Beispiele: \textbf{df.mean()}, \textbf{df['Spalte'].sum()}, \textbf{np.mean(array)}, \textbf{np.dot(a, b)}
Sortier- und Suchalgorithmen
Definition:
Sortier- und Suchalgorithmen wird verwendet, um Daten zu organisieren und effizient zu durchsuchen.
Details:
- Bubble Sort: Einfacher, aber ineffizienter Sortieralgorithmus. Vergleich benachbarter Elemente und Tauschen bei Bedarf.
- Quick Sort: Effizienter Algorithmus, teilt Liste wiederholt in Teilmengen (Partitionierung).
- Binary Search: Effizienter Suchalgorithmus für sortierte Listen. Teilt die Liste wiederholt in Hälften, um das Ziel zu finden.
- Big-O Notation: \(O(n^2)\), \(O(n \log n)\), \(O(\log n)\) gibt die Komplexität an.
Erstellung von Diagrammen und Plots mit Matplotlib
Definition:
Erstellung von Diagrammen und Plots für Datenvisualisierung in Python mit dem Matplotlib-Modul.
Details:
- Importiere das Modul:
import matplotlib.pyplot as plt
- Basisplot:
plt.plot(x, y)
- Diagramm anpassen: Titel
plt.title('Titel')
, Achsenbeschriftung plt.xlabel('X-Achse')
, plt.ylabel('Y-Achse')
- Raster hinzufügen:
plt.grid(True)
- Legende hinzufügen:
plt.legend(['Label1', 'Label2'])
- Balkendiagramm:
plt.bar(x, height)
- Histogramm:
plt.hist(data, bins)
- Scatterplot:
plt.scatter(x, y)
- Plot anzeigen:
plt.show()
Grundlagen des maschinellen Lernens und Modellbewertung
Definition:
Grundbegriffe und Methoden des maschinellen Lernens und deren Anwendung zur Evaluation und Optimierung von Modellen
Details:
- Supervised vs. Unsupervised Learning
- Trainings-, Validierungs- und Testdaten
- Überanpassung (Overfitting) und Unteranpassung (Underfitting)
- Modellevaluation: Kreuzvalidierung, Precision, Recall, F1-Score
- Fehlermetriken: MSE, MAE, RMSE
- Regularisierung: L1, L2