Praktikum Künstliche Intelligenz (BSc) - Cheatsheet
Geschichte und Evolution der KI
Definition:
Geschichte und Entwicklung der Künstlichen Intelligenz (KI) – Schlüsselereignisse, wichtige Durchbrüche, evolutionäre Schritte von den Anfängen bis heute
Details:
- 1956: Dartmouth-Konferenz, Geburtsstunde der KI
- 1960er: Entwicklung von Expertensystemen
- 1980er: Aufstieg des maschinellen Lernens
- 1997: IBM's Deep Blue besiegt Schachweltmeister Garry Kasparov
- 2000er: Durchbruch in neuronalen Netzwerken und Deep Learning
- 2012: AlexNet gewinnt ImageNet-Wettbewerb, markanter Fortschritt im Deep Learning
- 2020er: Fortschritte in NLP (z.B. GPT-3), verstärkte Nutzung von KI in Alltagstechnologien
Überwachtes und unüberwachtes Lernen
Definition:
Überwachtes Lernen: Training mithilfe gelabelter Daten. Unüberwachtes Lernen: Strukturentdeckung in ungelabelten Daten.
Details:
- Überwachtes Lernen: Ziel ist es, eine Funktion zu lernen, die Eingabedaten auf Zielwerte abbildet.
- Verwendet datengegebene Paare \(x, y\), wobei \(x\) die Eingangs- und \(y\) die Zielwerte sind.
- Klassifikation und Regression sind typische Methoden.
- Unüberwachtes Lernen: Ziel ist es, Muster oder Strukturen in den Daten zu finden.
- Keine Zielwerte \(y\) in den Daten vorhanden.
- Hauptmethoden: Clustering (z.B. k-Means) und Dimensionalitätsreduktion (z.B. PCA).
Backpropagation und Optimierungsprobleme
Definition:
Berechnung der Gradienten in neuronalen Netzen mithilfe der Kettenregel, um die Gewichte zu optimieren und den Fehler zu minimieren.
Details:
- Verlustfunktion: z.B. MSE, Kreuzentropie
- Gradientenabstieg: Gewichtsaktualisierungen bei \( w := w - \eta \frac{ \partial L}{ \partial w} \)
- Lernrate \( \eta \): Kontrolliert die Schrittgröße
- Optimierungsprobleme: Lokale Minima, Sattelpunkte, verschwindende/explodierende Gradienten
- Verbesserungen: Stochastischer Gradientenabstieg (SGD), Momentum, Adam-Optimierer
Regularisierungstechniken zur Vermeidung von Überanpassung
Definition:
Methoden zur Reduzierung von Überanpassung und Verbesserung der Generalisierungsfähigkeit von Modellen.
Details:
- L1-Regularisierung (Lasso): Hinzufügen eines Strafterms zur Verlustfunktion in Form der L1-Norm \(\lambda \sum_{i=1}^n |w_i|\)
- L2-Regularisierung (Ridge): Strafterm in Form der L2-Norm \(\lambda \sum_{i=1}^n w_i^2\)
- Dropout: Zufälliges Deaktivieren von Neuronen während des Trainings
- Datenaugmentation: Erhöhung der Trainingsdatenmenge durch zufällige Verzerrungen
- Frühes Stoppen (Early Stopping): Training wird gestoppt, wenn die Leistung auf den Validierungsdaten nicht mehr verbessert
Feature Engineering und Mustererkennung
Definition:
Prozess der Auswahl und Transformation von Variablen, um maschinelles Lernen und Erkennung zugrunde liegender Muster zu ermöglichen.
Details:
- Feature Engineering: Erstellung relevanter Merkmale aus Rohdaten.
- Transformationstechniken: Normalisierung, Standardisierung, One-Hot-Encoding.
- Mustererkennung: Identifikation und Klassifikation von Mustern in Daten.
- Verwendung von Algorithmen: z.B. K-Means, PCA.
- Ziel: Verbesserung der Modellgenauigkeit.
Algorithmen zur Datenbereinigung und -transformation
Definition:
Datenbereinigung und -transformation sind Prozesse zur Vorbereitung von Rohdaten für die Analyse. Bereinigung entfernt Fehler und Inkonsistenzen, Transformation strukturiert die Daten neu.
Details:
- Datenbereinigungstechniken: fehlende Werte (imputation, removal), Duplikate entfernen, Outlier-Detection und Korrektur
- Datentransformation: Normalisierung, Skalierung, Kodierung von kategorialen Daten
- Formel zur Normalisierung: \[ x' = \frac{(x - min(x))}{(max(x) - min(x))} \]
- Skalierung: \[ x' = \frac{x}{\sigma} \]
Frameworks und Programmierumgebungen für KI
Definition:
Entwicklung von KI-Anwendungen unter Verwendung spezialisierter Software-Frameworks und -Umgebungen.
Details:
- TensorFlow: Open-Source-Framework von Google, unterstützt tiefes Lernen und maschinelles Lernen.
- PyTorch: Open-Source-Framework von Facebook, dynamische Berechnungsgrafen und einfache Handhabung.
- Keras: Benutzerfreundliche API, läuft oberhalb von TensorFlow
- Scikit-learn: Bibliothek für maschinelles Lernen in Python, bietet einfache und effiziente Tools.
- Jupyter Notebooks: Entwicklung, Dokumentation und Ausführung von Code, speziell für Datenwissenschaft und KI.
- OpenAI Gym: Toolkit für die Entwicklung und Vergleich von Reinforcement-Learning-Algorithmen.
Integration und Pflege von KI-Systemen
Definition:
Einbindung und Wartung von KI-Systemen in bestehende IT-Infrastrukturen.
Details:
- Integration umfasst Systemanpassungen, APIs, Datenpipelines.
- Pflege umfasst Monitoring, regelmäßige Updates, Fehlerbehebung.
- Wichtige Werkzeuge: CI/CD, Containerisierung (Docker, Kubernetes), Cloud-Dienste.
- Datenverarbeitung oft mit \textit{ETL}-Prozessen (\textit{Extract, Transform, Load}).
- Monitoring-KPIs: Genauigkeit, Laufzeit, Ausfallzeiten.
- Sicherheitsaspekte: Datenschutz, Zugriffskontrollen.