Seminar - Cheatsheet
Geschichte und Entwicklung der Künstlichen Intelligenz
Definition:
Geschichte und Entwicklung der KI: Evolution von symbolischer KI, neuronalen Netzen zu Deep Learning.
Details:
- 1956: Geburtsjahr der KI (Dartmouth-Konferenz)
- Symbolische KI und Expertensysteme (1950er-1980er)
- Erste KI-Winter (1970er und 1980er Jahre)
- Aufstieg neuronaler Netze und Machine Learning (1980er-2000er)
- Erfolge im Deep Learning durch GPU-Verbesserungen und Big Data (2010er)
- Aktuelle Trends: Reinforcement Learning, Explainable AI, Selbstüberwachtes Lernen
Überwachte und unüberwachte Lernmethoden im Machine Learning
Definition:
Überwachte (supervised) und unüberwachte (unsupervised) Lernmethoden sind die Hauptkategorien im Machine Learning; überwachte Lernmethoden benötigen gelabelte Trainingsdaten, unüberwachte Lernmethoden nicht.
Details:
- Überwachtes Lernen:
- Trainingsdaten mit bekannten Labels.
- Ziel: Modellierung der Beziehung zwischen Eingaben und Ausgaben.
- Beispiele: Lineare Regression, Entscheidungsbäume, Neuronale Netze.
- Unüberwachtes Lernen:
- Keine gelabelten Daten.
- Ziel: Muster und Strukturen in den Daten finden.
- Beispiele: K-Means Clustering, Principal Component Analysis (PCA), Anomalieerkennung.
- Wesentliche Unterschiede:
- Label-Verfügbarkeit bei Trainingsdaten.
- Ziele der Datenanalyse und -modellerstellung.
Verteilte Datenverarbeitungssysteme (Hadoop und Spark)
Definition:
Verteilte Datenverarbeitungssysteme wie Hadoop und Spark sind Software-Frameworks zur Verarbeitung und Analyse von großen Datenmengen verteilt über viele Computer in einem Cluster.
Details:
- Hadoop: Open-Source-Framework, basiert auf dem MapReduce-Algorithmus.
- Spark: Schnelleres In-Memory-Verarbeitungsframework, bietet APIs in Scala, Java, Python und R.
- Hadoop-Komponenten: HDFS (Hadoop Distributed File System) und YARN (Yet Another Resource Negotiator).
- Spark-Komponenten: Spark Core, Spark SQL, Spark Streaming, MLlib (Machine Learning Library), GraphX.
- HDFS: Blockspeicherung, Replikation zur Ausfallsicherheit.
- YARN: Ressourcenmanagement, Job Scheduling.
- MapReduce: Verteilte Berechnung in zwei Phasen – Mapping und Reducing.
- RDD (Resilient Distributed Dataset): Zentrales Konzept in Spark für fehlertolerante verteilte Daten.
- Spark optimiert durch DAG (Directed Acyclic Graph) und In-Memory Verarbeitung.
Objekterkennung in der Computervision
Definition:
Automatische Identifikation und Klassifikation von Objekten in Bildern oder Videos.
Details:
- Verwendung von Algorithmen und Modellen wie CNNs.
- Bestandteile: Merkmalsextraktion, Klassifizierung.
- Verfahren: Region Proposal Networks (RPN), YOLO, SSD.
- Loss-Funktion häufig: Kreuzentropie-Verlust \[ L_{CE} = - \sum (y \log(\hat{y})) \]
- Wichtige Metriken: Genauigkeit, Präzision, Recall.
Fortgeschrittene ML-Konzepte wie Deep Learning und Reinforcement Learning
Definition:
Fortgeschrittene ML-Konzepte, die darauf abzielen, komplexe Muster zu erkennen und Entscheidungen zu optimieren.
Details:
- Deep Learning (DL): Einsatz mehrschichtiger neuronaler Netze (NN) zur Erkennung komplexer Muster und Merkmale.
- Neuronale Netze: Funktionseinheiten in Schichten organisiert.
- Aktivierungsfunktion: Bsp. Sigmoid, Tanh, ReLU.
- Optimierung: Gradient Descent, Backpropagation.
- Frameworks: TensorFlow, PyTorch.
- Reinforcement Learning (RL): Trainingsmethode basierend auf Belohnungen und Bestrafungen.
- Agent: Entscheidungsinstanz.
- Umgebung: Das zu steuernde System.
- Policy: Strategie der Entscheidungsfindung.
- \textit{Q-Learning:} Off-policy RL-Algorithmus zur Bestimmung optimaler Aktionen.
- Belohnung (Reward): Feedback Mechanismus, z.B. Gewinn.
- Markov-Entscheidungsprozess: Mathematisches Modell zur Entscheidungsfindung.
Ethische und gesellschaftliche Auswirkungen von KI
Definition:
Untersucht, wie KI-Technologien ethische Grundsätze und soziale Strukturen beeinflussen.
Details:
- Bias und Diskriminierung: KI-Systeme können vorhandene Vorurteile verstärken.
- Transparenz: Erklärbarkeit und Nachvollziehbarkeit von KI-Entscheidungen.
- Arbeitsmarkt: Automatisierung kann zu Arbeitsplatzverlusten und neuen Jobprofilen führen.
- Privatsphäre: Umgang mit sensiblen persönlichen Daten.
- Sicherheit: Risiken durch fehlerhafte oder missbräuchlich verwendete KI-Systeme.
Datenanalyse- und Visualisierungstechniken bei Big Data
Definition:
Techniken zur Analyse und Visualisierung großer Mengen von Daten, um Muster, Trends und Erkenntnisse zu extrahieren, die zur Entscheidungsfindung genutzt werden können.
Details:
- Technologien: Hadoop, Spark, NoSQL-Datenbanken
- Analytische Methoden: Machine Learning, Data Mining, statistische Analyse
- Visualisierungstools: Tableau, Power BI, D3.js
- Verwendung von Algorithmen wie k-Means, Decision Trees und Neural Networks
- Datenvorverarbeitung: Bereinigung, Transformation, Reduktion
- Skalierbare Datenverarbeitung mithilfe von verteilten Systemen
- Nutzung von \texttt{matplotlib}, \texttt{seaborn}, und \texttt{plotly} für Visualisierungen in Python
Bewegungserkennung und -verfolgung in der Computervision
Definition:
Bewegungserkennung und -verfolgung analysiert Sequenzen von Bildern oder Videodaten, um Bewegungen zu erkennen und Objekte zu verfolgen.
Details:
- Erkennung von Bewegungsvektoren und Veränderungen mithilfe von Algorithmen wie Optical Flow und Frame Differencing
- Verfolgungstechniken wie Kalman-Filter, Particle-Filter und Multiple Hypothesis Tracking (MHT)
- Verwendung neuronaler Netze zur Verbesserung der Genauigkeit
- Anwendungen: Überwachung, autonome Fahrzeuge, Sportanalysen
- Wichtige Metriken: Genauigkeit, Rechenzeit, Robustheit gegenüber Störungen