AI Project: Computational Visual Perception - Cheatsheet
Segmentierte Bildverarbeitung: Filtern, Segmentierung, Rauschunterdrückung
Definition:
Details:
- Filtern: Anwendungen wie Glättung, Kantendetektion; relevante Filter: Median, Gaussian, Sobel.
- Segmentierung: Trennung interessanter Objekte im Bild; Methoden: Schwellenwertverfahren, Region-Growing, Clustering.
- Rauschunterdrückung: Entfernen von Bildrauschen zur Verbesserung der Bildqualität; Techniken: Medianfilter, Wiener-Filter, Bilateraler Filter.
Deep Learning Architekturen: CNNs und deren Anwendungen
Definition:
Convolutional Neural Networks (CNNs) sind spezialisierte Deep Learning-Architekturen, die besonders effektiv bei der Verarbeitung von Bilddaten sind. Sie nutzen Faltungsoperationen, um Merkmale in Bildern zu erkennen.
Details:
- Convolutional Layer: Wendet Faltungen an, um Merkmale zu extrahieren. Wichtige Hyperparameter: Kernel-Größe, Stride, Padding.
- Pooling Layer: Reduziert die Dimensionalität der Merkmale durch Operationen wie Max-Pooling oder Average-Pooling.
- Fully Connected Layer: Verbinden alle Neuronen, ähnlich wie in einem klassischen neuronalen Netzwerk, zur Klassifikation.
- Aktivierungsfunktionen: ReLU oft verwendet, um Nicht-Linearitäten einzuführen.
- Anwendungen: Bildklassifikation, Objekterkennung, Segmentierung, Stiltransfer, Bilderzeugung.
- Wichtige CNN-Architekturen: LeNet, AlexNet, VGG, ResNet, Inception
Hyperparameter-Tuning und Optimierungsalgorithmen im maschinellen Lernen
Definition:
Auswahl und Anpassung der Hyperparameter eines maschinellen Lernmodells zur Verbesserung der Leistung.
Details:
- Hyperparameter: Parameter, die nicht während des Trainings gelernt werden (z.B. Lernrate, Batch-Größe).
- Optimierungsalgorithmen: Methoden zum Finden der besten Hyperparameter-Einstellungen (z.B. Grid Search, Random Search, Bayesian Optimization).
- Grid Search: Systematisches Durchsuchen eines definierten Hyperparameter-Raums.
- Random Search: Zufälliges Probieren von Hyperparameter-Kombinationen.
- Bayesian Optimization: Nutzen von vorherigen Ergebnissen zur informierten Auswahl neuer Hyperparameter.
- Ziel: Minimierung der Fehlerrate oder Maximierung der Modellgenauigkeit.
Feature-Deskriptoren: SIFT, SURF und deren Anwendungsfälle
Definition:
Feature-Deskriptoren wie SIFT (Scale-Invariant Feature Transform) und SURF (Speeded-Up Robust Features) werden verwendet, um charakteristische Punkte in Bildern zu identifizieren und zu beschreiben.
Details:
- SIFT: robust gegenüber Skalierungen, Translationen und Rotationen
- SURF: schneller als SIFT, aber ähnliche Robustheit
- Anwendungsfälle: Objekterkennung, Bildstitching, 3D Rekonstruktion, Bewegungsanalyse
- Mathematisch: SIFT verwendet Difference-of-Gaussian (DoG) für die Skalierung und Lokalisierung von Schlüssel-Punkten, während SURF Integralbilder für die Geschwindigkeit verwendet
- Beide Methoden berechnen Merkmalsvektoren basierend auf Gradientenorientierungen
Klassifikations- und Regressionsmethoden im überwachten Lernen
Definition:
Methoden zur Vorhersage von Kategorien (Klassifikation) oder numerischen Werten (Regression) basierend auf gelabelten Trainingsdaten.
Details:
- Überwachtes Lernen: Modelltraining mit Eingabe-Ausgabe-Paaren.
- Klassifikation: Zuordnung von Eingaben zu Kategorien, z.B. Entscheidungsbäume, SVM.
- Regression: Vorhersage kontinuierlicher Werte, z.B. Lineare Regression, Random Forest.
- Loss-Funktionen: Klassifikation - Kreuzentropie, Regression - Mean Squared Error (MSE).
- Evaluation: Klassifikation - Genauigkeit, F1-Score; Regression - R^2, RMSE.
- Grundlagen: Datensammlung, Vorverarbeitung, Modellwahl, Training, Evaluierung.
Transfer Learning: Nutzung vortrainierter Modelle
Definition:
Verwendung bereits trainierter Modelle, um sie auf neuen, aber ähnlichen Aufgaben zu nutzen.
Details:
- Schnellere Trainingszeiten durch bereits gelernte Merkmale.
- Reduzierte Datenanforderungen, da das Modell bereits vortrainiert ist.
- Beschleunigt Konvergenz und verbessert Genauigkeit.
- Häufig in der Bild- und Spracherkennung verwendet.
- Hauptansatz: Feintuning eines vortrainierten Modells.
- Typische Frameworks: TensorFlow, PyTorch.
Kanten- und Eckdetektion zur Merkmalsextraktion
Definition:
Erkennung von Signifikanten Kanten und Ecken in Bildern zur Extraktion von wichtigen Bildmerkmalen
Details:
- Kanten: Bereiche mit hohen Intensitätsänderungen
- Hauptmethoden: Sobel-Operator, Canny-Algorithmus
- Sobel-Operator: Berechnung des Gradienten \[ G = \sqrt{(G_x^2 + G_y^2)} \]
- Canny-Algorithmus: Mehrstufiger Prozess bestehend aus Rauschreduzierung, Gradientenberechnung, Non-Maximum Suppression und Schwellenwertbildung
- Ecken: Punkte, an denen sich zwei Kanten treffen
- Harris-Eckendetektor: Basierend auf der zweiten Ableitung der Bildintensität, Harris-Matrix \[ M = \sum w(i,j) \begin{bmatrix} I_x^2 & I_x I_y \ \ I_x I_y & I_y^2 \end{bmatrix} \]
- Anwendungen: Merkmalsextraktion für Mustererkennung, Bildverarbeitung, Computer Vision
Bildverarbeitungsanwendungen: Medizin und Überwachung
Definition:
Anwendungen der Bildverarbeitung in den Bereichen Medizin und Überwachung; konzentriert sich auf die Verwendung von Algorithmen zur Analyse und Interpretation von Bildern.
Details:
- Medizinische Bildverarbeitung: CT, MRT, Röntgen für Diagnose und Behandlung.
- Überwachung: Einsatz von Kameras und Algorithmen zur Gesichtserkennung, Objekterkennung und Bewegungsanalyse.
- Bildvorverarbeitung: Rauschunterdrückung, Kontrastverbesserung.
- Segmentierung: Trennung von relevanten Bildbereichen zur Analyse.
- Merkmalserkennung: Spezifische Muster oder Anomalien identifizieren.
- Deep Learning: Nutzung von CNNs zur automatisierten Bilderkennung und Diagnose.