Computer vision - Cheatsheet
Rauschunterdrückung und Bildglättung
Definition:
Rauschunterdrückung: Reduzierung von Bildrauschen. Bildglättung: Verringerung von Unregelmäßigkeiten in Bildern.
Details:
- Rauschunterdrückung: Anwendung von Filtertechniken zur Verringerung von zufälligem Bildrauschen
- Gängige Filter: Medianfilter, Gauß-Filter
- Bildglättung: Verwendung von Methoden zur Reduktion von hoher Frequenzkomponenten
- Wichtige Methoden: Low-pass Filter
- Mathematische Grundlagen: Faltungstheorie, Fourier-Transformation
- Gauß-Filter: \[\text{G}(x,y) = \frac{1}{2\pi\sigma^2} e^{-\frac{x^2 + y^2}{2\sigma^2}}\]
- Medianfilter: Ersatz eines jeden Pixels durch den Median der Nachbarschaft
Kantendetektionen (wie Canny und Sobel)
Definition:
Erkennung und Hervorhebung von Kanten in Bildern.
Details:
- Sobel: Berechnet Gradienten in horizontaler und vertikaler Richtung
- Verwendet Sobel-Operatoren: \[ G_x = \begin{bmatrix} -1 & 0 & 1 \ -2 & 0 & 2 \ -1 & 0 & 1 \end{bmatrix}, G_y = \begin{bmatrix} -1 & -2 & -1 \ 0 & 0 & 0 \ 1 & 2 & 1 \end{bmatrix} \]
- Canny: Mehrstufiger Algorithmus (1. Glättung, 2. Gradientenberechnung, 3. Non-Maximum-Suppression, 4. Doppel-Schwellenwert)
- Enthält die Schritte: Rauschentfernung mit Gaussian-Filter, Sobel-Berechnung, dünne Kanten hervorheben, Schwellenwertmethode zur Kantensegmentierung
SIFT und SURF Merkmale für Merkmalsextraktion
Definition:
SIFT und SURF sind Algorithmen zur Merkmalsextraktion in der Bildverarbeitung.
Details:
- SIFT: Skaleninvariante Merkmals-Transformation
- Detektion von Schlüsselpunkten (keypoints)
- Berechnung von Deskriptoren: Histograms of Gradient Orientations
- Invariant gegen Skalierung und Rotation
- SURF: Speeded-Up Robust Features
- Schneller als SIFT
- Verwendet Hessian-Matrix zur Schlüsselpunktdetektion
- Berechnung des Deskriptors mittels Haar-Wavelets
- Invarianz gegen Skalierung und Rotation
Convolutional Neural Networks (CNNs) zur Objekterkennung
Definition:
Convolutional Neural Networks (CNNs) sind eine spezielle Klasse von künstlichen neuronalen Netzen, die besonders gut für die Verarbeitung von Bilddaten geeignet sind. Sie werden häufig zur Objekterkennung verwendet.
Details:
- Kernkomponenten: Faltungs- und Pooling-Schichten
- Faltungsschicht (Conv Layer): Anwenden von Filtern/Kernels, um Merkmale zu extrahieren
- Pooling-Schicht (meist Max-Pooling): Reduzierung der dimensionalen Daten, Erhöhung der Rechenleistungseffizienz
- Aktivierungsfunktion: ReLU (Rectified Linear Unit), um Nicht-Linearitäten einzuführen
- Architektur: Typische architekturen wie LeNet, AlexNet, VGG, ResNet
- Backpropagation: Gewichtsaktualisierung durch Fehlerausbreitung
- Verlustfunktion: Meist Cross-Entropy-Loss bei Klassifizierungsproblemen
- Mathematische Notationen: \textit{Faltung} als diskrete Kreuzkorrelation: \[ (I*K)(x, y) = \sum_{u} \sum_{v} I(u, v) K(x-u, y-v) \] \textit{Pooling-Funktion}: \[ P_{max}(i, j) = \max_{m, n \in R(i, j)} I(m, n) \]
Super-Resolution-Algorithmen in der Bildrekonstruktion
Definition:
Verfahren zur Verbesserung der räumlichen Auflösung von Bildern durch Einsatz verschiedener mathematischer und algorithmischer Techniken.
Details:
- Ziel: Verbesserung der Bildqualität und Detailgenauigkeit
- Methoden:
- Interpolationstechniken (bicubic, bilinear)
- Modellbasierte Ansätze (Sparse Coding, Markov Random Fields)
- Tiefes Lernen (CNN, GAN)
- Beispiele: Single Image Super-Resolution (SISR), Multi-Frame Super-Resolution (MFSR)
- Metriken: Peak Signal-to-Noise Ratio (PSNR), Structural Similarity Index (SSIM)
- Anwendungen: Medizinische Bildgebung, Satellitenbilder, Überwachungskameras, Fotografie
Unüberwachtes Lernen in der Computer Vision
Definition:
Unüberwachtes Lernen: keine gelabelten Daten; Algorithmen entdecken Muster/Strukturen.
Details:
- Clustering: Datenpunkte in Gruppen einteilen (z.B. k-means)
- Dimensionalitätsreduktion: Daten visualisieren/vereinfachen (z.B. PCA)
- Feature Learning: Extraktion relevanter Merkmale (z.B. Autoencoder)
- Wichtige Algorithmen: GANs, Variational Autoencoders
Transfer Learning für spezialisierte Aufgaben
Definition:
Transfer Learning bezieht sich auf das Wiederverwenden eines vortrainierten Modells für eine neue, verwandte Aufgabe. Spart Trainingszeit, besonders nützlich bei begrenzten Daten.
Details:
- Modell auf großer, verwandter Datensatz vortrainieren
- Feintuning auf spezieller Aufgabe mit spezifischen Daten
- Netzwerkstruktur oft teilweise eingefroren
- Verringert Overfitting durch Nutzung vorhandener Features
- Wichtige Methode in Computer Vision: CNNs und ResNet
- Erhöht Modellgenauigkeit und -effizienz
Anwendungen von Computer Vision in selbstfahrenden Autos
Definition:
Verwendung von Computer-Vision-Algorithmen und -Techniken zur Wahrnehmung, Analyse und Interpretation der Umgebung von autonomen Fahrzeugen.
Details:
- Objekterkennung: Identifizierung und Klassifizierung von Fußgängern, Fahrzeugen, Verkehrsschildern und Fahrbahnmarkierungen.
- SLAM (Simultaneous Localization and Mapping): Echtzeit-Bestimmung der Fahrzeugposition und Kartenerstellung der Umgebung.
- Spurerkennung: Erkennung und Verfolgung von Fahrspuren zur Fahrbahnhaltung.
- Tiefenwahrnehmung: Verwendung von Stereo-Kameras oder LIDAR zur Ermittlung von Distanzen zu Objekten.
- Optischer Fluss: Bestimmung der Bewegungsrichtung und -geschwindigkeit von Objekten.