Computational Visual Perception - Cheatsheet
Einführung in digitale Bilder und ihre Darstellung
Definition:
Digitale Bilder sind Rastergrafiken, die durch Pixel dargestellt werden.
Details:
- Rastergrafiken: Pixel in einem rechteckigen Gitter
- Auflösung: Anzahl der Pixel in Breite und Höhe
- Farbtiefe: Anzahl der Bits pro Pixel
- Bildformate: BMP, JPEG, PNG, etc.
- Transformationen: Skalierung, Rotation, Translation
- Komprimierung: Verlustbehaftet (JPEG) vs verlustfrei (PNG)
Bildsegmentierungsmethoden
Definition:
Methoden zur Unterteilung eines digitalen Bildes in mehrere Segmente, um bedeutungsvolle Bereiche und Objekte zu erkennen und zu analysieren.
Details:
- Schwellwertverfahren: Segmente basierend auf Farbintensitätsschwellen identifizieren.
- Regionenwachstum: Startet mit einem Seed-Pixel und wächst durch Hinzufügen angrenzender Pixel mit ähnlichen Eigenschaften.
- Kantendetektion: Verwendet Filter (z.B. Sobel, Canny) zur Erkennung von Kanten und Segmentgrenzen.
- Graph-basierte Methoden: Modelliere Segmente als Knoten eines Graphen und nutze Algorithmen wie den Minimum Cut.
- Clustering-Verfahren: K-means, Mean Shift und andere Algorithmen zum Gruppieren ähnlicher Pixel.
- Superpixel: Übersegmentierung des Bildes in kleine, homogene Regionen (z.B. SLIC, Felzenszwalb).
- Maschinelles Lernen: Verwendet neuronale Netze und Deep Learning für verbesserte Segmentierung (z.B. U-Net).
Feature-Extraktion und Deskriptoren
Definition:
Extrahierung relevanter Merkmale aus Bilddaten zur Beschreibung von Objekten. Deskriptoren kodieren diese Merkmale zur späteren Verarbeitung.
Details:
- Ziel: Reduktion der Datenmenge bei Beibehaltung relevanter Informationen.
- Methoden der Feature-Extraktion: Kanten- und Eckendetektion (z.B. Canny, Harris), Texturmerkmale (z.B. Gabor-Filter).
- Deskriptoren: SIFT (Scale-Invariant Feature Transform), SURF (Speeded Up Robust Features), ORB (Oriented FAST and Rotated BRIEF).
- Wichtig für: Objekt- und Szenenerkennung, Bildregistrierung, Bewegungsverfolgung.
- Beispiel für SIFT-Deskriptoren: \(128-dimensionaler Vektor\) durch Histogramm von Gradientenorientierungen in 4x4 Pixelblöcken.
Objekterkennung mit neuronalen Netzwerken
Definition:
Erkennung und Klassifizierung von Objekten in Bildern durch den Einsatz von tiefen neuronalen Netzwerken.
Details:
- Architektur: Convolutional Neural Networks (CNNs) sind Standard
- Datenvorverarbeitung: Normalisierung und Datenaugmentation
- Layer-Typen: Convolutional Layer, Pooling Layer, Fully Connected Layer
- Aktivierungsfunktionen: ReLU, Softmax
- Verlustfunktion: Cross-Entropy Loss bei Klassifizierung
- Optimierung: Stochastic Gradient Descent (SGD), Adam-Optimizer
- Bewertung: Genauigkeit, Precision, Recall, F1-Score
Geometrische Transformationen und Perspektivwechsel
Definition:
Änderung der Koordinaten eines Bildes oder Objekts, um es aus verschiedenen Blickwinkeln und in verschiedenen Größen darzustellen.
Details:
- Punkttransformation: Änderung der Position der Punkte im Raum
- Translation: \((x, y) \rightarrow (x + t_x, y + t_y)\)
- Skalierung: \((x, y) \rightarrow (sx, sy)\)
- Rotation: \((x, y) \rightarrow (x\cos\theta - y\sin\theta, x\sin\theta + y\cos\theta)\)
- Affine Transformation: Kombination von Translation, Skalierung, Rotation und Scherung
- Homogene Koordinaten: \[\mathbf{p'} = \mathbf{H} \mathbf{p}\] Integration von Translationen in Matrixmultiplikation
- Perspektivtransformation: \[\mathbf{p'} = \mathbf{P} \mathbf{p}\]
- Betrachterposition und Blickrichtung: Definieren den Perspektivwechsel
Optische Fluss-Techniken
Definition:
Optischer Fluss: Geschwindigkeitsfeld der Bewegung von Pixeln zwischen zwei aufeinanderfolgenden Bildern; essentielle Technik zur Bewegungs- und Tiefenschätzung in der computergestützten visuellen Wahrnehmung.
Details:
- Beschreibt Geschwindigkeit und Richtung der Bewegung in Bildsequenzen.
- Mathematisch definiert als \(I(x,y,t) = I(x+u, y+v, t+1)\), wobei \(u, v\) die Komponenten des Flussvektors sind.
- Wichtige Annahme: Helligkeit bleibt konstant über die Bewegung (Konstanzannahme).
- Berechnungsmethoden:
- Differentialmethoden: basierend auf Taylor-Reihenentwicklung z.B. Lucas-Kanade, Horn-Schunck
- Region-basierte Methoden: basierend auf Korrelationen und Blockabgleich
- Herausforderungen: Okklusionen, Beleuchtungsveränderungen und große Bewegung
Struktur-aus-Bewegung Techniken (SfM)
Definition:
Techniken zur Rekonstruktion einer 3D-Struktur aus einer Serie von 2D-Bildern, die aus verschiedenen Blickwinkeln aufgenommen wurden.
Details:
- Extraktion von Merkmalspunkten (Feature Points)
- Matcher basierend auf derselben Szene
- Berechnung von Kameraposen
- Triangulation zur Rekonstruktion von 3D-Punkten
- Verwendung von Algorithmen wie dem Bundle Adjustment zur Verfeinerung der Rekonstruktion
- Mathematisches Modell: gegeben zwei Ansichten, der epipolare Constraint
- Projektionsmatrix: \( P = K [ R | t ] \)
Gesichtserkennung und biometrische Systeme
Definition:
Gesichtserkennung ist eine Technologie zur Identifikation oder Verifikation einer Person anhand ihres Gesichts. Biometrische Systeme verwenden physische Merkmale zur Identifikation.
Details:
- Verwendung: Überwachung, Zugangskontrollen, Authentifizierung
- Basis: Algorithmen zur Erkennung und Vergleich von Gesichtsmerkmalen
- Datenerfassung: Kamera, Bildverarbeitung
- Merkmale: Abstand zwischen Augen, Form von Nase und Mund, Gesichtsproportionen
- Methoden: Eigenface, Fisherface, LBPH
- Vorteile: Höhere Sicherheit, schwer zu fälschen
- Nachteile: Datenschutzprobleme, Fehler bei schlechter Bildqualität oder Beleuchtung
- Anwendungsgebiete: Smartphones, Sicherheitssysteme, Banken