Computational Visual Perception - Cheatsheet.pdf

Computational Visual Perception - Cheatsheet
Computational Visual Perception - Cheatsheet Einführung in digitale Bilder und ihre Darstellung Definition: Digitale Bilder sind Rastergrafiken, die durch Pixel dargestellt werden. Details: Rastergrafiken: Pixel in einem rechteckigen Gitter Auflösung: Anzahl der Pixel in Breite und Höhe Farbtiefe: Anzahl der Bits pro Pixel Bildformate: BMP, JPEG, PNG, etc. Transformationen: Skalierung, Rotation, T...

© StudySmarter 2024, all rights reserved.

Computational Visual Perception - Cheatsheet

Einführung in digitale Bilder und ihre Darstellung

Definition:

Digitale Bilder sind Rastergrafiken, die durch Pixel dargestellt werden.

Details:

  • Rastergrafiken: Pixel in einem rechteckigen Gitter
  • Auflösung: Anzahl der Pixel in Breite und Höhe
  • Farbtiefe: Anzahl der Bits pro Pixel
  • Bildformate: BMP, JPEG, PNG, etc.
  • Transformationen: Skalierung, Rotation, Translation
  • Komprimierung: Verlustbehaftet (JPEG) vs verlustfrei (PNG)

Bildsegmentierungsmethoden

Definition:

Methoden zur Unterteilung eines digitalen Bildes in mehrere Segmente, um bedeutungsvolle Bereiche und Objekte zu erkennen und zu analysieren.

Details:

  • Schwellwertverfahren: Segmente basierend auf Farbintensitätsschwellen identifizieren.
  • Regionenwachstum: Startet mit einem Seed-Pixel und wächst durch Hinzufügen angrenzender Pixel mit ähnlichen Eigenschaften.
  • Kantendetektion: Verwendet Filter (z.B. Sobel, Canny) zur Erkennung von Kanten und Segmentgrenzen.
  • Graph-basierte Methoden: Modelliere Segmente als Knoten eines Graphen und nutze Algorithmen wie den Minimum Cut.
  • Clustering-Verfahren: K-means, Mean Shift und andere Algorithmen zum Gruppieren ähnlicher Pixel.
  • Superpixel: Übersegmentierung des Bildes in kleine, homogene Regionen (z.B. SLIC, Felzenszwalb).
  • Maschinelles Lernen: Verwendet neuronale Netze und Deep Learning für verbesserte Segmentierung (z.B. U-Net).

Feature-Extraktion und Deskriptoren

Definition:

Extrahierung relevanter Merkmale aus Bilddaten zur Beschreibung von Objekten. Deskriptoren kodieren diese Merkmale zur späteren Verarbeitung.

Details:

  • Ziel: Reduktion der Datenmenge bei Beibehaltung relevanter Informationen.
  • Methoden der Feature-Extraktion: Kanten- und Eckendetektion (z.B. Canny, Harris), Texturmerkmale (z.B. Gabor-Filter).
  • Deskriptoren: SIFT (Scale-Invariant Feature Transform), SURF (Speeded Up Robust Features), ORB (Oriented FAST and Rotated BRIEF).
  • Wichtig für: Objekt- und Szenenerkennung, Bildregistrierung, Bewegungsverfolgung.
  • Beispiel für SIFT-Deskriptoren: \(128-dimensionaler Vektor\) durch Histogramm von Gradientenorientierungen in 4x4 Pixelblöcken.

Objekterkennung mit neuronalen Netzwerken

Definition:

Erkennung und Klassifizierung von Objekten in Bildern durch den Einsatz von tiefen neuronalen Netzwerken.

Details:

  • Architektur: Convolutional Neural Networks (CNNs) sind Standard
  • Datenvorverarbeitung: Normalisierung und Datenaugmentation
  • Layer-Typen: Convolutional Layer, Pooling Layer, Fully Connected Layer
  • Aktivierungsfunktionen: ReLU, Softmax
  • Verlustfunktion: Cross-Entropy Loss bei Klassifizierung
  • Optimierung: Stochastic Gradient Descent (SGD), Adam-Optimizer
  • Bewertung: Genauigkeit, Precision, Recall, F1-Score

Geometrische Transformationen und Perspektivwechsel

Definition:

Änderung der Koordinaten eines Bildes oder Objekts, um es aus verschiedenen Blickwinkeln und in verschiedenen Größen darzustellen.

Details:

  • Punkttransformation: Änderung der Position der Punkte im Raum
  • Translation: \((x, y) \rightarrow (x + t_x, y + t_y)\)
  • Skalierung: \((x, y) \rightarrow (sx, sy)\)
  • Rotation: \((x, y) \rightarrow (x\cos\theta - y\sin\theta, x\sin\theta + y\cos\theta)\)
  • Affine Transformation: Kombination von Translation, Skalierung, Rotation und Scherung
  • Homogene Koordinaten: \[\mathbf{p'} = \mathbf{H} \mathbf{p}\] Integration von Translationen in Matrixmultiplikation
  • Perspektivtransformation: \[\mathbf{p'} = \mathbf{P} \mathbf{p}\]
  • Betrachterposition und Blickrichtung: Definieren den Perspektivwechsel

Optische Fluss-Techniken

Definition:

Optischer Fluss: Geschwindigkeitsfeld der Bewegung von Pixeln zwischen zwei aufeinanderfolgenden Bildern; essentielle Technik zur Bewegungs- und Tiefenschätzung in der computergestützten visuellen Wahrnehmung.

Details:

  • Beschreibt Geschwindigkeit und Richtung der Bewegung in Bildsequenzen.
  • Mathematisch definiert als \(I(x,y,t) = I(x+u, y+v, t+1)\), wobei \(u, v\) die Komponenten des Flussvektors sind.
  • Wichtige Annahme: Helligkeit bleibt konstant über die Bewegung (Konstanzannahme).
  • Berechnungsmethoden:
    • Differentialmethoden: basierend auf Taylor-Reihenentwicklung z.B. Lucas-Kanade, Horn-Schunck
    • Region-basierte Methoden: basierend auf Korrelationen und Blockabgleich
  • Herausforderungen: Okklusionen, Beleuchtungsveränderungen und große Bewegung

Struktur-aus-Bewegung Techniken (SfM)

Definition:

Techniken zur Rekonstruktion einer 3D-Struktur aus einer Serie von 2D-Bildern, die aus verschiedenen Blickwinkeln aufgenommen wurden.

Details:

  • Extraktion von Merkmalspunkten (Feature Points)
  • Matcher basierend auf derselben Szene
  • Berechnung von Kameraposen
  • Triangulation zur Rekonstruktion von 3D-Punkten
  • Verwendung von Algorithmen wie dem Bundle Adjustment zur Verfeinerung der Rekonstruktion
  • Mathematisches Modell: gegeben zwei Ansichten, der epipolare Constraint
  • Projektionsmatrix: \( P = K [ R | t ] \)

Gesichtserkennung und biometrische Systeme

Definition:

Gesichtserkennung ist eine Technologie zur Identifikation oder Verifikation einer Person anhand ihres Gesichts. Biometrische Systeme verwenden physische Merkmale zur Identifikation.

Details:

  • Verwendung: Überwachung, Zugangskontrollen, Authentifizierung
  • Basis: Algorithmen zur Erkennung und Vergleich von Gesichtsmerkmalen
  • Datenerfassung: Kamera, Bildverarbeitung
  • Merkmale: Abstand zwischen Augen, Form von Nase und Mund, Gesichtsproportionen
  • Methoden: Eigenface, Fisherface, LBPH
  • Vorteile: Höhere Sicherheit, schwer zu fälschen
  • Nachteile: Datenschutzprobleme, Fehler bei schlechter Bildqualität oder Beleuchtung
  • Anwendungsgebiete: Smartphones, Sicherheitssysteme, Banken
Sign Up

Melde dich kostenlos an, um Zugriff auf das vollständige Dokument zu erhalten

Mit unserer kostenlosen Lernplattform erhältst du Zugang zu Millionen von Dokumenten, Karteikarten und Unterlagen.

Kostenloses Konto erstellen

Du hast bereits ein Konto? Anmelden