Computational Visual Perception - Cheatsheet
Grundlagen der digitalen Bilddarstellung
Definition:
Digitale Bilder werden durch diskrete Werte (Pixel) repräsentiert. Jeder Pixel enthält Farb- oder Helligkeitsinformationen und wird durch Koordinaten in einem Raster angeordnet.
Details:
- Pixeldarstellung: Raster von Bildpunkten
- Farbräume: RGB, CMYK, YUV
- Bittiefe: Anzahl der Bits pro Pixel (z.B. 8 Bit, 24 Bit)
- Bildauflösung: Anzahl der Pixel in Höhe und Breite (z.B. 1920x1080)
- Kompression: verlustbehaftet (JPEG) vs. verlustfrei (PNG)
- Bildformate: BMP, GIF, JPEG, PNG
- Filter und Transformationen: z.B. Fourier-Transformation
- Bildmetadaten: Informationen über das Bild (EXIF)
Bildvorverarbeitungsmethoden wie Filterung und Normalisierung
Definition:
Bildvorverarbeitungstechniken zur Verbesserung und Vorbereitung von Bildern für weitere Analysen.
Details:
- Filterung: Anwendung von Filtern zur Rauschreduzierung und Kantenerkennung.
- Beispiele: Tiefpassfilter, Hochpassfilter, Medianfilter.
- Normalisierung: Anpassung der Helligkeits- und Kontrastwerte, um Bilder zu standardisieren.
- Mathematisch: \(\frac{x - \text{min}(x)}{\text{max}(x) - \text{min}(x)}\) für Skalierung auf [0, 1].
Feature-Extraktion und -Selektion
Definition:
Prozess zur Identifikation und Auswahl relevanter Merkmale aus Bilddaten für maschinelle Lernmodelle.
Details:
- Feature-Extraktion: Umwandlung von Rohdaten in messbare Informationen.
- Techniken: SIFT, SURF, HOG, Farb- und Texturanalyse.
- Feature-Selektion: Auswahl der wichtigsten Merkmale zur Reduzierung der Modellkomplexität.
- Methoden: Filter (wie Chi-Quadrat), Wrapper (wie RFE), Embedded (wie Lasso).
- Ziel: Verbesserung der Modellleistung und Reduktion von Overfitting.
Verwendung von Klassifikatoren wie k-NN, SVM und neuronalen Netzen
Definition:
Verwendung von Klassifikatoren wie k-NN, SVM und neuronalen Netzen in der Vorlesung Computational Visual Perception ein zentraler Aspekt zur Lösung von Klassifikationsaufgaben.
Details:
- \textbf{k-NN (k-Nearest Neighbors)}: Einfache Methode zur Klassifikation basierend auf Ähnlichkeit ohne explizites Modell.
- \textit{Hauptidee}: Klassifiziere ein Beispiel basierend auf den Klassen der k nächsten Nachbarn im Merkmalsraum.
- \textit{Vor- und Nachteile}: Einfach zu implementieren, aber rechenaufwändig für große Datensätze.
- \textbf{SVM (Support Vector Machines)}: Findet die optimale Trennlinie (Hyperebene) im Merkmalsraum, die die Datenklassen trennt.
- \textit{Hauptidee}: Maximierung des Abstands (Margin) zwischen den nächsten Punkten beider Klassen.
- \textit{Kernel-Trick}: Transformation der Eingangsdaten in einen höherdimensionalen Raum zur besseren Trennung.
- \textbf{Neuronale Netze (NN)}: Modellieren komplexer nichtlinearer Beziehungen durch Schichten von Neuronen.
- \textit{Hauptidee}: Verwendung von gewichteten Verbindungen und Aktivierungsfunktionen zur Mustererkennung.
- \textit{Deep Learning}: Mehrere Schichten (Tiefenstrukturen) führen zu höherer Modellkapazität und flexiblerem Lernen.
Tiefenschätzung und 3D-Rekonstruktion
Definition:
Schätzung der Tiefe in einem Bild und Rekonstruktion einer dreidimensionalen Struktur aus zweidimensionalen Bilddaten.
Details:
- Methoden: Stereovision, Tiefenkameras, Struktur aus Bewegung (SfM).
- Grundformel für Tiefenschätzung: \[d = \frac{f \times B}{x_l - x_r}\]
- Kalibrierung von Kameras notwendig (intrinsische und extrinsische Parameter).
- Triangulation zur Berechnung der 3D-Punkte
- Fehlerquellen: Bildrauschen, unzureichende Textur, schlechte Kalibrierung.
- Anwendung: Robotik, autonome Fahrzeuge, AR/VR.
Mathematische Morphologie
Definition:
Mathematische Morphologie: Theorie zur Analyse und Verarbeitung geometrischer Strukturen in Bilddaten basierend auf Mengenoperationen.
Details:
- Grundoperationen: Dilatation, Erosion, Öffnung, Schließung
- Dilatation: \( A \oplus B = \bigcup_{b \in B} A_b \), erweitert Mengen um Struktur-Element.
- Erosion: \( A \ominus B = \{ z \in E | B_z \subseteq A \} \), verkleinert Mengen um Struktur-Element.
- Öffnung: \( A \circ B = (A \ominus B) \oplus B \), glättet Konturen, entfernt kleine Objekte.
- Schließung: \( A \bullet B = (A \oplus B) \ominus B \), glättet Konturen, füllt kleine Lücken.
Modellierung der menschlichen visuellen Wahrnehmung
Definition:
Modellierung der menschlichen visuellen Wahrnehmung in Computational Visual Perception beschäftigt sich mit der Nachbildung der Prozesse, die das menschliche Gehirn bei der Verarbeitung visueller Informationen durchläuft.
Details:
- Modelle basieren auf neurobiologischen Erkenntnissen
- Berücksichtigen neuronale und kognitive Prozesse
- Anwendung: Bildverarbeitung, maschinelles Sehen
- Verwendung von Algorithmen zur Simulation visueller Wahrnehmungsprozesse
- Zentrale Konzepte: Retina, visuelle Kortexverarbeitung, Tiefenwahrnehmung
- Mathematische Modellierung: z.B. Convolutional Neural Networks (CNNs), Fourier-Transformationen
- Performance Metriken: Genauigkeit, Konsistenz mit menschlicher Wahrnehmung
Sensoren und ihre Charakteristika
Definition:
Sensoren wandeln physikalische Größen in elektrische Signale um.
Details:
- Beispiel für physikalische Größen: Licht, Temperatur, Druck
- Wichtige Charakteristika: Sensitivität, Genauigkeit, Auflösung, Dynamikbereich
- Sensitivität: Änderung des Sensorsignals pro Änderung der Messgröße \( \frac{ \triangle y }{ \triangle x } \)
- Genauigkeit: Abweichung des Messwertes vom tatsächlichen Wert
- Auflösung: Kleinste messbare Änderung der Messgröße
- Dynamikbereich: Bereich der Messwerte, innerhalb dessen der Sensor genau arbeitet