AI Project: Computational Visual Perception - Exam.pdf

AI Project: Computational Visual Perception - Exam
AI Project: Computational Visual Perception - Exam Aufgabe 1) In einem Bildverarbeitungsprojekt sollst Du ein Röntgenbild analysieren. Dazu ist es notwendig, verschiedene vorverarbeitende und segmentierende Methoden anzuwenden, um eine klare und rauschfreie Bilddarstellung der Knochenstruktur zu erreichen. Das Ziel ist es, die Qualität des Bildes soweit zu verbessern, dass Folgeschritte zur Knoche...

© StudySmarter 2025, all rights reserved.

AI Project: Computational Visual Perception - Exam

Aufgabe 1)

In einem Bildverarbeitungsprojekt sollst Du ein Röntgenbild analysieren. Dazu ist es notwendig, verschiedene vorverarbeitende und segmentierende Methoden anzuwenden, um eine klare und rauschfreie Bilddarstellung der Knochenstruktur zu erreichen. Das Ziel ist es, die Qualität des Bildes soweit zu verbessern, dass Folgeschritte zur Knochenbruchanalyse zuverlässig durchführbar sind. Um die Aufgabe zu bewältigen, sind folgende Schritte nötig: Filtern, Segmentierung und Rauschunterdrückung.

a)

a) Filtern: Beschreibe, wie Du durch Filtern mit einem Medianfilter und einem Sobel-Filter die Röntgenbilder verbessern kannst. Erkläre detailliert ihre Funktionsweise und erörtere die Vor- und Nachteile dieser Filter. Wende die Filter nacheinander an und erläutere ihre Auswirkungen auf das Bild.

code-placeholder-pythondef median_filter(image):    # Median-Filter implementieren    pass def sobel_filter(image):    # Sobel-Filter implementieren    pass

Lösung:

  • Medianfilter: Der Medianfilter wird verwendet, um Rauschen im Bild zu reduzieren. Er funktioniert, indem er jedes Pixel im Bild durch den Medianwert der benachbarten Pixel ersetzt. Die Fenstergröße (z.B. 3x3, 5x5) bestimmt die Anzahl der Nachbarpixel, die in die Berechnung einbezogen werden.
    • Funktionsweise: Für jedes Pixel im Bild:
      • Extrahiere die Nachbarpixel innerhalb der gewählten Fenstergröße.
      • Sortiere diese Nachbarpixel nach ihrem Wert.
      • Ersetze den ursprünglichen Pixelwert durch den Medianwert dieser sortierten Liste.
    • Vorteile:
      • Effektiv bei der Unterdrückung von Salz-und-Pfeffer-Rauschen.
      • Erhält Kanten besser als manche andere Glättungsfilter wie der Mittelwertfilter.
    • Nachteile:
      • Kann bei hohem Rauschen dazu führen, dass feine Details verloren gehen.
      • Relativ rechenintensiv, insbesondere bei großen Bildern und großen Fenstergrößen.
  • Sobel-Filter: Der Sobel-Filter ist ein Kantenverstärkungsfilter, der Kanten im Bild durch Berechnung von Gradienten in horizontaler und vertikaler Richtung erkennt.
    • Funktionsweise:
      • Verwende zwei 3x3 Kernels (einen für die horizontale Richtung und einen für die vertikale Richtung).
      • Falte beide Kernels separat über das Bild.
      • Kombiniere die Ergebnisse der beiden Faltungen, um die Stärke und Richtung der Kanten zu bestimmen.
    • Vorteile:
      • Erkennt Kanten effektiv und ist empfindlich gegenüber Rauschen.
      • Kann vertikale und horizontale Kanten getrennt behandeln.
    • Nachteile:
      • Empfindlich gegenüber Rauschen, was zu falschen Kanten führen kann.
      • Kann Details verlieren, wenn das Bild stark geglättet wurde oder rauschgefiltert ist.
  • Anwendung in Kombination:
    • Wende zuerst den Medianfilter an, um das Rauschen zu reduzieren.
    • Anschließend wird der Sobel-Filter angewendet, um die Kanten im Bild zu ermitteln.
    • Durch die Kombination beider Filter erhält man ein rauscharmes Bild, bei dem die Kanten gut hervorgehoben sind.
def median_filter(image):    # Implementiere den Median-Filter    passdef sobel_filter(image):    # Implementiere den Sobel-Filter    pass

b)

b) Segmentierung: Nach dem Filtern musst Du die Knochenstrukturen segmentieren. Erläutere ein Schwellenwertverfahren, das Du zur Segmentierung des Bildes verwenden könntest. Wie wählst Du den geeigneten Schwellenwert für diese Aufgabe aus? Beschreibe die Schritte und wende die Methode auf das gefilterte Bild an. Ergänze Deine Lösung durch entsprechende Mathematik und Formel zur Bestimmung des Schwellenwertes.

code-placeholder-pythondef threshold_segmentation(image, threshold):    # Schwellenwertverfahren implementieren    pass

Lösung:

  • Segmentierung: Nach dem Filtern des Röntgenbildes ist der nächste Schritt die Segmentierung, um die Knochenstrukturen vom Hintergrund zu trennen. Eine einfache und effektive Methode zur Segmentierung ist das Schwellenwertverfahren.
  • Schwellenwertverfahren:
    • Beschreibung: Das Schwellenwertverfahren verwendet eine feste Grenze (den Schwellenwert), um festzulegen, welche Pixel zur Knochenstruktur gehören und welche zum Hintergrund.
    • Mathematische Formulierung:
      • Sei I(x, y) die Intensität des Pixels an der Position (x, y).
      • Alle Pixel, für die gilt:\[ I(x, y) \geq T \]werden der Knochenstruktur zugeordnet.
      • Alle anderen Pixel, für die gilt:\[ I(x, y) < T \]werden dem Hintergrund zugeordnet.
      • Das resultierende Bild S(x, y) wird folgendermaßen definiert:
        \[ S(x, y) = \begin{cases} 1, & \text{wenn } I(x, y) \geq T \ 0, & \text{wenn } I(x, y) < T \end{cases} \]
    • Auswahl des geeigneten Schwellenwertes T:
      • Ein manuelles Verfahren ist möglich, bei dem das Histogramm des Bildes analysiert wird, um einen geeigneten Schwellenwert visuell auszuwählen.
      • Ein automatisches Verfahren ist die Otsu-Methode, die den Schwellenwert so bestimmt, dass die Varianz zwischen den Pixelklassen (Knochenstruktur und Hintergrund) maximiert wird.
    • Otsu's Methode:
      • Berechne das Histogramm des Bildes und die Wahrscheinlichkeiten der Intensitätswerte.
      • Bestimme für jeden möglichen Schwellenwert T die zwischenklassen Varianz:\[ \sigma_B^2(T) = P_0(T)P_1(T)[\mu_0(T) - \mu_1(T)]^2 \]Hier sind:
        • \(P_0(T)\) und \(P_1(T)\) die Wahrscheinlichkeiten der beiden Klassen.
        • \(\mu_0(T)\) und \(\mu_1(T)\) die Mittelwerte der beiden Klassen.
      • Wähle den Schwellenwert, der die zwischenklassen Varianz maximiert.
    • Implementierung der Schwellenwertsegmentierung:
      • Die Implementierung eines einfachen Schwellenwertverfahrens in Python sieht wie folgt aus:
      def threshold_segmentation(image, threshold):    from numpy import zeros_like    segmented_image = zeros_like(image)    # Setze Pixel basierend auf dem Schwellenwert    segmented_image[image >= threshold] = 1    segmented_image[image < threshold] = 0    return segmented_image
      • Die Otsu-Methode zur automatischen Auswahl des Schwellenwertes kann wie folgt implementiert werden:
      def otsu_threshold(image):    from skimage.filters import threshold_otsu    return threshold_otsu(image)
      • Dieses Kombination segmentiert das Bild unter Verwendung der Otsu-Methode:
      def segment_image_using_otsu(image):    threshold = otsu_threshold(image)    return threshold_segmentation(image, threshold)

c)

c) Rauschunterdrückung: Bei Röntgenbildern ist die Rauschunterdrückung besonders wichtig. Vergleiche den Medianfilter mit dem Wiener-Filter hinsichtlich ihrer Fähigkeit, Rauschen zu unterdrücken, ohne die wesentlichen Merkmale im Bild zu verlieren. Führe eine mathematische Analyse der beiden Filter durch und wende beide auf das segmentierte Bild an. Welches Verfahren liefert in Deinem Fall die besseren Ergebnisse und warum?

code-placeholder-pythondef wiener_filter(image):    # Wiener-Filter implementieren    pass# Anwendung der Rauschunterdrückungsverfahrenfiltered_image_median = median_filter(image)filtered_image_wiener = wiener_filter(image)

Lösung:

  • Rauschunterdrückung: Bei Röntgenbildern ist die Rauschunterdrückung besonders wichtig, da Rauschen die Erkennung und Analyse von Knochenstrukturen erschweren kann. Zwei gängige Methoden zur Rauschunterdrückung sind der Medianfilter und der Wiener-Filter.
  • Vergleich des Medianfilters und des Wiener-Filters:
    • Medianfilter:
      • Der Medianfilter ersetzt jeden Pixelwert durch den Medianwert der Pixel in einem definierten Nachbarschaftsfenster.
      • Mathematische Formulierung:Für ein Pixel I(x, y) im Bild und ein Fenster der Größe (2r+1) \times (2r+1) wird der Medianfilter durch den Ausdruck beschrieben:
        \[ I'(x, y) = \text{Median} \big(I(x+k, y+l) \big) \, \text{für alle } \, -r \, \leq \, k,l \, \leq \, r \]
      • Vorteile:
        • Effektiv bei der Beseitigung von Salz-und-Pfeffer-Rauschen.
        • Erhält Kanten besser als der Mittelwertfilter.
      • Nachteile:
        • Kann feine Details beeinträchtigen.
        • Relativ rechenintensiv.
    • Wiener-Filter:
      • Der Wiener-Filter reduziert das Rauschen durch den Ansatz des Minimum Mean Square Error (MMSE) und berücksichtigt dabei die lokale Varianz des Bildes und des Rauschens.
      • Mathematische Formulierung: Im Frequenzbereich wird der Wiener-Filter durch:
        \[ G(u,v) = \frac{H^*(u,v)}{|H(u,v)|^2 + \frac{S_n}{S_x}} \]
        beschrieben, wobei:
        • H(u,v) die Übertragungsfunktion des Bildes darstellt,
        • H^*(u,v) die konjugierte Übertragungsfunktion des Bildes ist,
        • S_n das Rauschleistungsspektrum ist, und
        • S_x das Leistungsdichtespektrum des Bildes ist.
      • Vorteile:
        • Optimale Rauschunterdrückung bei bekanntem Signal-Rausch-Verhältnis (SNR).
        • Berücksichtigt lokale Bildinformationen.
      • Nachteile:
        • Komplexere Implementierung.
        • Benötigt Informationen über das Rauschen und das originale Bild.
  • Anwendung der Rauschunterdrückungsfilter:
    • Medianfilter:
      def median_filter(image):    from scipy.ndimage import median_filter    return median_filter(image, size=3)  # Beispiel mit 3x3 Fenster
    • Wiener-Filter:
      def wiener_filter(image):    from scipy.signal import wiener    return wiener(image, (5, 5))  # Beispiel mit 5x5 Fenster
  • Vergleich der Ergebnisse:
      • Wende beide Filter auf das segmentierte Bild an und vergleiche die Ergebnisse:
segmented_image = segment_image_using_otsu(image)filtered_image_median = median_filter(segmented_image)filtered_image_wiener = wiener_filter(segmented_image)
    • Untersuche die Ergebnisse visuell, um zu entscheiden, welches Bild eine klarere und rauschfreiere Darstellung der Knochenstrukturen bietet.
    • Berechne quantitative Metriken wie SNR (Signal-zu-Rausch-Verhältnis) und PSNR (Peak Signal-to-Noise Ratio), um die Leistung der Filter objektiv zu bewerten.
  • Schlussfolgerung:
      • Die Wahl des besseren Verfahrens hängt von der Art des Rauschens und den spezifischen Anforderungen des Bildes ab.
      • In Fällen von impulsartigem Rauschen könnte der Medianfilter besser sein, wohingegen der Wiener-Filter oft bei gausschem Rauschen überlegen ist.
      • Visuelle und quantitative Tests können helfen, die beste Methode für die spezifische Anwendung zu bestimmen.

    Aufgabe 2)

    Deep Learning Architekturen: CNNs und deren AnwendungenConvolutional Neural Networks (CNNs) sind spezialisierte Deep Learning-Architekturen, die besonders effektiv bei der Verarbeitung von Bilddaten sind. Sie nutzen Faltungsoperationen, um Merkmale in Bildern zu erkennen.

    • Convolutional Layer: Wendet Faltungen an, um Merkmale zu extrahieren. Wichtige Hyperparameter: Kernel-Größe, Stride, Padding.
    • Pooling Layer: Reduziert die Dimensionalität der Merkmale durch Operationen wie Max-Pooling oder Average-Pooling.
    • Fully Connected Layer: Verbinden alle Neuronen, ähnlich wie in einem klassischen neuronalen Netzwerk, zur Klassifikation.
    • Aktivierungsfunktionen: ReLU oft verwendet, um Nicht-Linearitäten einzuführen.
    • Anwendungen: Bildklassifikation, Objekterkennung, Segmentierung, Stiltransfer, Bilderzeugung.
    • Wichtige CNN-Architekturen: LeNet, AlexNet, VGG, ResNet, Inception

    a)

    Beschreibe detailliert die Funktionsweise eines Convolutional Layers in einem CNN. Erläutere dabei auch die Rolle der Hyperparameter Kernel-Größe, Stride und Padding. Illustriere Deine Antwort mit mathematischen Gleichungen, wo dies angebracht ist.

    Lösung:

    Funktionsweise eines Convolutional Layers in einem CNN

    Ein Convolutional Layer ist ein fundamentaler Bestandteil von Convolutional Neural Networks (CNNs), der durch Faltungsoperationen wichtige Merkmale in Bilddaten extrahiert. Die genaue Funktionsweise lässt sich in mehrere Schritte unterteilen:

    • Faltungsoperation (Convolution):Die Hauptaufgabe eines Convolutional Layers besteht darin, einen Filter oder Kernel, der eine kleine Matrix ist (z.B. 3x3 oder 5x5), über das Eingabebild zu schieben. An jeder Position des Kernels wird eine gewichtete Summe der überlappenden Bildpixel berechnet. Mathematisch kann dies durch die Gleichung dargestellt werden:
      y(i, j) = \sum_{k, l} x(i+k, j+l) \cdot w(k, l)
      Hierbei entspricht x der Eingabematrix, w dem Kernel und y der Ausgabe der Faltung.
    • Hyperparameter:Drei wesentliche Hyperparameter beeinflussen die Faltungsoperation und deren Ergebnisse:
      • Kernel-Größe:Die Kernel-Größe gibt die Dimensionen des Filters an, zum Beispiel 3x3 oder 5x5. Ein größerer Kernel erfasst größere Merkmale, führt jedoch zu einer stärkeren räumlichen Reduktion des Bildes.
      • Stride:Der Stride gibt an, wie viele Pixel der Kernel bei jedem Schritt verschoben wird. Ein größerer Stride verkleinert die Größe der Ausgabe und erhöht die Effizienz. Die Beziehung für die Ausgabegröße in einer Dimension ist:
        \text{Ausgabegröße} = \left\lfloor \frac{\text{Eingabegröße} - \text{Kernel-Größe}}{\text{Stride}} \right\rfloor + 1
      • Padding:Padding fügt dem Eingabebild Pixel (meistens Nullen) hinzu, um die Ausgabegrößen zu kontrollieren. Es gibt zwei Haupttypen des Paddings: 'Valid' (kein Padding) und 'Same' (Padding so, dass die Ausgabegröße gleich der Eingangsgröße bleibt). Der Zusammenhang für die Ausgabehöhe ist:
        \text{Ausgabehöhe} = \frac{\text{Eingabehöhe} - \text{Kernelhöhe} + 2 \times \text{Padding}}{\text{Stride}} + 1
    • Beispiel:Sei das Eingabebild 32x32 Pixel groß und der Kernel 3x3, mit Stride 1 und Padding 1. Die Ausgabegröße lässt sich berechnen als:
      \text{Ausgabegröße} = \frac{32 - 3 + 2 \times 1}{1} + 1 = 32
      Das resultierende Bild ist daher wieder 32x32 Pixel groß.
    • Nichtlinearität:Nach der Faltung wird üblicherweise eine Aktivierungsfunktion wie ReLU (Rectified Linear Unit) angewendet, um Nichtlinearitäten einzuführen, was dem Netzwerk erlaubt, komplexere Muster zu lernen. ReLU ist definiert als:
      f(x) = \max(0, x)

    Diese Erklärung verdeutlicht die Funktionsweise eines Convolutional Layers und die Bedeutung der Hyperparameter Kernel-Größe, Stride und Padding.

    b)

    Verwende die Architektur von AlexNet, um den Prozess der Bildklassifikation zu erklären. Gehe dabei auf die verschiedenen Typen von Layern ein (Convolutional, Pooling, Fully Connected) und erläutere deren Funktion. Die Antwort sollte den gesamten Prozess von der Eingabe eines Bildes bis zur Ausgabe einer Klassifikation abdecken.

    Lösung:

    Verwendung der AlexNet-Architektur zur Bildklassifikation

    AlexNet ist eine der bekanntesten Convolutional Neural Network (CNN)-Architekturen, die 2012 den ImageNet-Wettbewerb gewonnen hat. Diese Architektur besteht aus verschiedenen Schichten, die zusammenarbeiten, um die Bildklassifikation durchzuführen. Hier ist eine detaillierte Erklärung des Prozesses von der Eingabe eines Bildes bis zur Ausgabe einer Klassifikation:

    • Eingabe:AlexNet nimmt ein Bild mit der Größe 227x227x3 (Breite x Höhe x Farbkanäle) als Eingabe an. Dieses Bild wird durch mehrere Convolutional-, Pooling- und Fully Connected-Layer verarbeitet.
    • Convolutional Layer:Die ersten Schichten von AlexNet sind Convolutional Layers, die Filter (Kernels) auf das Bild anwenden, um Merkmale zu extrahieren. Diese Schichten verwenden Hyperparameter wie Kernel-Größe, Stride und Padding.
      • Kernels werden über das Bild geschoben und berechnen eine gewichtete Summe der überlappenden Pixel. Das Ergebnis ist eine Feature Map.
      • ReLU-Aktivierungsfunktionen werden nach jeder Faltung angewendet, um Nicht-Linearitäten einzuführen.
      • Beispiel: Der erste Convolutional Layer in AlexNet verwendet 96 Filter der Größe 11x11 mit einem Stride von 4 und Padding von 0.
    • Pooling Layer:Nach einigen Convolutional Layers folgen Pooling Layers, die die Dimensionalität der Feature Maps reduzieren, um die Rechenleistung zu verbessern und Überanpassung (Overfitting) zu verhindern. AlexNet verwendet hauptsächlich Max-Pooling.
      • Max-Pooling wählt das Maximum eines kleinen Teilbereichs in der Feature Map aus, wodurch die Größe reduziert wird, während wichtige Informationen erhalten bleiben.
      • Beispiel: Der erste Pooling Layer in AlexNet verwendet ein 3x3 Fenster mit einem Stride von 2.
    • Weitere Convolutional und Pooling Layers:AlexNet hat insgesamt fünf Convolutional Layers und drei Pooling Layers. Diese Schichten arbeiten zusammen, um immer komplexere Merkmale aus dem Bild zu extrahieren.
    • Fully Connected Layer:Nach den Convolutional und Pooling Layers folgen Fully Connected Layers (FC Layers). Diese Schichten ähneln klassischen neuronalen Netzwerken und verbinden jedes Neuron der vorherigen Schicht mit jedem Neuron der folgenden Schicht.
      • Die Feature Maps werden flach gemacht (von 3D zu 1D) und als Eingabe in die Fully Connected Layers gegeben.
      • ReLU-Aktivierungsfunktionen werden erneut angewendet, um Nicht-Linearitäten einzuführen.
      • Die letzte Fully Connected Layer gibt die Wahrscheinlichkeiten der verschiedenen Klassen aus, indem sie eine Softmax-Aktivierungsfunktion verwendet.
      Beispiel: AlexNet hat 3 Fully Connected Layers, wobei die endgültige FC Layer 1000 Ausgabeneuronen für 1000 Klassen hat.
    • Ausgabe:Die endgültige Ausgabe von AlexNet ist ein Wahrscheinlichkeitsvektor, der angibt, zu welcher Klasse das Eingabebild am wahrscheinlichsten gehört. Die Klasse mit der höchsten Wahrscheinlichkeit wird als Klassifikationsergebnis ausgewählt.

    Zusammengefasst verwendet AlexNet eine Kombination aus Convolutional Layers, Pooling Layers und Fully Connected Layers, um Merkmale aus einem Bild zu extrahieren und eine Klassifikation durchzuführen. Die Convolutional Layers extrahieren lokale Merkmale, die Pooling Layers reduzieren die Dimensionalität, und die Fully Connected Layers führen die eigentliche Klassifikation durch.

    Aufgabe 3)

    Gegeben: Ein maschinelles Lernmodell, das auf die Erkennung von Handgeschriebenen Zahlen trainiert wird. Dabei sollen verschiedene Hyperparameter-Tuning-Methoden verwendet werden, um die bestmögliche Leistung des Modells zu erzielen.

    a)

    Beschreibe den Unterschied zwischen Hyperparametern und Parametern im Kontext von maschinellem Lernen. Warum ist die Anpassung der Hyperparameter wichtig, und wie kann dies die Leistung eines Modells beeinflussen?

    Lösung:

    Im Kontext des maschinellen Lernens gibt es zwei Hauptarten von Parametern: Parameter und Hyperparameter. Lass uns den Unterschied zwischen ihnen sowie die Bedeutung der Anpassung der Hyperparameter genauer betrachten.

    • Parameter: Diese sind interne Verstellgrößen des Modells, die während des Trainingsprozesses aus den Daten gelernt werden. Beispiele hierfür sind die Gewichtungen in einem neuronalen Netz oder die Koeffizienten einer Regressionsgleichung. Sie werden während des Trainings automatisch angepasst, um die Vorhersagegenauigkeit des Modells zu maximieren.
    • Hyperparameter: Diese werden vor dem Training festgelegt und steuern den Trainingsprozess selbst. Sie werden nicht aus den Daten gelernt, sondern durch Experimente und Optimierungen festgelegt. Beispiele für Hyperparameter sind die Lernrate, die Anzahl der Neuronen in einer Schicht eines neuronalen Netzes, die Anzahl der Trainingszyklen (Epochen), die Batch-Größe und der Regularisierungsparameter.

    Bedeutung der Anpassung der Hyperparameter

    • Modellleistung: Hyperparameter beeinflussen direkt, wie gut das Modell die zugrunde liegenden Muster in den Daten erlernen kann. Zum Beispiel kann eine zu hohe Lernrate das Modell dazu bringen, schnell zu konvergieren, aber möglicherweise auch wichtige Details zu übersehen, während eine zu niedrige Lernrate zu einer sehr langsamen Konvergenz führen kann.
    • Vermeidung von Overfitting und Underfitting: Durch die richtige Anpassung der Hyperparameter kann Overfitting (das Modell lernt zu viel von den Trainingsdaten, einschließlich des Rauschens) und Underfitting (das Modell erfasst die zugrunde liegenden Muster in den Daten nicht ausreichend) vermieden werden.
    • Computationale Effizienz: Die Wahl der Hyperparameter kann auch die Rechenzeit und die Speicherkapazität beeinflussen. Eine zu große Batch-Größe kann beispielsweise zu Speicherproblemen führen, während eine zu kleine Batch-Größe die Trainingseffizienz verringern kann.

    Insgesamt ist die Optimierung der Hyperparameter ein wesentlicher Schritt im maschinellen Lernprozess, der durch Techniken wie Grid Search, Random Search oder fortgeschrittenere Methoden wie Bayesian Optimization durchgeführt werden kann. Durch sorgfältige Anpassung der Hyperparameter kann die Leistungsfähigkeit des Modells erheblich verbessert werden.

    b)

    Erkläre den Prozess der Grid Search zur Hyperparameter-Optimierung. Welche Vor- und Nachteile hat diese Methode?

    Lösung:

    Grid Search ist eine systematische Methode zur Hyperparameter-Optimierung, die häufig im maschinellen Lernen verwendet wird. Unten sind die Hauptaspekte des Grid Search Prozesses sowie dessen Vor- und Nachteile beschrieben:

    Prozess der Grid Search:

    • Hyperparameter-Raster definieren: Zuerst wird ein Raster (Grid) von Hyperparameter-Werten definiert, die getestet werden sollen. Dies kann verschiedene Werte für Hyperparameter wie die Lernrate, die Anzahl der Neuronen in einem neuronalen Netz, die Batch-Größe usw. umfassen.
    • Modelltraining: Für jede Kombination der Hyperparameterwerte im Raster wird das Modell trainiert. Dies bedeutet, dass das Modell für jede mögliche Kombination der definierten Hyperparameter einmal trainiert wird.
    • Modellbewertung: Nach dem Training wird jedes Modell anhand einer definierten Metrik (wie Genauigkeit, Präzision, F1-Score usw.) auf einem Validierungsdatensatz bewertet.
    • Beste Hyperparameter-Kombination wählen: Die Kombination der Hyperparameter, die die beste Leistung auf dem Validierungsdatensatz erzielt hat, wird als optimal angesehen und für das endgültige Modell verwendet.

    Vorteile der Grid Search:

    • Einfache Implementierung: Grid Search ist einfach zu verstehen und zu implementieren. Es erfordert keine komplexen Algorithmen oder Vorwissen.
    • Vollständige Prüfung des Parameterbereichs: Grid Search prüft systematisch jeden möglichen Wert innerhalb des festgelegten Rasters, sodass keine Kombinationen übersehen werden.
    • Effektive Vergleichbarkeit: Da jede Kombination getestet wird, können die Leistungsergebnisse direkt miteinander verglichen werden.

    Nachteile der Grid Search:

    • Rechenintensiv: Grid Search kann sehr zeit- und rechenintensiv sein, insbesondere wenn viele Hyperparameter und/oder große Wertebereiche getestet werden. Dies kann bei großen Datenmengen und komplexen Modellen zum Problem werden.
    • Skalierbarkeit: Die Anzahl der zu testenden Kombinationen wächst exponentiell mit der Anzahl der Hyperparameter und ihren möglichen Werten. Dies kann die Methode bei sehr großen Rastern unpraktikabel machen.
    • Eingeschränkte Präzision: Da nur vordefinierte Werte getestet werden, kann Grid Search mögliche optimale Werte zwischen diesen Rasterpunkten übersehen.

    Zusammenfassend lässt sich sagen, dass Grid Search eine nützliche und leicht verständliche Methode zur Hyperparameter-Optimierung ist, die jedoch bei größeren Modellen und umfassenderen Hyperparameter-Rastern in ihre Grenzen stößt. Alternativen wie Random Search oder Bayesian Optimization bieten hier oft effizientere Lösungen.

    c)

    Random Search ist eine weitere Methode zur Hyperparameter-Optimierung. Definiere Random Search und vergleiche dessen Effizienz im Vergleich zu Grid Search unter der Annahme begrenzter Rechenressourcen.

    Lösung:

    Random Search ist eine Methode zur Hyperparameter-Optimierung, bei der zufällige Kombinationen von Hyperparameter-Werten innerhalb vordefinierter Bereiche ausgewählt und getestet werden. Im Gegensatz zur systematischen Abdeckung aller möglichen Kombinationen wie bei der Grid Search wählt Random Search zufällig eine Teilmenge dieser Kombinationen aus.

    Definition von Random Search:

    • Hyperparameter-Bereiche festlegen: Zuerst werden Bereiche für jeden Hyperparameter festgelegt, z.B. Lernraten von 0,001 bis 0,1, Anzahl der Neuronen von 10 bis 1000 usw.
    • Zufällige Auswahl: Innerhalb dieser Bereiche werden zufällige Kombinationen von Hyperparameter-Werten ausgewählt. Je nach verfügbaren Rechenressourcen kann eine bestimmte Anzahl von Kombinationen getestet werden.
    • Modelltraining und -bewertung: Genau wie bei der Grid Search wird das Modell für jede zufällige Kombination trainiert und anhand einer definierten Metrik bewertet.
    • Beste Kombination wählen: Die Hyperparameter-Kombination, die die beste Leistung auf dem Validierungsdatensatz erzielt, wird als optimale Kombination gewählt.

    Vergleich der Effizienz von Random Search und Grid Search unter begrenzten Rechenressourcen:

    • Rechenaufwand:
      • Grid Search: Bei begrenzten Rechenressourcen kann Grid Search sehr ineffizient sein, da es alle möglichen Kombinationen systematisch abdeckt, was schnell zu einer exponentiellen Anzahl von Trainingsläufen führt.
      • Random Search: Da Random Search nur eine zufällige Teilmenge der Kombinationen testet, benötigt es weniger Rechenressourcen und kann effizienter sein.
    • Erkundung des Hyperparameter-Raums:
      • Grid Search: Deckt das Raster vollständig ab, kann jedoch nur vordefinierte Werte testen und eventuell optimale Werte zwischen diesen Rasterpunkten übersehen.
      • Random Search: Durch zufällige Auswahl kann es möglich sein, ungewöhnliche aber potenziell interessante Kombinationen zu testen, die bei einer Grid Search übersehen würden.
    • Wahrscheinlichkeit, optimale Parameter zu finden:
      • Grid Search: Bei einer kleinen Anzahl von Hyperparametern oder einem engen Rasterbereich ist die Wahrscheinlichkeit höher, die optimalen Parameter zu finden. Bei großen Rastern und vielen Parametern sinkt diese Wahrscheinlichkeit jedoch bei begrenzten Rechenressourcen.
      • Random Search: Beobachtungen zeigen, dass bei einem kleinen Teil der möglichen Trainingsläufe Random Search oft ähnlich gute oder sogar bessere Ergebnisse liefert, insbesondere wenn einige Hyperparameter wichtiger sind als andere (da Random Search eher eine breitere Abdeckung des Hyperparameter-Raums erreicht).

    Fazit: Unter der Annahme begrenzter Rechenressourcen bietet Random Search oft eine effizientere Methode zur Hyperparameter-Optimierung als Grid Search. Es ermöglicht eine breitere Erkundung des Hyperparameter-Raums und kann in vielen Fällen zu vergleichbar guten oder besseren Ergebnissen führen, insbesondere wenn einige Parameterbereiche wesentlicher sind als andere.

    d)

    Bayesian Optimization wird oft als fortschrittlicherer Ansatz für die Hyperparameter-Optimierung angesehen. Beschreibe die grundlegenden Prinzipien und wie diese Methode frühere Ergebnisse nutzt, um neue Werte für die Hyperparameter auszuwählen. Stelle ein beispielhaftes Szenario dar, in dem Bayesian Optimization gegenüber Grid oder Random Search überlegen sein könnte.

    Lösung:

    Bayesian Optimization ist ein fortschrittlicher Ansatz zur Hyperparameter-Optimierung, der frühere Ergebnisse nutzt, um neue Werte für die Hyperparameter strategisch auszuwählen. Diese Methode ist effizienter als Grid oder Random Search, insbesondere bei begrenzten Rechenressourcen. Unten sind die grundlegenden Prinzipien von Bayesian Optimization sowie ein beispielhaftes Szenario zur Veranschaulichung aufgeführt.

    Grundlegende Prinzipien der Bayesian Optimization:

    • Modellierung der Zielfunktion: Bayesian Optimization beginnt mit dem Aufbau eines probabilistischen Modells (meistens ein Gaussian Process) über die unbekannte Zielfunktion, die eine Beziehung zwischen den Hyperparametern und der Leistung des Modells darstellt.
    • Bayes-Theorem: Das Bayes-Theorem wird verwendet, um die Wahrscheinlichkeitsverteilung der Zielfunktion basierend auf den bisherigen Ergebnissen zu aktualisieren.
    • Akquisitionsfunktion: Die Akquisitionsfunktion entscheidet, welche Hyperparameter als nächstes getestet werden sollen, indem sie einen Kompromiss zwischen Erkundung (Ausprobieren von neuen, unsicheren Bereichen) und Ausbeutung (Optimierung basierend auf bisherigen Ergebnissen) findet. Häufig verwendete Akquisitionsfunktionen sind Expected Improvement (EI) und Upper Confidence Bound (UCB).
    • Iterativer Prozess: Bayesian Optimization ist ein iterativer Prozess, der die Akquisitionsfunktion verwendet, um die Hyperparameter-Werte für den nächsten Testlauf auszuwählen. Diese neuen Datenpunkte werden genutzt, um das probabilistische Modell zu verbessern und die Zielfunktion besser zu verstehen.

    Beispielszenario:

    Angenommen, wir trainieren ein Modell zur Erkennung handgeschriebener Zahlen, wobei wir mehrere Hyperparameter wie Lernrate, Batch-Größe und Anzahl der Neuronen in den Schichten eines neuronalen Netzes optimieren.

    • Grid Search: Diese Methode würde alle möglichen Kombinationen der festgelegten Werte für die Hyperparameter systematisch testen. Dies könnte jedoch sehr rechenintensiv und zeitaufwändig sein, insbesondere bei großen Rastern und vielen Hyperparametern.
    • Random Search: Diese Methode würde zufällig eine Teilmenge der möglichen Kombinationen testen. Obwohl schneller als Grid Search, könnte sie in einigen Fällen wichtige Parameterkombinationen übersehen.
    • Bayesian Optimization: Diese Methode würde aus den Ergebnissen früherer Versuche lernen und die Akquisitionsfunktion verwenden, um strategisch neue Hyperparameter-Werte auszuwählen, bei denen die Wahrscheinlichkeit für eine Leistungsverbesserung am höchsten ist.

    Vorteil von Bayesian Optimization:

    Bayesian Optimization wäre in diesem Szenario überlegen, weil sie:

    • Die Anzahl der notwendigen Testläufe minimiert und so Rechenressourcen spart.
    • Frühere Ergebnisse berücksichtigt, um neue Hyperparameter-Werte strategisch auszuwählen.
    • Effizient einen umfassenderen und optimaleren Hyperparameter-Raum erkunden kann als Grid oder Random Search.

    Zusammengefasst ist Bayesian Optimization eine fortschrittliche Methode zur Hyperparameter-Optimierung, die durch die Nutzung früherer Ergebnisse effizientere und potenziell bessere Hyperparameter-Kombinationen finden kann als Grid oder Random Search, besonders unter der Annahme begrenzter Rechenressourcen.

    Aufgabe 4)

    Feature-Deskriptoren wie SIFT (Scale-Invariant Feature Transform) und SURF (Speeded-Up Robust Features) werden verwendet, um charakteristische Punkte in Bildern zu identifizieren und zu beschreiben. Zu den Eigenschaften dieser Methoden gehören:

    • SIFT: robust gegenüber Skalierungen, Translationen und Rotationen
    • SURF: schneller als SIFT, aber ähnliche Robustheit
    • Anwendungsfälle: Objekterkennung, Bildstitching, 3D Rekonstruktion, Bewegungsanalyse
    • Mathematisch: SIFT verwendet Difference-of-Gaussian (DoG) für die Skalierung und Lokalisierung von Schlüssel-Punkten, während SURF Integralbilder für die Geschwindigkeit verwendet
    • Beide Methoden: berechnen Merkmalsvektoren basierend auf Gradientenorientierungen

    a)

    (a) Ausgehend von der Beschreibung der SIFT Methode, leite die mathematische Formulierung des Difference-of-Gaussian (DoG) Filters her. Erkläre zudem, warum dieser Filter robust gegenüber Skalierungsänderungen ist.

    Hinweise:

    • Die DoG Methode basiert auf der Differenz zweier Gauß-filterter Bilder mit unterschiedlichen Standardabweichungen.
    • Nenne die wichtigen Schritte für die Identifikation von Schlüssel-Punkten in SIFT.

    Lösung:

    (a) Ausgehend von der Beschreibung der SIFT Methode, leite die mathematische Formulierung des Difference-of-Gaussian (DoG) Filters her. Erkläre zudem, warum dieser Filter robust gegenüber Skalierungsänderungen ist.

    Um den Difference-of-Gaussian (DoG) Filter mathematisch zu formulieren, betrachten wir die Gaußfunktionen, die für die Bildglättung verwendet werden:

    • \[ G(x, y, \sigma) = \frac{1}{2\pi\sigma^2} e^{-(x^2 + y^2) / 2\sigma^2} \]

    Die DoG Methode basiert auf der Differenz zweier Gauß-filterter Versionen desselben Bildes, wobei die beiden Gaußfilter unterschiedliche Standardabweichungen haben. Sei I(x, y) das ursprüngliche Bild und die Gauß-filterten Bilder wie folgt definiert:

    • \[ L(x, y, \sigma_1) = G(x, y, \sigma_1) * I(x, y) \]
    • \[ L(x, y, \sigma_2) = G(x, y, \sigma_2) * I(x, y) \]

    Hierbei ist \(*\) die Faltung. Der Difference-of-Gaussian Filter ist dann definiert als:

    • \[ DoG(x, y, \sigma_1, \sigma_2) = L(x, y, \sigma_2) - L(x, y, \sigma_1) \]

    Alternativ, durch Anwendung der Linearkombination der Faltung, erhalten wir:

    • \[ DoG(x, y, \sigma_1, \sigma_2) = [G(x, y, \sigma_2) - G(x, y, \sigma_1)] * I(x, y) \]

    Warum ist der DoG-Filter robust gegenüber Skalierungsänderungen?

    Der DoG-Filter ist robust gegenüber Skalierungsänderungen, weil er in mehreren Maßstabsebenen arbeitet. Bei der SIFT Methode werden verschiedene Versionen des Bildes mit zunehmender Gauß-Glättung erstellt. Dies führt zu einer Bildpyramide, in der die Standardabweichung \(\sigma\) exponentiell zunimmt. Durch Identifizieren von Extrema in der DoG-Pyramide können Schlüssel-Punkte gefunden werden, die in verschiedenen Größeninvariabel sind.

    Die Hauptschritte zur Identifikation von Schlüssel-Punkten in SIFT sind:

    • Bildpyramiden-Erstellung: Mehrere Versionen des Bildes mit verschiedenen Gauß-Glättungen werden erstellt.
    • Extrema-Detektion: Lokalisierung von Minima und Maxima in der DoG-Pyramide.
    • Schlüssel-Punktverfeinerung: Genauere Ausrichtung und Lokalisierung der Schlüssel-Punkte durch Berechnung der Gradienten und deren Orientierungen.
    • Merkmalsvektorbildung: Erstellung eines Merkmalsvektors basierend auf Gradientenorientierungen um den Schlüssel-Punkt.

    b)

    (b) Implementiere einen einfachen SIFT und SURF Feature-Deskriptor in Python. Führe Deine Implementierung an einem Beispielbild aus und vergleiche die gefundenen Schlüssel-Punkte und die Geschwindigkeit der beiden Methoden.

    Hinweise:

    • Benutze OpenCV für die Implementierung.
    • Erkläre, wie die Merkmalsvektoren basierend auf Gradientenorientierungen berechnet werden.
    • Analysiere, warum SURF schneller als SIFT ist.

    Lösung:

    (b) Implementiere einen einfachen SIFT und SURF Feature-Deskriptor in Python. Führe deine Implementierung an einem Beispielbild aus und vergleiche die gefundenen Schlüssel-Punkte und die Geschwindigkeit der beiden Methoden.

    Um diese Aufgabe zu lösen, verwenden wir die OpenCV-Bibliothek. Vorab erklären wir auch, wie die Merkmalsvektoren basierend auf Gradientenorientierungen berechnet werden.

    Merkmalsvektoren basierend auf Gradientenorientierungen:

    Bei der Berechnung von Merkmalsvektoren in SIFT und SURF werden Gradienten (Änderungsrate der Intensität) um den Schlüssel-Punkt herum berechnet. Für SIFT werden diese Gradienten in einem 4x4 Zellraster um den Schlüssel-Punkt herum zusammengefasst, und in jeder Zelle wird eine Histogramm der Orientierungen (normalerweise in 8 Bins) erstellt. So entsteht ein 4x4x8 = 128-dimensionaler Vektor für jeden Schlüssel-Punkt. SURF verwendet ein ähnliches Konzept, jedoch werden Integralbilder verwendet, um Gradienten effizienter zu berechnen.

    Implementierung:

    import cv2import numpy as npimport timeimport matplotlib.pyplot as plt# Lade das Beispielbildbild = cv2.imread('example.jpg', cv2.IMREAD_GRAYSCALE)# Erstelle SIFT und SURF Objektesift = cv2.SIFT_create()surf = cv2.xfeatures2d.SURF_create(400)# Finde Schlüssel-Punkte und Beschreibungen mit SIFTstart_time = time.time()kp_sift, des_sift = sift.detectAndCompute(bild, None)sift_time = time.time() - start_time# Finde Schlüssel-Punkte und Beschreibungen mit SURFstart_time = time.time()kp_surf, des_surf = surf.detectAndCompute(bild, None)surf_time = time.time() - start_time# Zeichne die Schlüssel-Punktebild_sift = cv2.drawKeypoints(bild, kp_sift, None, color=(0,255,0))bild_surf = cv2.drawKeypoints(bild, kp_surf, None, color=(255,0,0))# Zeige die Ergebnisseplt.subplot(1, 2, 1)plt.imshow(bild_sift, cmap='gray')plt.title(f'SIFT - Schlüssel-Punkte: {len(kp_sift)}')plt.subplot(1, 2, 2)plt.imshow(bild_surf, cmap='gray')plt.title(f'SURF - Schlüssel-Punkte: {len(kp_surf)}')plt.show()# Geschwindigkeitsvergleichprint(f'SIFT Zeit: {sift_time} s')print(f'SURF Zeit: {surf_time} s')

    Analyse der Ergebnisse:

    Nachdem Du das oben stehende Code-Snippet ausgeführt hast, solltest Du die Schlüssel-Punkte auf dem Beispielbild visualisiert und die Ausführungszeiten für beide Methoden erhalten haben.

    • Gründe, warum SURF schneller als SIFT ist:
      • SURF verwendet Integralbilder, um die Berechnung der Gradienten und Haar-Wavelets zu beschleunigen. Die Berechnung der Haar-Wavelets für beliebige Größen kann in konstanter Zeit durchgeführt werden.
      • Die Keypoint-Erkennung in SURF basiert auf einem Approximationsverfahren mittels Box-Filtern, was ebenfalls bedeutend schneller ist als die Difference-of-Gaussian Methode bei SIFT.
    Sign Up

    Melde dich kostenlos an, um Zugriff auf das vollständige Dokument zu erhalten

    Mit unserer kostenlosen Lernplattform erhältst du Zugang zu Millionen von Dokumenten, Karteikarten und Unterlagen.

    Kostenloses Konto erstellen

    Du hast bereits ein Konto? Anmelden