Objekterkennung – Definition
Die Objekterkennung ist für die Neurowissenschaften von großer Bedeutung, weil sie herausfinden wollen, welche Prozesse im Gehirn ablaufen, wenn Menschen bestimmte Dinge ansehen. Grundsätzlich kann man Objekterkennung folgendermaßen definieren.
Objekterkennung ist ein automatischer Prozess, der dafür sorgt, dass Menschen Dinge (z. B. Gegenstände oder Personen), die sie wahrnehmen, erkennen können.
Der Prozess der Objekterkennung kann weder verhindert noch abgebrochen werden. Es ist nicht möglich, ein Wort anzuschauen, ohne das Wort zu lesen. Voraussetzung dafür ist allerdings, dass man das betrachtete Objekt schon kennt. Nur was eine Person schon mal gesehen hat, kann sie später auch erkennen. Darum kann man Objekterkennung auch als eine Art Wiedererkennen bezeichnen. Das folgende Beispiel zeigt, wie Tim ein Objekt lernt, um es dann selbst erkennen zu können.
Tim ist mit seinen Eltern nach dem Ausflug in der Stadt noch zu seinen Großeltern gefahren. Als sie dort ankommen, erkennt Tim das Haus und seine Großeltern sofort und rennt freudig auf sie zu.
Auch im Haus kennt er alles in- und auswendig, weil er hier schon oft zu Besuch wahr. Doch heute steht etwas Komisches in der Ecke. Tim ruft seine Mutter und fragt sie, was das ist. Als sie ihm erklärt, dass das ein Gehstock ist, den sein Opa benötigt, um längere Strecken zu gehen, weil er sich am Knie verletzt hat, ist Tim zufrieden und lässt den Gehstock linksliegen.
Als die Familie zusammen spazieren gehen will, sieht Tim den Gehstock in der Ecke, erkennt ihn als Gehstock und weiß auch noch, wozu er da ist. Also rennt er hin und holt ihn, damit er ihm seinem Opa geben kann.
Tim hat also gelernt, wie ein Gehstock aussieht und war so in der Lage, den Gehstock wiederzuerkennen. Würde er in der Stadt jetzt einen Gehstock sehen, der durch Verzierungen oder Ähnliches sehr von dem Gehstock seines Opas abweicht, dann würde das Erkennen länger dauern. Durch die Grundmerkmale eines Gehstocks (oben etwas zum Festhalten, langer Stab und wird zum Gehen genutzt etc.) könnte Tim auch diesen Gehstock als solchen identifizieren.
Obwohl die Objekterkennung in der Regel schnell und automatisch passiert, sind die dahinter steckenden Prozesse komplexer als vielleicht gedacht.
Objekterkennung im Gehirn – Verfahren und Funktionsweisen
Grundsätzlich gehen Forschende aus der Neurowissenschaft davon aus, dass die Objekterkennung in drei Schritten abläuft. Diese sind:
- einzelne Merkmale erkennen
- Merkmale zu einem Objekt zusammensetzten
- Objekt durch Rückgriff auf das Gedächtnis identifizieren
Um ein Objekt erkennen zu können, ist es also zunächst notwendig, die einzelnen Merkmale herauszufiltern. Ein Objekt, das gerade betrachtet wird, hat beispielsweise vier Reifen, einen Motor und eine Hupe. Im Inneren befinden sich Sitze und ein Lenkrad. Im zweiten Schritt müssen die einzelnen Merkmale zu einem Objekt zusammengefasst werden. Das heißt die Merkmale werden in Beziehung zueinander gesetzt, so kann gesagt werden, dass die Reifen sich unten befinden und die Sitze und das Lenkrad im Inneren. Den Motor kann man von Außen so einfach gar nicht sehen und so weiter.
Beim dritten Schritt geht es darum, dass eine Person bekannte Gegenstände in ihrem Gedächtnis sucht, die in den wesentlichen Merkmalen mit dem gerade betrachteten Gegenstand übereinstimmen. So kann ein Ding mit vier Reifen, einem Lenkrad, Sitzen, einem Motor, einer Hupe und einem Lenkrad als Auto identifiziert werden. Es können verschiedene Verarbeitungsformen unterschieden werden, die eine Objekterkennung auf unterschiedliche Weisen möglich machen.
- Wiedererkennung: Wenn man etwas sieht, was man schon kennt, dann erkennt man es wieder. Dafür reicht es schon, dass die Gegenstände nur eine gewisse Ähnlichkeit mit bekannten Dingen haben.
- Objekt-Identifikation: Beschreibt die Benennung eines Objekts. Dafür ist es nötig, ein Objekt in eine Kategorie einordnen. Der Prozess wird auch als Klassifikation bezeichnet. Durch die Klassifikation kann ein Mensch als Person erkannt werden, die man kennt und von der man den Namen weiß.
- datengesteuerte vs. konzeptgesteuerte Verarbeitung: Bei der datengesteuerten Verarbeitung, auch bottom-up Verarbeitung genannt, werden die aufgenommenen Reize einfach ans Gehirn weitergeleitet und dort abstrakt gespeichert und verarbeitet. Im Gegensatz dazu werden bei der konzeptuellen Verarbeitung (top-down Verarbeitung) die eigenen Erfahrungen genutzt, um das Gesehene zu interpretieren, würde der Mensch nur so wahrnehmen, dann würde er nur das sehen, was er erwartet zu sehen.
- globale vs. integrale Verarbeitung: Bei der globalen Verarbeitung werden nur grob die wichtigsten Merkmale beachtet. Bei der integralen Verarbeitung geht es dann schließlich um Detailmerkmale. Die globalen Merkmale werden in der Regel schneller wahrgenommen als die integralen Merkmale.
- kontextgebundene Identifikation: Was ein Mensch wahrnimmt, ist immer abhängig vom Kontext. So gelingt es einer Person manchmal ein Wort, dass unleserlich ist zu identifizieren, weil es eben in den ganzen Satz passt.
Die meisten Menschen erkennen Objekte mit der Hilfe der visuellen Wahrnehmung. Es werden also optische Reize wahrgenommen und verarbeitet. Neben den verschiedenen vorgestellten Verarbeitungsformen können die visuellen Reize im Gehirn auch verschiedene Pfade durchlaufen. Neben der optischen Objekterkennungen können Menschen bestimmte Dinge auch nur am Klang oder in noch selteneren Fällen am Geschmack oder Geruch. Diese Formen der Objekterkennung werden von Menschen allerdings deutlich seltener genutzt.
Pfade der optischen Objekterkennung
Als Neurowissenschaftler*innen untersucht haben, wie visuelle Reize im Gehirn verarbeitet werden und wie das mit dem Erkennen von Objekten zusammenhängt, wurde festgestellt, dass es zwei verschiedene Pfade gibt, die Reize durchlaufen können. Welcher Pfad durchlaufen wird, ist abhängig von der Absicht, mit der ein Objekt betrachtet wird. Startpunkt bei beiden Pfaden ist der primäre visuelle Cortex. Zu diesem Bereich werden alle visuellen Reize weitergeleitet. Von da an gibt es dann zwei Möglichkeiten.
Der visuelle Cortex wird umgangssprachlich auch als Sehrinde bezeichnet und ist der Teil des menschlichen Gehirns, der für die Verarbeitung von optischen Eindrücken zuständig ist.
Der ventrale Pfad
Beim ventralen Pfad werden die Informationen vom primären visuellen Cortex zum Temporallappen weitergeleitet. Der ventrale Pfad hat die Aufgabe, die Eigenschaften von bestimmten Gegenständen wie Farbe oder Größe zu verarbeiten. Deswegen wird dieser Pfad oftmals auch als "Was-Pfad" bezeichnet. Die Schwierigkeit dabei ist, dass sich die Informationen ständig verändern, beispielsweise weil der Gegenstand sich bewegt oder sich die Lichtverhältnisse ändern. Dennoch muss der ventrale Pfad es schaffen, ein beständiges Bild von Gegenstand zu erstellen.
Der dorsale Pfad
Beim dorsalen Pfad werden die Informationen zum Parietallappen weitergeleitet und dort weiter verarbeitet. Der dorsale Pfad spielt bei der Lokalisation von Objekten eine große Rolle. Er hat also die Aufgabe zu erkennen, wo im Raum sich ein Gegenstand befindet. Deswegen wird dieser Pfad oft als "Wo-Pfad" bezeichnet.
Der Parietallappen ist ein Teil des Großhirns und des zentralen Nervensystems und ist primär für die Verarbeitung der Sinneseindrücke zuständig.
Objekttrennung Psychologie
Wenn eine Person ein Auto sieht, dann kann sie dieses als Auto erkennen. Allerdings kann diese Klassifikation noch weitergehen. So kann die Person z. B. sagen, dass es ein rotes Auto ist oder sie kann sagen, dass es sich um ein Auto einer bestimmten Marke handelt oder sogar um ihr eigenes. Durch jeden dieser Abgrenzungsschritte trennt die Person das Objekt von anderen ab. Damit das möglich ist, braucht es ein Klassifikationssystem.
Eine Klassifikation findet immer auf der Grundlage von Klassifikationssystemen statt. Diese Systeme entwickeln Menschen im Laufe ihres Lebens, wenn sie neue Objekte kennenlernen und in eine Kategorie einordnen. Die Klassifikationssysteme dienen dazu, Objekte nach bestimmten gemeinsamen Merkmalen in Klassen oder Kategorien einzuordnen.
Dabei werden die Informationen, die von den Sinnesorganen kommen, mit schon bekannten Objekten abgeglichen. Passen die wesentlichen Merkmale überein, werden die Gegenstände einer gemeinsamen Klasse zugeordnet. Wenn es bei diesem Prozess zu Fehlern kommt, kann es auch wieder umgelernt und der falsche Gegenstand kann einer neuen Kategorie zugeordnet werden. Das Beispiel zeigt, wie eine Einordnung in eine Kategorie ablaufen kann.
Tim geht mit seinen Eltern einkaufen und sieht die Tomaten in der Gemüseabteilung liegen. Er weiß auch, dass Tomaten nicht so süß schmecken, wie Äpfel oder Beeren. Deswegen ist Tim der Meinung, dass eine Tomate ein Gemüse ist. Als die Familie zu Hause den Einkauf auspackt, fragt Tims Papa ihn, ob er schon wusste, dass eine Tomate gar kein Gemüse, sondern ein Obst ist. Tim ist kurz verwundert. Als sein Vater ihm erklärt, dass sie zu Obst zählen, weil sie Samen enthalten und aus der Blüte der Tomatenpflanzen wachsen, versteht Tim das und ordnet ab jetzt die Tomaten dem Obst zu.
Theorien zur Objekterkennung
Es gibt verschiedene Theorien und Modelle darüber, wie das menschliche Gehirn Informationen verarbeitet, um Objekte zu erkennen und zu identifizieren. Zwei bekannte Vorstellungen sind der algorithmische Ansatz von David Marr und der Schablonenvergleich.
Der algorithmische Ansatz von David Marr
Der britische Neurowissenschaftler und Psychologe David Marr geht in seiner Theorie davon aus, dass die Objekterkennung in drei Schritten abläuft.
- Schritt: Es wird eine Rohskizze vom Objekt angefertigt. Dabei werden die Ecken und Kanten des Objekts identifiziert und festgehalten.
- Schritt: Die zweidimensionale Skizze wird zu einer zweieinhalbdimensionalen Skizze erweitert. Das heiß, das Objekt ist jetzt erkennbar, mit seinen Merkmalen, aber nur aus der Perspektive, aus der es betrachtet wird.
- Schritt: Die Skizze wird nochmals erweitert zu einer dreidimensionalen Skizze. Dafür werden alte Skizzen aus dem Gedächtnis mit der neuen verglichen und dann werden die wichtigsten Merkmale ergänzt, sodass die neue Skizze zu den alten passt.
Das Problem des algorithmischen Ansatzes ist, dass die ersten Skizzen vorwiegend durch top-down Prozesse entstehen. Also lediglich Reize abstrakt verarbeitet werden, ohne dabei Erfahrungen oder Erinnerungen einzubeziehen. Das geschieht erst im letzten Schritt, allerdings ist hier die eigentliche Vorstellung, also die Skizze schon fast vollständig und die Entscheidung, was es ist, gewissermaßen bereits getroffen.
Der Schablonenvergleich
Der Schablonenvergleich geht von der Grundannahme aus, dass der Mensch von jedem ihm bekannten Gegenstand schon Prototypen im Gedächtnis hat. Sieht eine Person jetzt ein Objekt, dann wird das Muster, das dieses Objekt auf der Netzhaut hinterlässt, also die Umrisse wie eine Art Schablone angewendet. Sie wird also auf alle schon bekannten Gegenstände gelegt. Passt die Schablone auf einen Gegenstand, dann wird das betrachtete Objekt als dieser Gegenstand identifiziert. Wichtig ist, dass der Umriss nicht zu 100 % auf ein Objekt im Gedächtnis passen muss, sondern dass eine hinreichende Übereinstimmung reicht.
Die Schwierigkeiten bei dieser Theorie ist, dass nicht vollständig geklärt ist, wie deckungsgleich die Schablone mit dem im Gedächtnis vorhandenen Prototypen sein muss. Außerdem geht die Theorie davon aus, dass Menschen Objekte auch immer erkennen könnten, wenn sie nur die Umrisse sehen. Dies geht allerdings wenn, dann nur bei oberflächlichen Kategorien. Einen Menschen kann man durch seinen Umriss von einem Hund unterscheiden. Schwierig ist es jedoch, wenn man den Nachbarshund nur durch seine Umrisse von anderen Hunden unterscheiden will. Dafür braucht es dann detailliertere Merkmale, wie die Fellfarbe.
Das Gedächtnis spielt bei der Objekterkennung eine wichtige Rolle. Wenn Du Dich mehr mit dem menschlichen Gedächtnis befassen willst, dann ist die Erklärung "Gedächtnis" was für Dich.
Objekterkennung – Das Wichtigste
- Objekterkennung ist ein automatischer Prozess, der dafür sorgt, dass Menschen Dinge (z. B. Gegenstände oder Personen), die sie wahrnehmen, erkennen können.
- Forschende gehen davon aus, dass die Objekterkennung in folgenden drei Schritten abläuft: Merkmale erkennen, Merkmale zu einem Objekt zusammensetzten und Objekt durch Rückgriff auf das Gedächtnis identifizieren.
Im Gehirn können die Informationen auf verschiedene Arten verarbeitet werden (Wiedererkennung, Objekt-Identifikation, datengesteuerte vs. konzeptgesteuerte Verarbeitung, globale vs. integrale Verarbeitung, kontextgebundene Identifikation)
Je nach Absicht können die visuellen Reize auf dem ventralen Pfad ("Was-Pfad") oder dem dorsalen Pfad ("Wo-Pfad") im Gehirn verarbeitet werden.
Damit eine Objekttrennung funktionieren kann, müssen Objekte in verschiedene, veränderbare Kategorien bzw. Klassen eingeteilt werden.
Zwei bekannte Theorien zur Objekterkennung sind der algorithmische Ansatz nach David Marr und der Schablonenvergleich.
Nachweise
- Huckauf (2016). Objekterkennung. studocu.com (22.06.2022)
- psychologie.uni-heidelberg.de: Objekterkennung und Klassifikation. (22.06.2022)
- dorsch.hogrefe.com: Objekterkennung. (22.06.2022)
Wie stellen wir sicher, dass unser Content korrekt und vertrauenswürdig ist?
Bei StudySmarter haben wir eine Lernplattform geschaffen, die Millionen von Studierende unterstützt. Lerne die Menschen kennen, die hart daran arbeiten, Fakten basierten Content zu liefern und sicherzustellen, dass er überprüft wird.
Content-Erstellungsprozess:
Lily Hulatt ist Digital Content Specialist mit über drei Jahren Erfahrung in Content-Strategie und Curriculum-Design. Sie hat 2022 ihren Doktortitel in Englischer Literatur an der Durham University erhalten, dort auch im Fachbereich Englische Studien unterrichtet und an verschiedenen Veröffentlichungen mitgewirkt. Lily ist Expertin für Englische Literatur, Englische Sprache, Geschichte und Philosophie.
Lerne Lily
kennen
Inhaltliche Qualität geprüft von:
Gabriel Freitas ist AI Engineer mit solider Erfahrung in Softwareentwicklung, maschinellen Lernalgorithmen und generativer KI, einschließlich Anwendungen großer Sprachmodelle (LLMs). Er hat Elektrotechnik an der Universität von São Paulo studiert und macht aktuell seinen MSc in Computertechnik an der Universität von Campinas mit Schwerpunkt auf maschinellem Lernen. Gabriel hat einen starken Hintergrund in Software-Engineering und hat an Projekten zu Computer Vision, Embedded AI und LLM-Anwendungen gearbeitet.
Lerne Gabriel
kennen