Archiv


Mit den Augen des Fotografen

Computer. – Computer haben mit scheinbar einfachen Dingen immense Probleme. Das Erkennen von Objekten auf Bildern etwa ist für die Maschinen richtig schwierig. Inzwischen kommen aber gute Programme auf Trefferquoten von 60 Prozent. Doch dieser Wert könnte zu optimistisch sein, denn, so kritisiert ein US-Forscher die Testbilder machen es den Computern zu einfach.

Von Thomas Reintjes |
    "”The main goal of our work overall is to understand how the brain solves complex visual problems like visual object recognition.”"

    Das übergeordnete Ziel seiner Arbeit sei es, zu verstehen, wie das Gehirn komplexe Seh-Aufgaben löst, sagt James DiCarlo, Forscher am Massachusetts Institute of Technology in den USA. Wie komplex das Sehen tatsächlich ist, erstaunt wohl selbst die Forscher immer wieder. Uns Menschen fällt es leicht, ein Auto als Auto zu identifizieren und einen Elefanten als Elefanten. Den Entwicklern von Objekterkennungsprogrammen fehlt deshalb ein Gefühl dafür, wann ein Objekt für die Software schwer zu erkennen ist, und wann es leicht zu erkennen ist. Es gibt schließlich unendlich viele Möglichkeiten, wie ein Objekt abgebildet werden kann. Die Position des Objekts, der Blickwinkel, das Licht, der Hintergrund – viele Faktoren beeinflussen das Aussehen eines Gegenstands. Deshalb füttern die Entwickler ihre Programme mit möglichst vielen verschiedenen Fotos, die so möglichst viele Situationen abdecken sollen. Es gibt dazu Sets mit Fotos, wie etwa das Caltech101-Set mit mehr als 9000 Bildern von 101 verschiedenen Objekten: Autos, Flugzeugen, Gesichtern, Flamingos und so weiter. Die Wissenschaftler am MIT haben nun diese Bilder einem sehr einfachen Erkennungsprogramm vorgesetzt. DiCarlo:

    "”Unser V1-Modell bildet die primäre visuelle Sehrinde nach. Es analysiert nur grundsätzliche Merkmale eines Bildes wie Kanten, Richtungen und Größenverhältnisse. Also eine sehr frühe Stufe der Bilderkennung. Wir Neurowissenschaftler nennen das ein Null-Modell, ein Modell, dem alles fehlt, das der Rest des Gehirns bei der Objekterkennung erledigen muss.""

    Doch trotz seiner Einfachheit schnitt das Modell bei den Tests gut ab. Es konnte mit aktuellen Objekterkennungsprogrammen mithalten, war teils sogar besser. Die Schlussfolgerung: Entweder das Modell ist wirklich so gut, oder die Tests sind zu einfach. Also entwickelten die Wissenschaftler einen zweiten Test, der Menschen noch einfacher erscheint. DiCarlo:

    "”Wir haben selbst dreidimensionale Objekte am Computer erstellt und sie in Position, Größe und Anordnung im Bildausschnitt variiert. Und statt 101 verschiedener Objektarten, hatten wir nur zwei, Autos und Flugzeuge. Aber dieser Test erwies sich als viel schwieriger für unser einfaches Modell. Das war auch zu erwarten bei einer Testdatenbank, die wirklich die Schwierigkeiten bei der Objekterkennung angeht.""

    Warum aber ist es für ein Computermodell einfacher zwischen 101 verschiedenen Objekten zu unterscheiden als nur zwischen zweien? Fotosets wie Caltech101 nennt die Fachwelt "natürliche" Fotosets. Natürlich deshalb, weil alle möglichen Aufnahmesituationen abgedeckt werden sollen – allein durch die große Anzahl der Bilder. Doch bei genauerer Betrachtung zeigt sich, dass Objekte auf Fotos immer auf ähnliche Art und Weise ins Bild gerückt werden. Bildausschnitte und Motive ähneln sich. So wird den Objekterkennungsprogrammen die Arbeit leicht gemacht. Für die Wissenschaft sind diese Sets aber auch aus einem weiteren Grund nicht optimal: Sie sind nicht kontrollierbar. DiCarlo plädiert deshalb für eine wissenschaftlichere Herangehensweise, um die Qualität von Erkennungsprogrammen zu testen. DiCarlo:

    "”Man baut dabei einfach die Realität am Computer nach. Man nimmt Computermodelle von Objekten und bettet sie in echte Umgebungen ein. Der Vorteil ist, dass man diese Bilder kontrollieren kann. Man kann die Varianz mit Parametern einstellen: Die Position ein kleines bisschen verändern, den Blickwinkel ein kleines bisschen verändern, die Lichtverhältnisse ein kleines bisschen verändern. Und wenn die Programme besser damit fertig werden, dann kann man es schwieriger und schwieriger machen und sehen, ob die Programme mithalten, wenn man dem Variantenreichtum der echten Welt näher kommt.""