Dienstag, 23. April 2024

Archiv


Blick für das Wesentliche

Informatik. - Computer können noch längst nicht so sicher wie Menschen Dinge in Fotos oder Videos identifizieren. Noch schwieriger ist es für die Maschinen, Schlussfolgerungen aus den Bildern zu ziehen. Bei einem Seminar im Leibniz-Zentrum für Informatik im Schloss Dagstuhl im Saarland versuchen 40 internationale Wissenschaftler, der Lösung des Problems ein Stück näher zu kommen.

Von Thomas Reintjes | 27.02.2008
    Die Realität ist leider nicht immer logisch. Ihre Regeln sind komplizierter als einfache Wenn-Dann-Entscheidungen, ein Zustand ist nicht immer schwarz oder weiß oder null oder eins. Das stellt Computer vor Probleme, wenn sie Bilder aus der Realität interpretieren sollen. Das gilt für Videokameras, die etwa den Bodenverkehr eines Flughafens überwachen sollen, genauso wie für Roboter, die sich in Zukunft einmal in unseren Haushalten zurechtfinden sollen. Ständig stoßen sie dabei auf neue Probleme.

    "Wir Menschen haben alle schon mal Tiere gesehen, wir kennen Straßenszenen, wir kennen verschiedene Gegenstände. Das hilft, neue Dinge einzuordnen, die wir noch nie gesehen haben. Wie machen wir das? Und wenn wir etwas Neues gesehen haben, wie können wir dann dieses neue Wissen nutzen, wenn wir den nächsten unbekannten Gegenstand sehen? Es geht also um Fragestellungen des Lernens."

    Mit solchen Problemen beschäftigen sich Anthony Cohn von der Universität Leeds und seine Kollegen in ihrer täglichen Forschung und auf dem Seminar im Saarland. Computern, sagt Cohn, macht aber nicht nur mangelnde Erfahrung zu schaffen, wenn es um das Interpretieren von Videos geht. Den Maschinen fehlt der Zusammenhang.

    "Wir Menschen können das vielleicht nachvollziehen, wenn wir plötzlich einer neuen Situation ausgesetzt werden. Dann wissen wir manchmal auch nicht, was eigentlich vor sich geht. Wenn wir plötzlich aufwachen und sagen, meine Güte, wo bin ich? Dann kann es ein paar Sekunden dauern, bis wir den Kontext begreifen."

    Ist der Zusammenhang klar, wird es viel einfacher, sich in der Welt zurechtzufinden. Ein unbekanntes Objekt im Zoo wird dann vermutlich ein Tier sein, ein seltsamer Gegenstand in einer Wohnung ist dagegen eher ein Nierentisch aus den 50er Jahren. Doch Menschen haben neben solchem Hintergrundwissen, ihrer Erfahrung, einen weiteren Vorteil gegenüber den Maschinen: Sie können sich auf bestimmte Dinge in einem Bild konzentrieren. Während ein Computerprogramm sich stets mit jedem einzelnen Pixel beschäftigt, kann das menschliche Sehsystem einen großen, vermeintlich uninteressanten Teil des Bildes einfach ausblenden. Mit diesem Trick kann das Gehirn Bilder viel effizienter verarbeiten. Dass er funktioniert, manchmal sogar fast zu gut funktioniert, hat Anthony Cohn besonders eindrucksvoll gelernt, als die Forscher ein Video von einem psychologischen Versuch sahen. Ein Video mit einem Basketballspiel - schwarz gegen weiß.

    "Man sagt dem Betrachter des Videos, er soll zählen, wie oft sich die Spieler des weißen Teams den Ball gegenseitig zupassen. Und am Ende fragt man: Hast du den Gorilla gesehen? Da war jemand als Gorilla verkleidet mitten durchs Bild gelaufen, hat die Arme geschwenkt. Aber 90 Prozent der Versuchspersonen haben den Gorilla nicht gesehen, weil sie sich auf eine bestimmte Aufgabe konzentriert haben. Aber wenn sie das Video dann noch mal ansehen, sagen sie: 'Wie konnte ich den Gorilla übersehen?'"

    Auf genau die gleiche Art und Weise nehmen wir bestimmte Dinge unterschiedlich stark wahr - je nach dem, ob wir uns beispielsweise mit dem Auto, mit dem Fahrrad oder zu Fuß durch die Stadt bewegen. In jeder Situation sind andere Dinge wichtig. Die Wissenschaftler versuchen deshalb, den Fokus eines Programms auf bestimmte Elemente eines Videobildes zu lenken. Sie müssen dazu viele Verfahren aus unterschiedlichen Disziplinen miteinander kombinieren.

    "Die Entwicklungen der vergangenen 40, 50 Jahre auf dem Gebiet der künstlichen Intelligenz haben gezeigt, dass nicht eine einzelne Technik Computer mit einem Schlag intelligent machen kann. Es ist eine komplizierte Mischung vieler verschiedener Ideen, Darstellungen, Techniken, Methoden."

    Modelle aus der Stochastik etwa sollen unscharfe Interpretationen zulassen - das Schwarz-Weiß-Denken der Rechner aufweichen. So sollen sie Abläufe besser durchschauen und daraus die richtigen Schlüsse ziehen können. In Zukunft sollen Maschinen auch Mutmaßungen anstellen können und erahnen, dass dem Ball, der auf die Straße rollt, noch ein Kind folgen könnte. Und schließlich soll all dies in Echtzeit passieren oder im Idealfall noch schneller ablaufen als im Gehirn: für die Wissenschaft ein hohe Messlatte.