Donnerstag, 28. März 2024

Archiv


Wissende Brille und Computergedächtnis

Informatik. - Gestern Abend ging in Pommersfelden bei Bamberg ein zweitägiger Workshop zum Thema "Kognitives Sehen" zuende. Wenn wir Menschen sehen, denken wir, ordnen laufend das, was wir sehen, in unsere Gedanken- und Gefühlswelt ein. Einer Kamera beizubringen, dass die Tasse, die sie auf dem Tisch stehend sieht, ein Gerät zum Trinken ist, ist ein zentrales Anliegen der Forscher von vier Universitäten, die EU-Experten und Industrievertretern ihre Zwischenergebnisse vorstellten.

Von Maximilian Schönherr | 28.05.2004
    Alles, was gefördert werden möchte, braucht einen förderungswürdigen Namen. Dieses heißt wie der Vampir...

    Vampire, ein EU-Projekt, das sich der Entwicklung einer intelligenten Brille verschrieben hat, die in der Lage sein soll, Gegenstände, die ich vielleicht verloren habe, wiederzufinden. Ich kann dann also endlich mal fragen, wo ist mein Schlüsselbund, und sie sagt mir: Da ist er.

    Oder, anders ausgedrückt:

    Ganz grundsätzlich ist unser Fernziel schon so etwas wie Gedächtnisprothesen.

    Gunter Heidemann und Christian Baukhage, Informatiker an der Universität Bielefeld. Um es gleich vorweg zu sagen: Die Bielefelder Gruppe ist zwar weiter als andere, die denselben Bereich beackern, aber noch weit von ihrem Ziel entfernt. Holger Bekel sieht aus, als käme er gerade von der Baustelle:

    Wir haben einen Helm mit zwei Kameras vorne. Dazu gehört noch ein Display, wo mir meine Ergebnisse eingeblendet werden, sodass wir visualisiert bekommen, was wir gerade anfragen. Also: Zeige mir den Schlüssel; dann soll der mir ansagen, wo der ist.

    Also: Die auf den Helm montierten Kameras sehen die Umgebung in stereo. Das, was sie sehen, blenden sie dem Helmträger direkt vor den Augen ein. Weil man beim Gucken gern zeigt und spricht, nicht aber tippt oder mit der Maus klickt, haben sich die Bielefelder Informatiker eine Sprachsteuerung ausgedacht; man kann dem System Befehle ins Mikro sprechen. Und man kann mit dem Finger zeigen, auf eingeblendete Menüeinträge oder zum Beispiel dahin, wo jetzt die Tasse auf dem Tisch steht.

    Die Tasse kennt der Helm schon; immer wenn der Finger oder der Blick sich darauf richtet, erscheint eingeblendet das Wort "Tasse". Was der Helm aber noch nicht kennt, ist mein Schlüsselbund. Das System ist jetzt quasi wie ein kleines Kind, es hat noch nie Schlüssel gesehen, und es schaut sich das erst einmal von allen Seiten an. Das heißt, Herr Bekel muss dabei helfen und den Schlüsselbund in verschiedenen Lagen auf den Tisch legen. Jetzt geht es dem System wie dem Kind, was den Schlüsselbund schon erforscht hat. Es weiß jetzt, wie er aussieht, es weiß aber noch nicht, wie das Ding heißt. Es muss ihm gesagt werden: Das, was du jetzt kennengelernt hast, das heißt Schlüsselbund. Wenn wir das jetzt ganz gründlich trainieren wollten, müssten wir uns natürlich noch zehn Minuten Zeit nehmen und einige Ansichten mehr bereitstellen.

    Das Hirn des Kinds ist ein handelüblicher Notebookcomputer, auf dem viele Programme gleichzeitig laufen, Spracherkennung, Mustererkennung, aber auch ein so genanntes Neuronales Netz. An diesem dem menschlichen Gehirn nachempfundenen Modul liegt es, dass es eine Weile dauert, bis das System den Schlüsselbund einigermaßen gut kennt, bis er sich sozusagen "eingeprägt" hat. Die Programmierung Neuronaler Netze ist ein Kerngebiet des Bielefelder Instituts für Neuroinformatik. Kollegen an den Universitäten von Erlangen, Graz und Surrey arbeiten an kleineren Kameras, größeren Blickfeldern und der Orientierung im dreidimensionalen Raum. Ein Schlüsselbund unterscheidet sich vom anderen. Wie geht das System damit um?

    Zeige mir den Schlüssel! Mal sehen, ob es das jetzt erkennt. Also, wir haben jetzt den Schlüsselbund ausgetauscht; das ist ganz fies. Ja, die Spannung steigt jetzt natürlich. Wähle Knopf eins! Er erkennt jetzt beide als Schlüssel. Ich hab mir die Label anzeigen lassen, und wir sehen, dass beide Schlüsselbünde erkannt werden.

    Das neuronale Netz lernt dauernd dazu, und zwar in zwei Ebenen: Frei, einfach, in dem es sich quasi mit dem Anwender zusammen die Welt anguckt. Und indem der Operator immer wieder lenkend eingreift und Fehler korrigiert. Es gibt noch einen höheren Ansatz der Informationsverarbeitung. Im Institut für Angewandte Informatik versucht man, der Brille ein Weltbild der Zusammenhänge zu vermitteln. Statt ihr zu sagen, das ist ein Schlüssel, das ist eine Tasse, soll sie auch wissen, dass Tassen in der Regel nicht an der Wand hängen, sondern in einem bestimmten Zusammenhang aktiv werden.

    Wie bewegen sich die Hände der Menschen? Werden sie in Richtung eines Objektes geführt und anschließend in Richtung des Gesichts, dann nehmen wir an, das Objekt, auf das sich die Hand zunächst zu bewegt hat, ist vielleicht ein Trinkgefäß, und wenn es dann Richtung Mund geführt wird, dann beobachten wir gerade eine Handlung des Trinkens.

    Wenn die Brille dann auch noch weiß, dass Tastaturen zum Tippen da sind, könnte sie Alarm schlagen, wenn sich der Inhalt der Tasse über der Tastatur entleert. Diese Einordnungen sind nach Meinung der Bielefelder Vampire-Entwickler die größeren Hindernisse als die Rechenpower und die Miniaturisierung. Von der alten Idee der Künstlichen Intelligenz hat man sich auf jeden Fall verabschiedet. Eine Brille, die einem nicht nur banal sagt, du hast deinen Schlüssel im Auto liegen lassen, sondern die Welt erklärt, die wird es nie geben, denn

    ... dieses System hätte ja nur dann einen Sinn, wenn es mehr über die Welt weiß als wir. Und alles, was das System weiß, müssen wir ihm erst beibringen.