Sonntag, 19. Mai 2024

Archiv


Mehr als Namen

Gleich drei Konferenzen fanden diese Woche in Graz statt. Bei der Konferenz "triple-i" ging es um Wissensmanagement, Semantik Web und Web 2.0 - Themengebiete, die sich mit dem Informationsaustausch und dem Sammeln von Informationen beschäftigen.

Von Mariann Unterluggauer | 06.09.2008
    Vor genau zehn Jahren, im September 1998, beschrieb Tim Berners Lee seinen Plan für das "Semantic Web". Die Vision: Maschinen sollten gespeicherte Informationen verstehen können, um die oft langwierige Suche nach der richtigen Information übernehmen zu können. Einige Erfolge, so der Computerwissenschafter Henry Lieberman vom MIT, könne man dem den Forschern heute sehr wohl zugestehen: Call Center zum Beispiel funktionierten dank Spracherkennung recht gut, aber nach wie vor seien Computer nicht in der Lage, die für den Menschen verständliche Informationen zu verarbeiten. Was den Maschinen fehle, so Henry Lieberman, sei etwas, das allgemein "gesunder Menschenverstand" genannt wird.

    "Ich erinnere mich, dass damals Tim Berners Lee folgendes Beispiel verwendete: das Semantic Web sollte es ermöglichen, einem Software Agenten zu sagen, "Vereinbare einen Termin für meine Mutter, mit einem Arzt, der nicht weiter als zehn Meilen entfernt ist". Dieser Agent sollte dann eine Liste von Ärzten durchforsten, deren Terminkalender mit dem der Mutter vergleichen und darauf basierend automatisch einen Termin festlegen."

    Das Problem, so Henry Lieberman, sei aber, dass kein Software Agent darüber Auskunft geben könne, ob die Praxis des Arztes zu Fuß, per Bus oder nur mit dem Auto erreichbar ist. Ganz einfach, weil das Programm dieses Wissen nicht besitzen würde. Und auch das grundlegende Problem der eindeutigen Klassifizierung von Dokumenten ist bislang nicht zufrieden stellend gelöst. Benno Stein von der Bauhaus Universität Weimar beschäftigt sich damit schon seit Jahren. Er und sein Team arbeiten an der Entwicklung einer effizienten Personensuche im Netz.

    "Das Internet ist die größte verfügbare Datenbank, nur unglaublich schlecht organisiert. In dem Sinn darf man gar nicht von Datenbank sprechen, sondern eher von einem Datenhaufen. Wenn man etwas erfahren will, dann ist es im Internet irgendwie drinnen, - versteckt will ich gar nicht sagen, weil es ist nicht mit Absicht versteckt, sondern es ist zugedeckt."

    Letztes Jahr nahmen Bruno Stein und sein Team an einem Wettbewerb des amerikanischen Unternehmens Spock teil: die "Spock Data Mining Challenge". Die Aufgabe lautete: Wissen über Personen aus dem Internet zu generieren. 50.000$ war dem Unternehmen die Lösung wert.

    "Das ist im unsortiertem Fall nicht schwierig: Sie tippen irgendeinen Namen ein und lassen sich von Google die paar Millionen Seiten über diesen Namen geben, aber damit können Sie noch nicht viel anfangen. Wenn man das jetzt sortieren könnte, zum Beispiel die Personen, die gleich heißen, aber verschieden sind, auseinander dividieren, dann ist man schon einen Riesenschritt weiter. Und das war die Spock Challenge."

    Die Suche nach Methoden, mit denen Dokumente eindeutig auch Personen mit identischem Namen zugeordnet werden können, erwies sich viel schwieriger als auf den ersten Blick angenommen. Software zu entwickeln, die zum Beispiel zwischen Michael Jordan, dem Basketballspieler, und Michael Jordan, dem Statistiker, unterscheiden kann, stellte sich für viele Teilnehmer an dem Wettbewerb als unlösbare Aufgabe heraus. Und selbst das Ergebnis der Gewinner, Benno Stein und seinem Team von der Bauhaus Universität Weimar, klingt nüchtern betrachtet nicht gerade überwältigend. Nur rund 50 Prozent der 100.000 Dokumente konnte den gesuchten 30 Personen eindeutig zugeordnet werden.

    "Das hört sich nicht nach viel an, aber das ist für die Schwierigkeit des Problems, für das Rauschen in den Daten und für die Komplexität der Fragestellung ein sehr gutes Ergebnis. Ich glaube, wenn man die Technologie weiter ausreizt, könnte man etwas höher kommen, ich denke 60 Prozent, aber viel besser, so wie der Mensch ist, das sehe ich zurzeit nicht, dass man das schaffen kann."

    Während ein Mensch zum Beispiel anhand der Struktur und der Präsentation feststellen kann, ob er sich auf der Webseite eines Basketballspielers oder eines Wissenschaftlers befindet, gibt es derzeit keine Software, die diese Aufgabe problemlos bewältigen könnte. Und trotzdem. Die meisten Benutzer sind mit den Ergebnissen der heutigen Suchmaschinen im Großen und Ganzen zufrieden.

    "Ja, das stimmt. Ich führe das darauf zurück, dass die Menschen es sich nicht klar machen, wie zufällig ihr Suchergebnis ist."

    Heute, so Benno Stein, wird unter Suchmaschinen-Apologeten darüber diskutiert, ob nicht der Mensch wieder vermehrt in den Prozess der Klassifizierung eingebunden werden sollte. Ganz im Sinne des sozialen Netzwerk-Paradigmas: die Gemeinschaft der Menschen und nicht die der Maschinen sorgt für ein wenig mehr Ordnung im Datenhaufen.