Archiv


Von Stecknadeln und Heuhaufen

Mit den bekannten Suchmaschinen scheinen sehr viele Nutzer offensichtlich äußerst zufrieden, sie seien kaum verbesserungswürdig, zeigen Umfragen. Das sehen Forscher am Max-Planck-Institut für Informatik in Saarbrücken anders: Neue, intelligente Lösungen wie YAGO und NAGA sollen noch einiges mehr bieten als Google und Co.

Von Klaus Herbst |
    "Google ist vor allem sehr schnell und es funktioniert auch für die Hälfte aller Anfragen, die man so hat, ganz gut."

    Bleibt die Frage: Was ist mit der anderen Hälfte? Läuft die Suchmaschine für die anderen 50 Prozent der Anfragen etwa gar nicht gut? Für viele einfache Nutzer ist sie immerhin fast synonym mit dem Internet geworden! Doktor Hannah Bast leitet ein Excellence Cluster am Max-Planck-Institut für Informatik in Saarbrücken. Zurzeit ist sie Gastwissenschaftlerin bei Google Schweiz, kennt also diese und andere Suchmaschinen sozusagen von innen.

    "Google findet einfach Dokumente, die die Worte enthalten, die man eingibt. Es macht einfach Stichwortsuche. Und das funktioniert erstaunlich gut. Wenn ich Lufthansa eingebe, dann komme ich auf die Lufthansa-Seite, weil da steht einfach Lufthansa prominent auf der Seite und sogar in der Adresse. Aber dann gibt es auch Anfragen, die erfordern, dass man etwas von der Sprache versteht. Und das macht Google einfach überhaupt nicht. Das hat Google ganz systematisch bisher nicht gemacht. Die haben sich auf dieses Einfache konzentriert, die reine Stichwortsuche. Das funktioniert sehr gut. Wo immer man Sprachverständnis braucht versagt es eigentlich. Dann findet man nicht, was man braucht."

    Google sucht, aber versteht nicht. Deswegen versuchen Saarbrücker IT-Forscher, Suchmaschinen auf ein so genanntes "expressives semantisches Level" zu heben. Was heißt: Sie sollen nicht nur nach den unzählbar vielen Wörtern suchen, sondern auch noch deren ausdrucksstarke Inhalte verstehen können - ein Quantensprung! Hannah Bast:

    "Das große Problem ist nach wie vor: Man hat jetzt diese ungeheuren Datenmengen, so wie Google sie hat, nicht? 20 Billionen Seiten, wie macht man jetzt da was drauf? Da kann man halt nicht anfangen, die ganze Welt zu verstehen oder so, sondern man muss irgendetwas machen, was halt auf 20 Billionen Dokumenten klappt. Das ist so die Herausforderung bei der ganzen Sache. Man hat sehr große Datenmengen, und jetzt muss man einfache Prinzipien finden, um da was zu machen, was aber dann halbwegs intelligent ist und seinen Zweck erfüllt. Und so Suchmaschinen wie Google waren da halt bisher sehr, sehr konservativ. Die hundertprozentigen Sachen machen die, und alles, was noch so mehr Unschärfe hat, lassen sie erstmal weg."

    Aber wie könnte man mehr Unschärfe, mehr Intuition und damit mehr Intelligenz in Suchmaschinen einbauen, mit denen heute fast jeder zufrieden ist? Professor Gerhard Weikum ist Wissenschaftlicher Direktor am Max-Planck-Institut für Informatik und einer der leitenden Forscher, Principal Investigators, im Excellence Cluster Saarbrücken. Suchmaschinen sollten ihren Horizont erweitern und nicht immer nur einzelne Webseiten als kleinste Such-Einheit in ihren bisherigen Tunnel-Blick nehmen.

    "Die Einheit der Antworten bei Google ist immer eine Webseite. Nehmen Sie an, Sie suchen Wissenschaftler aus Saarbrücken, die sich mit Suchmaschinen beschäftigen und englischsprachige Vorlesungen halten. Dann wären wir beide Treffer. Hannah Bast, Gerhard Weikum wären zum Beispiel gute Treffer. Aber es gibt keine einzige Webseite über keinen von uns beiden, die alle diese Suchbedingungen erfüllt, sondern meine Homepage zum Beispiel hat meinen Namen und sagt vielleicht Saarbrücken, aber diese englischsprachigen Vorlesungen, die stehen auf einer ganz anderen Webseite, liest zwei, drei Links davon entfernt."

    Dazu bedarf es also einer höheren intelligenten Eigenschaft, die man beim Menschen Abstraktionsvermögen nennt. Ganz konkret würde dies bedeuten, dass Suchmaschinen nach einer Anfrage versuchen, die Inhalte mehrerer verschiedener Webseiten gleichzeitig zu verstehen. Dann würden sie wahrscheinlich auf neue Ideen kommen, in Weikums Beispiel auf die Forscher, die nicht nur im Saarland arbeiten, sondern auch englischsprachige Vorlesungen halten. Würde man dann auch noch das Nutzerverhalten nicht nur erfassen, sondern – Datenschutz hin, Datenschutz her - auch noch systematisch auswerten, dann könnte eine Suchmaschine sogar die Motive hinter den Suchanfragen erspüren. Und bessere Ergebnisse liefern. Gerhard Weikum:

    "Man kann versuchen, die Anfrage besser zu verstehen und den Benutzer. Was ist überhaupt das Informationsbedürfnis? Da kann man einiges tun und die Interaktion mit der Suchmaschine reicher machen, kann auch beides machen. Man kann versuchen, die Daten besser zu verstehen. Also, was steht eigentlich in diesen Webseiten drin? Der Königsweg wäre da jetzt natürliche Sprachanalyse drüber zu betreiben und alle in eine komplizierte logische Repräsentation zu bringen. Da sind wir noch Jahrzehnte von entfernt."

    Aber wird der normale Nutzer schon bald davon profitieren – und nicht nur spezielle Berufsgruppen wie zum Beispiel Ärzte und Anwälte, was ja auch schon ein Fortschritt wäre? Wird dann die defizitäre zweite Hälfte der Suchanfragen endlich besser und technisch zu bewältigen bedient? Hannah Bast ist skeptisch.

    "Wo man das eher erreichen wird, ist auf so Sub-Sammlungen, auf Teilbereichen. Bis es auf dem Web kommt, das wird wahrscheinlich noch 30 Jahre länger dauern. Und da muss man ja auch viel mehr rechnen."