Freitag, 29. März 2024

Archiv


Semantische Suchmaschinen

Semantische Suchmaschinen verstehen natürlich-sprachliche Fragen und ergründen die Antwort in den Tiefen des World Wide Webs oder auf eigenen Datenbanken. Allerdings ist es ziemlich kompliziert, den Computern unsere Sprache beizubringen.

Von Jochen Steiner | 12.01.2012
    "Beatles People 200"."
    ""And anytime you feel the pain, hey this guy refrain, don´t carry the world upon your shoulders."
    "Watson."
    "Who is Jude?"
    "Yes."

    Watson wählt "Beatles Menschen" für 200 und folgende Antwort erscheint: "Immer wenn du den Schmerz fühlst, halte dich zurück, lade dir nicht die Last der ganzen Welt auf deine Schultern." Watson reagiert am schnellsten und nennt die richtige Frage: "Wer ist Jude?"
    Die Quizsendung Jeopardy läuft seit mehr als 40 Jahren im US-amerikanischen Fernsehen. Die Besonderheit: Die Kandidaten müssen die richtige Frage auf eine vorgegebene Antwort nennen.

    Im Februar 2011 kam es zu einem besonderen Jeopardy-Wettstreit. An drei Tagen hintereinander traten die Rekordchampions Ken Jennings und Brad Rutter an. Der dritte Kandidat war allerdings kein Mensch, sondern ein von IBM entwickeltes Computersystem namens Watson. Dessen Gegner Jennings und Rutter reagierten beim Spiel blitzschnell, doch Watson war meist noch schneller und präsentierte dann auch noch häufig die richtige Frage. Und so gewann Watson das dreitägige Turnier mit deutlichem Vorsprung.

    Watson ist eine sogenannte semantische Suchmaschine, die den Sinn einer Frage erfassen und dann mithilfe einer riesigen Datenbank oder durch eine Internetsuche die passende Antwort finden kann. Das mag sich ganz einfach anhören, ist es aber nicht.

    "Es gibt sehr viele Wörter, also sehr viele Begriffe, und es gibt eine unendliche Anzahl an semantischen Beziehungen, weswegen wir Menschen im Grunde genommen eine unendliche Anzahl an diversen Äußerungen und Texten produzieren können. Diese Vielfalt im Computer abzubilden ist das, was auch die sprachwissenschaftlichen Kenntnisse unbedingt erforderlich macht, um auf diesem Gebiet erfolgreich zu arbeiten."

    Linguistik und Informatik, das sind die Gebiete von Professorin Iryna Gurevych von der Technischen Universität Darmstadt. Sie und ihre Arbeitsgruppe forschen daran, wie Computerprogramme die menschliche Sprache verstehen können.

    "Die menschliche Sprache in die Computersprache zu übersetzen ist die zentrale Zielsetzung von dem Arbeitsgebiet 'automatisches Sprachverstehen' oder 'natural language processing', so heißt das auf Englisch."

    Das Computerprogramm muss in einem ersten Schritt die Bedeutung einzelner Worte ermitteln. Dazu greift es im Internet auf Onlinewörterbücher zu. Damit ist es beim Thema automatisches Sprachverstehen aber noch nicht getan:

    "Das ist deswegen ein sehr umfassendes Thema, weil die Sprache zum einen sehr vielfältig ist, zum anderen ist die Sprache auch sehr mehrdeutig. Und die Auflösung von verschiedenen Mehrdeutigkeiten, das heißt, verschiedene Lesarten für ein und dieselbe Aussage ist eigentlich die grundsätzliche Herausforderung auf dem Gebiet."

    Das bedeutet, in einem zweiten Schritt wird dann der Kontext der Worte betrachtet, denn davon hängt es ab, ob etwa beim Wort "Absatz" derjenige in einem Text oder der an einem Schuh gemeint ist. Dafür vergleicht der Computer die ihm vorliegende Frage mit Texten im Internet und registriert Wortüberlappungen zwischen der Frage und den Texten im Netz. So kann er den in diesem Fall korrekten Kontext ermitteln. All dies geschieht mithilfe von viel Mathematik und Informatik – sogenannte Algorithmen liegen den Programmen zugrunde.

    Dank Forschern wie Iryna Gurevych gelingt es semantischen Suchmaschinen bereits recht gut, Faktenfragen zu beantworten, also Fragen, deren Antworten Zahlen oder Daten sind. Ein Beispiel dafür ist die Suchmaschine Wolfram Alpha mit Sitz in den USA, die seit zweieinhalb Jahren online ist. Sie beantwortet Fragen zu Mathematik und Physik, liefert Wetterdaten, Aktienkurse und die aktuelle Position der Internationalen Raumstation ISS.

    "Das Interessante ist, nicht nur das einzelne Wissen zu haben, sondern jetzt diese verschiedenen Wissensgebiete auch miteinander zu korrelieren. Wenn man also wirklich alles Wissen frei verfügbar hat und miteinander korrelieren kann, kann man doch eine ganze Menge neue Sachen finden"

    ,sagt Michael Trott, Physiker bei Wolfram Alpha in Illinois. Er und seine Kollegen arbeiten daran, die Suchmaschine weiter auszubauen. Denn noch nicht alle möglichen Korrelationen kann Wolfram Alpha beantworten.

    "Sie können nicht fragen, wie viel Prozent der Spiele Bayern gegen Schalke hat Bayern zu Hause gewonnen, als es geregnet hat.""

    Aber immerhin neun von zehn Anfragen kann Wolfram Alpha korrekt beantworten, bislang allerdings nur in Englisch, weitere Sprachen sollen folgen.

    Auf den Servern des Unternehmens liegen riesige Datenmengen, bereitgestellt von Regierungen, der UNO und wissenschaftlichen Organisationen. Und weitere Daten sollen folgen. Michael Trott formuliert ein ehrgeiziges Ziel, bleibt aber trotzdem auch realistisch:

    "Wir werden sicherlich erhebliche Fortschritte machen über die nächsten zehn Jahre und wir werden denke ich in der Lage sein, mehr als 99 Prozent aller Fragen, die Leute uns geben zu beantworten, aber man kann niemals alles Faktenwissen haben. Das Weltwissen verdoppelt sich im Durchschnitt alle sieben Jahre, sodass da immer genug für uns für die nächsten hundert Jahre zu tun sein wird."

    Iryna Gurevych will nicht nur Antworten auf Faktenfragen, sie möchte bei einer Internetsuche in der Masse der Texte die qualitativ hochwertigen finden. Darunter versteht sie Texte, die nicht nur orthografisch und grammatikalisch korrekt, sondern auch strukturell logisch aufgebaut sind und deren Fakten stimmen. Solche Texte, so ihr Wunsch, sollten in den ungeheuren Datenmassen des Internets auf Anhieb zu finden sein. Sie sollten dann auch noch zusammengefasst werden, die wichtigsten Stichworte farbig hervorgehoben. An diesen Wünschen forscht ihre Arbeitsgruppe. In fünf Jahren könnte es vielleicht so weit sein. Dann sollten wir, so Gurevych, das kollektive Wissen effizienter nutzen können.

    "Dafür ist es notwendig, dass wir nicht nur nach Dokumenten suchen können, sondern dass wir IT-Werkzeuge haben, die das ganze Wissen für uns analysieren, bewerten, entsprechend strukturieren und aufbereiten, dass wir wesentlich weniger Zeit mit unproduktiver Informationsverarbeitung verbringen, als wir es heute müssen. Und dass ich mehr Zeit gewinne, für wirklich wichtige Fragen."

    So träumt Iryna Gurevych etwa davon, dass ein Computerprogramm eines Tages ihre vielen E-Mails lesen und bestimmte Anfragen automatisch beantworten kann. Das würde viel Zeit einsparen, meint sie. Trotz dieser Wünsche ist sich die junge Professorin in einem Punkt sicher:

    "Aber Computer werden bei sehr sehr vielen Fragen nicht in der Lage sein, den Menschen und Expertenkompetenzen zu ersetzen."