Freitag, 29. März 2024

Archiv

Sprachensoftware
Wettkampf der Übersetzungsmaschinen

Übersetzungsprogramme im Internet oder als stationäre Software liefern nicht selten Ergebnisse, die mit der ursprünglichen Aussage allenfalls wenig zu tun haben. Ein Informatiker-Wettbewerb in Berlin soll dazu führen, dass die kleinen Helfer in Zukunft präzisere Sprachdienste leisten.

Von Tim Schröder | 11.08.2016
    Leider liegt für dieses Bild keine Bildbeschreibung vor
    Übersetzungsmaschinen arbeiten heutzutage mit statistischen Lernverfahren (picture alliance / ZB)
    How do you do? Comment ça va? Wie geht es Ihnen? Solche Begrüßungen gehen vielen Menschen leicht über die Lippen. Auch für Übersetzungsprogramme sind sie eine Kleinigkeit. Bei komplexen Formulierungen aber liefern die Programme oft Kauderwelsch. Schon der Satz: "Dieses Programm bringt es nicht", wird von Google Translate so übersetzt, dass er auf Englisch keinen Sinn ergibt: "The program does not bring".
    Um Übersetzungssoftware besser zu machen, gibt es jedes Jahr einen großen Wettbewerb, den Workshop on Statistical Machine Translation. Josef van Genabith, Informatiker am Deutschen Forschungszentrum für Künstliche Intelligenz in Saarbrücken, hat den diesjährigen Wettbewerb mitorganisiert.
    "Alle Teilnehmer bekommen Testdaten, die keines von diesen Teams gesehen hat. Das sind 1000 Sätze oder 5000 Sätze und die müssen dann von diesen Systemen übersetzt werden."
    Wie in der Leichtathletik gibt es verschiedene Disziplinen. Die Computer müssen Zeitungsnachrichten oder Texte über Biomedizin und Informatik übersetzen. Zum Standard gehören Übersetzungen vom Englischen ins Deutsche oder Tschechische. Neu dabei sind in diesem Jahr Rumänisch und Türkisch. Probleme haben die Programme vor allem bei Sprachen, die sich stark unterscheiden.
    "Also die Übersetzung zwischen dem Englischen und Französischen ist gut, Englisch und Spanisch ist richtig gut. Aber Englisch – Deutsch, das ist schon eine ganze Ecke schlechter."
    Josef van Genabith kennt die Fehler die Computerprogramme machen. Eine Hürde bei den deutsch-englischen Übersetzungen sind zum Beispiel die Hilfsverben.
    "Ein Beispielsatz wäre 'Er wird morgen Mittag mit dem Bus zur Arbeit fahren.' Das Hilfsverb ist das 'wird' und 'fahren' ist das Hauptverb. Aber das Hilfsverb und das Verb sind getrennt von einer ganz langen Sequenz von Wörtern, 'morgen', 'Mittag', 'mit dem Bus'. Im Englischen kann man die Hilfsverben und das Hauptverb nicht so auseinander reißen, wie im Deutschen. Im Englischen würde das sowas sein wie: 'He will travel tomorrow with the bus to work.' Das ist noch ein schwieriges Problem für die maschinelle Übersetzung.
    Früher versuchten Informatiker, die Sprache in Regeln zu pressen und damit ihre Computer zu füttern. Doch stießen sie dabei schnell an Grenzen, weil es ungeheuer viele Regeln gibt.
    "Das ist sehr komplex. Das braucht einen wahnsinnigen Aufwand, große Teams, viel Geld. Man ist da eigentlich nie richtig fertig."
    Das macht der englische Ausdruck "on the table" deutlich. Der Satz "Put it on the table" wird mit "lege es auf den Tisch" übersetzt. "It is on the table" bedeutet "Es ist auf dem Tisch". Der Computer als Dolmetscher muss also je nach Verb Akkusativ oder Dativ wählen können. Heute verwenden die meisten Informatiker lieber statistische Lernverfahren. Sie füttern ihre Computer nicht mehr mit Regeln, sondern mit Wortpaaren aus Texten, die Menschen übersetzt haben.
    "Und anhand dieser Daten lernt die Maschine Übersetzungsmuster. Sie fängt an zu lernen, welche einzelnen Wörter werden denn als welche anderen Wörter übersetzt. Welche Wortpaare werden als andere Wortpaare ersetzt. Welche Phrasen, die zusammen gehören, wie werden die denn als Gruppe übersetzt."
    Maschinelles Lernen heißen diese Verfahren. Damit können Computer von allein immer besser werden.
    "Wenn jetzt ein neuer Satz kommt, den die Maschine noch nicht gelernt hat, dann versucht die Maschine, den zu übersetzen, indem sie diesen neuen Satz in einzelne Bestandteile zerhackt. Und zu diesen kleineren Bausteinen hat die Maschine in ihrem Gedächtnis schon Übersetzungen gelernt und gespeichert. Vielleicht auch mit Wahrscheinlichkeitsverteilungen. Wie wahrscheinlich wird denn das Wort als dieses Wort übersetzt oder als jenes Wort."
    In Berlin treten gut 20 Teams aus aller Welt an. Josef van Genabith gehört zum Team QT-21, in dem er mit Forschern von anderen Hochschulen und Instituten an der perfekten Übersetzungsmaschine arbeitet.
    "Ich darf natürlich noch nicht die Resultate des Wettbewerbs vorwegnehmen, aber ich kann so viel verraten, dass wir ganz gut abgeschnitten haben."
    Letztlich sind die Siegestrophäen bei diesem Workshop eher unwichtig. Wichtiger ist der Austausch zwischen den Forschern. Die Sieger legen offen, wie sie ihre Computer programmiert haben, damit alle besser werden können.