Dienstag, 23. April 2024

Archiv


Sprachkünstler im Dienst der EU

Informationstechnik. - Tagen die Vertreter der 27 EU-Mitgliedsstaaten, sind handfeste Ergebnisse nur möglich dank qualifizierter Dolmetscher. Eine Hilfe wäre die automatisierte Übersetzung. Das Projekt TC-Star erforschte diese Anwendung, doch die Technik hat noch ihre Tücken.

Von Michael Gessat | 02.04.2007
    "TC-Star ist ein Projekt, in dem gesprochene Sprache zunächst einmal erkannt oder verschriftet wird, dann wird der Text übersetzt, etwa vom Englischen ins Spanische, und dann wird der Text synthetisch ausgegeben mit einer künstlichen Stimme, die sich aber möglichst so anhören soll wie der Originalsprecher..."

    ...erläutert Volker Steinbiss von der gastgebenden Rheinisch Westfälischen Technischen Hochschule Aachen. Englisch und Spanisch gewissermaßen als EU-Vertreter, und dazu noch Chinesisch gerade wegen seiner strukturellen Andersartigkeit, das sind die drei Sprachen, auf die sich die an TC-Star beteiligten Teams beschränkten. Dafür aber funktionieren die entwickelten Software-Modelle ohne jede Festlegung auf bestimmte inhaltliche Felder - im Gegensatz zu Speziallösungen mit eng begrenztem Wortschatz:

    "Also im Europäischen Parlament, da geht's um Fischereifragen, um Frauenrecht und jetzt halt um globale Erwärmung, die Themen sind eben ziemlich breit."

    Auf dem Weg zum maschinellen Simultandolmetscher hat man zwei der drei Etappen schon ganz gut im Griff. Spracherkennung begegnet einem bereits - mit akzeptablen Ergebnissen - im Alltag: Bei Diktiersystemen für den PC, beim Telebanking, oder bei allen möglichen Hotlines. Und auch die synthetische Sprachausgabe kann sich hören lassen. Bleibt als Sorgenkind die eigentliche maschinelle Übersetzung. Die konkret erreichbare Übersetzungsqualität hängt stark von der Ausgangs- und Zielsprache und von der Komplexität des Textes ab. Zufrieden sein kann man momentan schon mit Sätzen, in denen noch 15 Prozent Fehler stecken. Professor Hermann Ney von der Technischen Hochschule Aachen:

    "Es ist sicherlich so, das muss man sagen, dass diese Übersetzungen nicht so sind, dass man sie in der Form als endgültige Übersetzungen nehmen kann. Also sie können einem Menschen als Rohfassung dienen, woran der dann weiter arbeiten kann, oder sie können ihm eine Vorstellung geben, worum es da in dem Dokument oder auch in der Debatte geht. Also dass da ein perfekter Satz in der Zielsprache herauskommt, das ist zwar das Ziel, aber ist sicherlich schwierig zu erreichen und wird auch noch auch noch einige Zeit dauern."

    Eine Zeit lang steckte die maschinelle Übersetzung in einer algorithmischen Sackgasse: Die Systeme der älteren Generation arbeiteten regelbasiert. Das heißt, man versuchte, die Grammatik und Syntax einer Sprache von vornherein zu erfassen, zu definieren und in einem Übersetzungssystem einzuprogrammieren. Alle Entwicklerteams bei "TC-Star" setzen auf ein neues Verfahren. Als erstes wird der Rechner dabei mit konkretem Sprachmaterial gefüttert. Zum Beispiel mit Protokollen der EU-Parlamentsdebatten, die im Original und in qualifiziert übersetzten Versionen vorliegen. Salim Roukos von IBM:

    "Das funktioniert so, dass wir einen parallelen Textkorpus haben, der uns eine Wort-zu-Wort- oder Satzteil-zu-Satzteil-Übersetzung ermöglicht. Für jeden Satzteil oder für jede Redewendung kann es mehrere plausible Übersetzungen geben, mit verschiedenen statistischen Wahrscheinlichkeiten. Und darüber hinaus nutzen wir unübersetztes Material der Zielsprache. Wenn wir also vom Spanischen ins Englische übersetzen, dann hilft uns das zusätzliche englische Datenmaterial, zu entscheiden, was ein guter englischer Satz ist."

    Der besondere Charme dieser statistischen oder datengetriebenen Modelle: Der Rechner verbessert quasi im Alleingang seinen Stil und seine Übersetzungsleistung, je mehr er zu lesen bekommt. Die maschinellen Simultandolmetscher spitzen bereits die Ohren: Beim "Media Monitoring", wenn Firmen wissen wollen, ob ihr Markenname im arabischen oder chinesischen Fernsehen erwähnt wird. Und man darf unterstellen, dass auch Polizei- und Nachrichtendienste auf diese Weise eine erste Vorauswahl aus überwachten Sendern oder Websites treffen. Wenn das System bei bestimmten Schlüsselworten "anschlägt", dann schauen Menschen genauer hin. Das Forschungsprojekt "TC-Star" läuft nach nunmehr drei Jahren aus, aber ein fertiges Produkt ist noch lange nicht in Sicht. Ob also eines Tages Maschinen im Brüsseler Parlament simultan dolmetschen werden, das muss sich erst noch erweisen.