Freitag, 19. April 2024

Archiv

Automatische Live-Untertitelung im TV
Aus Ton mach Text

Nur wenige Fernsehsendungen werden derzeit mit Untertiteln versehen. Die bisherigen Verfahren brauchen immer einen Menschen, der den gesprochenen Text hört, ihn in eine Sprachsoftware diktiert, die dann wiederum Text produziert. Das Ziel des Projekts LiveCaption ist die Entwicklung einer automatischen Generierung - mithilfe einer anspruchsvollen Software.

Von Leonie Seng | 22.06.2015
    Eine Fernbedienung wird am 09.01.2012 in Düsseldorf (Nordrhein-Westfalen) in Richtung eines Fernsehers gehalten.
    Die automatische Übersetzung erfordert die Entwicklung einer Software, die die Sprache unterschiedlicher Sprecher in verschiedenen akustischen Situationen meistert. (picture alliance / dpa / Caroline Seidel)
    Statt Fernsehen könnte es genauso gut Fernhören heißen. Der Ton ist zwar vielleicht nicht ganz so wichtig wie das Bild, aber trotzdem schauen die meisten Menschen – wenn überhaupt – lieber mit als ohne Ton fern. Für gehörlose und hörgeschädigte Menschen ist der uneingeschränkte Genuss von Dokumentationen, Talk-Shows und Nachrichten im Fernsehen daher keine Selbstverständlichkeit. Zwar bieten einige Fernsehsender – vor allem die öffentlich-rechtlichen – inzwischen die Übersetzung ihres Programms in Form von Text oder Gebärdensprachen-Videos an, die bisherigen technischen Möglichkeiten bringen jedoch diverse Probleme mit sich.
    Die bislang meist eingesetzte Methode: das sogenannte Respeaking
    So überlagern Felder mit dem übersetzten Text oft das eigentliche Bild. Eingeblendete Gebärdensprachen-Videos führen zu einer Verkleinerung des anderen Videos. Außerdem ist nach wie vor die zeitnahe und gute Übersetzung von Live-Sendungen ein Problem. Das Projekt "LiveCaptions", umgesetzt von der VerbaVoice GmbH, der Step2e Broadcast AG und dem Fraunhofer-Institut für Intelligente Analyse und Informationssysteme, hat daher die automatische Generierung von Live-Untertiteln zum Ziel. Christoph Schmidt vom Fraunhofer Institut:
    "Normalerweise gehen wir eben so vor, dass wir eine ganze Sendung erkennen, das heißt, wir haben eine fertig gefilmte Sendung und leiten darauf die automatische Spracherkennung... oder führen die darauf durch. Und im jetzigen Projekt versuchen wir eben live die Sendung sofort zu untertiteln. Das ist eben die Herausforderung: Einmal, das so zu beschleunigen, dass man zeitnah den Untertitel beschriften kann und außerdem eine gute Erkennungsrate zu erreichen."
    Bislang werden Live-Sendungen meist mittels des sogenannten "respeaking" übersetzt. Dabei hört ein Mensch den gesprochenen Text und spricht ihn erneut ein. Eine speziell auf seine Stimme trainierte Software macht aus diesem Ton dann Text. Die automatische Übersetzung erfordert die Entwicklung einer Software, die die Sprache unterschiedlicher Sprecher in verschiedenen akustischen Situationen meistert. Schwierig ist dabei auch die Erkennung der Satzstruktur des gesprochenen Textes, also die Anordnung von Subjekt, Prädikat und Objekt. Christoph Schmidt:
    "Der Computer lernt automatisch diese Varianzen, also zum Beispiel weibliche, männliche Sprache, verschiedene Mikrofonsituationen oder verschiedene Aussprachen, gerade dialektale Aussprachen. Und je mehr Trainingsdaten man ihm zur Verfügung stellt, desto mehr kennt er diese Unterschiede und kann auch diese Varianz dann erkennen. Wenn ich zum Beispiel ein System habe, was nur auf Hochdeutsch trainiert ist und ich gebe ihm dann einen bayerischen Sprecher, wird er das wesentlich schlechter erkennen. Wenn ich aber in den Trainingsmaterialien schon bayerische Daten habe, dann wird er auch diese gut erkennen."
    Position und Größe des Textes sind variabel
    Die Software wird also anhand des Materials regelrecht trainiert. Am Ende gibt sie die Wahrscheinlichkeit an, mit der ein bestimmtes Wort gesagt wurde. Robin Ribback von der am Projekt beteiligten VerbaVoice GmbH:
    "Wenn ich mehrere Worte vergleiche, dann kann ich rein statistisch sagen, welche Worte erkannt wurden; so wie man zum Beispiel sagt: Guten Morgen, guten Appetit, guten Abend. Selten wird man sagen: Guten Känguru, weil das nicht so wahnsinnig viel Sinn macht."
    Der Empfang von Untertiteln funktioniert dann über eine Set-Top-Box, eine Art Receiver, die an den Fernseher angeschlossen wird. Die Daten werden meist übers Internet übertragen. Alternativ gibt es eine entsprechende App für Smartphones. Position und Größe des Textes sind variabel, ebenso wie beim zusätzlich einblendbaren Gebärdensprachen-Video. Diese Eigenschaft unterscheidet das neue Projekt auch von herkömmlichen Angeboten. Allerdings wird auch bei der automatischen Spracherkennung sowohl bei vorproduzierten Sendungen als auch bei der Live-Untertitelung eine manuelle Korrektur nachgeschaltet. Die Verzögerungszeit von etwa 3 bis 5 Sekunden, mit welcher der Text eingeblendet wird, sei dennoch geringer als bei der Untertitelung mittels "respeaking".