Sprachsynthese

Wie sich Stimmen über den Computer manipulieren lassen

Soundkurve auf einem Computer.
Mit modernen Sprachsynthesesystemen lässt sich auch die Stimme eines Menschen kopieren. © imago/Science Photo Library
Von Jennifer Rieger · 03.08.2017
Forscher arbeiten daran, Computerstimmen Persönlichkeit und Emotion zu geben. Für Versuche kopieren sie auch die Stimmen von Politikern und Schauspielern. Wie genau funktioniert die Sprachsynthese? Und was passiert, wenn wir Menschen beliebige Sätze in den Mund legen können?
Die Stimme in diesem YouTube-Video gehört zu Donald Trumps Beraterin Kellyanne Conway und stammt aus einem Interview mit dem US-Fernsehsender NBC am 22. Januar. Doch die Frau im Video, die ihre Lippen synchron bewegt, ist nicht Kellyanne Conway – sondern die französische Sängerin Françoise Hardy.
Die inzwischen 73-Jährige sieht im Video allerdings aus wie 20 – manchmal verschwimmt ihr Gesicht, mal scheint sie direkt vor der Kamera zu stehen, mal weiter weg. Der Titel dieses merkwürdigen Mashups: Alternative Face v1.1. Ein Besuch beim Urheber des Videos, Mario Klingemann, in seinem Münchner Atelier.
Mario Klingemann arbeitet mit neuronalen Netzen, die Forscher im Internet zur Verfügung stellen. Er füttert den Rechner mit Video- oder Fotomaterial, das neuronale Netz bildet sich daraus sozusagen ein Bild der Welt und generiert tausende neue Bilder. Der Künstler wählt dann die interessantesten aus.
So entstand auch "Alternative Face v1.1": Klingemann trainierte sein Modell mit Videos der Sängerin und das neuronale Netz generierte daraus eine 20-jährige Françoise Hardy, die über alternative Fakten redet.
Mario Klingemann: "Eigentlich ein Experiment. Aber anscheinend gerade jetzt zur richtigen Zeit am richtigen Ort gewesen. Und das hat dann quasi natürlich viel Aufmerksamkeit gefunden, weil natürlich wir in der Fake News Zeit leben anscheinend."
Mario Klingemann arbeitet hauptsächlich mit Fotos und Videos. Audio hat er vorerst aufgegeben.
"Audio ist erstaunlicherweise schwieriger zu generieren als Bildmaterial, weil anscheinend das Ohr da wesentlich kritischer ist, was das betrifft."
Die meisten Computerstimmen jedenfalls sind mit menschlichen noch lange nicht zu verwechseln.
Autorin: "Hey Siri, wie komme ich zu SlowSoft in Zürich?"
Siri: "Schau mal, was ich gefunden habe!"
Sprachsynthese – also computergenerierte Sprache – basiert meist auf konkatenativen Systemen ...
Christof Traber: "... die natürlichsprachlichen Aufnahmen von normalerweise professionellen Sprechern und Sprecherinnen verwenden und diese neu zusammenstückeln, um ein neues Sprachsignal zu erzeugen."

Standardisiertes Lautschriftalphabet

Das ist Christof Traber, Gründer von SlowSoft. Die kleine Zürcher Firma entwickelt Systeme für synthetische Sprache – die einmal als Lernhilfe für Schweizerdeutsch und Rätoromanisch eingesetzt werden könnten. Auf seinem Laptop präsentiert Christof Traber den Prototypen.
Computer: "Ich begrüße Frau Doktor Rieger bei SlowSoft in Zürich!"
Das System wurde mit rund 600 Sätzen gefüttert, etwa eine halbe Stunde Text, gesprochen von einer menschlichen Sprecherin. In einem ersten Schritt wurden die Sätze in ein standardisiertes Lautschriftalphabet übersetzt. Im zweiten Schritt sucht die Software passende Stücke aus der Datenbank heraus und setzt sie neu zusammen. Auf diese Weise natürlich klingende Sprache zu synthetisieren, ist allerdings nicht ganz einfach.
Christof Traber: "Ein Kriterium zum Beispiel ist, es darf keine groben Brüche in der Tonhöhe der einzelnen Laute geben. Nehmen wir das Wort Mann, weil es drei stimmhafte Laute sind, M, A, N. Dann darf das M also nicht... M, A, N, wenn ich das zusammenfüge, dann gibt es irgend so ein komisches Ding, was man kaum versteht. Es muss also wirklich schön aufeinanderfolgen."

Photoshop für die Stimme

Künftig könnte Sprachsynthese jedoch in neue Qualitätssphären aufsteigen. "WaveNet" des Google-Tochterunternehmens DeepMind zum Beispiel nutzt in der Trainingsphase auch Sprach-Aufnahmen. Aber: Statt diese in Schnipsel zu zerschneiden und neu zusammenzusetzen, lernt die Software sozusagen Klänge kennen und erzeugt ein komplett neues Audiosignal. Das kann ein synthetisches Klavierkonzert sein, oder eben gesprochene Sprache.
Die Ergebnisse sind verblüffend überzeugend – bisher funktioniert das System allerdings nur auf Englisch und Mandarin.
Mit modernen Sprachsynthesesystemen lässt sich auch die Stimme eines Menschen kopieren – oder man könnte Sprachaufnahmen im Nachhinein verändern. Im November 2016 hat Adobe auf seiner Jahreskonferenz in San Diego sein Project VoCo vorgestellt – eine Art Photoshop für die Stimme, was zum Beispiel für die Produktion von Animationsfilmen nützlich sein könnte. Soll der aufgenommene Sprechertext im Nachhinein verändert werden, müsste der Schauspieler nicht erneut ins Studio kommen.
Matthew Aylett von der schottischen Firma CereProc experimentiert schon seit zehn Jahren damit, Stimmen berühmter Persönlichkeiten zu synthetisieren. Seine Firma erstellte unter anderem eine Webseite namens Bush-O-Matic, auf der man beliebige Sätze eintippen kann, die Ex-Präsident George W. Bush zu Banjo-Begleitung ausspricht.
Matthew Aylett ist das Missbrauchspotenzial durchaus bewusst:
"Wir haben die Hintergrundmusik eingebaut, damit niemand einen Satz eintippen und hinterher ins Netz stellen kann und behaupten, George Bush hätte das gesagt. Wir haben uns auch entschieden, die Stimme nicht zu verkaufen. Es wäre zwar legal, aber wir hielten es für falsch."

Möglichkeiten zum Missbrauch sind enorm

Fake News sind im Prinzip kein neues Phänomen. Doch wie überzeugend sie in Zukunft sein könnten, zeigt eine Video, das Computerwissenschaftler der Universität Washington vor Kurzem veröffentlicht haben. Es zeigt Barack Obama zu seinen Präsidentschaftszeiten, wie er eine Rede hält. Das Video wirkt täuschend echt – doch Obamas Worte stammen aus einem anderen Video, das bereits ein Vierteljahrhundert alt ist. Das Forscherteam hat sein neuronales Netz darauf trainiert, Obama-Videos so zu generieren, dass die Mundbewegungen perfekt zur Tonspur passen.
Matthew Aylett: "Die Möglichkeit, kopierte Stimmen mit generierten Videos zu kombinieren, ist besorgniserregend. Wenn wir Videos und Audio manipulieren, dann können wir Dinge produzieren, von denen Leute bisher dachten, sie seien fälschungssicher. Diese Kombination an Technologien ist sehr interessant für viele nützliche Anwendungen, aber auch für zwielichtige Zwecke."
Systeme wie Deepminds WaveNet dürften aktuell noch zu viel Rechenleistung brauchen, um für den täglichen Gebrauch besonders nützlich zu sein und auch Adobes VoCo ist vorerst nur eine Laboridee. Doch bis die Technologie auf den Markt kommt, ist es nur eine Frage der Zeit.
Mehr zum Thema