"Hey Don, have you heard about this new technology?" - "Are you speaking about this new algorithm to copy voices?"
Was hier mit ein bisschen Fantasie vielleicht wie ein Gespräch zwischen Barack Obama und Donald Trump klingt, ist in Wahrheit komplett am Computer entstanden. Es ist eine Demonstration des Systems "Lyrebird", das kanadische Informatiker entwickelt haben. Das Versprechen: Es braucht nur eine einminütige Aufnahme der Stimme einer Person und kann dann jeden beliebigen Text mit eben dieser Stimme vorlesen. Die Lyrebird-Demo von Trump fragt:
"This is huge, it can make us say anything, really anything. How does the technology work?”
Wie das funktioniert, ist nicht so einfach herauszufinden. Die Programmierer haben die Details ihrer Arbeit nicht veröffentlicht, sie geben derzeit auch keine Interviews. Nur so viel: Das System basiert auf dem Prinzip des maschinellen Lernens. Es ist also nicht klar, ob es wirklich hält, was seine Macher versprechen. Zumindest noch nicht:
Lyrebird könnte Sprachverifikation täuschen
Die gute Nachricht lautet, dass die Forscher diese Technologie allen zur Verfügung stellen wollen. Doch Missbrauch scheint programmiert. Schurken könnten die Technik nämlich nutzen, um Menschen Worte in den Mund zu legen, die sie nie gesagt haben. Ist es also verantwortungsvoll, diese Technologie zu verbreiten? Zugegeben: Das System klingt noch sehr roboterähnlich. Aber es ist zu erwarten, dass diese Art der Stimmsynthese schon bald viel besser werden wird. Das könnte ein Problem werden, etwa für die Sprachverifikation. Dabei erkennen Computersysteme, ob eine Person am Telefon wirklich die ist, die sie vorgibt zu sein. Andreas Braun vom Fraunhofer-Institut für Graphische Datenverarbeitung in Darmstadt erklärt:
"Man bildet quasi ein mathematisches Modell: einen Abdruck aus aufgenommenen Sprachsamples aus der Vergangenheit, bittet dann die Personen, einen Text zu sprechen und vergleicht dann die Parameter der Stimme mit denen bereits abgespeicherten."
Mit solchen Methoden der Sprachverifikation kann man etwa bei manchen Banken oder Firmen sein Passwort am Telefon zurücksetzen lassen. Doch mit Systemen wie Lyrebird könnte man die Technik eventuell täuschen. Gegenmaßnahmen sind gefragt. Andreas Braun gibt ein Beispiel:
"Jeder Synthese-Algorithmus hat gewisse Eigenschaften. Er versucht die Sprache auf eine gewisse Art und Weise so zu modifizieren, dass sie für uns natürlich klingt. Und da wir wissen, wie er das macht, wie er diese Sprache und das Tonsignal modifiziert, können wir auch genau wieder diese Muster erkennen, die dieser Algorithmus dann in dem Sprachsignal hinterlassen hat."
Aufwand für Kriminelle hoch
So erkennt man die Imitation. Daher ist es laut Andreas Braun auch gut, dass Lyrebird die Details zu seinem System veröffentlichen will. So können die Hersteller von Stimmverifikationen bessere Gegenmaßnahmen entwickeln. Doch nicht nur die werden sich darauf einstellen müssen, gesprochener Sprache künftig misstrauischer zu begegnen. Man kennt ja den so genannten "Enkeltrick", bei dem Betrüger Senioren anrufen und sich als Verwandte ausgeben, um an Geld zu gelangen. Mit der maschinellen Sprachimitation wäre es denkbar, dass der Betrüger tatsächlich mit der Stimme des Enkels spricht. Er müsste dafür nur eine Sprachaufnahme haben, um Lyrebird zu füttern. Ist so etwas realistisch? Die Frage geht an Christoph Safferling, Strafrechtsexperte an der Friedrich-Alexander-Universität Erlangen-Nürnberg:
"Alles was technisch möglich ist, wird der Erfahrung nach auch für kriminelle Machenschaften eingesetzt. Deswegen habe ich keine Zweifel, dass, wenn es möglich ist eine Stimme zu imitieren, dann so eine Software auch von Kriminellen dort eingesetzt wird, wo es ihnen hilft. Ob das jetzt unsere Alltagskriminalität verändert, das wage ich aber doch zu bezweifeln."
Denn der Aufwand ist hoch. Dennoch werden sich Gerichte darauf gefasst machen müssen. Bei der Telefonüberwachung ist es heutzutage etwa so, dass Beamte Gespräche mitschneiden, die dann transkribiert und dem Gericht vorgelegt werden:
"Wenn es eine Software gibt, die eine Stimme perfekt imitieren kann, dann kann man sich nicht mehr darauf verlassen, dass der Polizeibeamte einwandfrei selber zuweisen kann, wem diese Stimme gehört."
Echtheit von Tonaufnahmen vor Gericht prüfen
Daher wird man auch bei Tonaufnahmen in Zukunft immer die Möglichkeit einer Manipulation in Betracht ziehen müssen, genau wie bei Fotos. Wenn die als Beweismittel dienen, ist es heute üblich, dass Gutachter deren Echtheit prüfen.
"Dieses Problembewusstsein gibt es jetzt bei der Stimme nicht - noch nicht. Denn in der Tat wird man sehr bald darüber nachdenken müssen. Wenn es einfach möglich ist, auch am Telefon eine Stimme elektronisch zu generieren, muss man dem nachgehen."
So kann man sagen, dass die Macher von Lyrebird zwar eine potenzielle Lügenmaschine auf die Menschen loslassen wollen, aber dadurch auch ein Bewusstsein dafür schaffen, wie künstliche Intelligenz für Manipulationen missbraucht werden könnte.