Manche meiner Interviews dauern nur zehn Minuten. Aber viele dauern eine halbe Stunde, manche zwei Stunden. Und wenn ich dann an einer längeren Sendung arbeite, wie Wissenschaft im Brennpunkt, dann kann man schonmal den Überblick verlieren. Das Problem: Tonaufnahmen sind nicht durchsuchbar. Wo war noch einmal dieses knackige Statement, das alles so gut auf den Punkt bringt? Tja, ich muss das ganze Material durchhören, um es wieder zu finden. Normalerweise markiere ich mir zwar interessante Stellen in einem Interview, aber richtig gut finde ich mich in meinem Material eigentlich nur zurecht, wenn ich es abgetippt habe. Aber jetzt können mir Algorithmen diese Arbeit abnehmen. Unternehmen wie Google, Apple und Wit.ai, das von Facebook gekauft wurde, entwickeln Programme, die Sprache verstehen. Sie basieren auf Künstlicher Intelligenzen und können sich beispielsweise diesen Radiobeitrag anhören und davon eine Mitschrift erstellen.
Sprecher: "...können sich beispielsweise diesen Radiobeitrag anhören und davon eine mit Schrift erstellen."
Ich habe einen Kollegen gebeten, den computergenerierten Text zu sprechen. Aus "Mitschrift" wurde "mit Schrift" - das ist der einzige Fehler, den beispielsweise das System von Google in diesen Satz eingebaut hat. Damit kann ich leben. Das Transkribieren funktioniert auch mit komplexeren Sätzen und bei komplizierteren Themen recht gut. Das Einzige, was die Software vorher von mir wissen will ist, um welche Sprache es sich handelt. Da kommen die Systeme dann allerdings an Grenzen. Deutsch kann je nach Herkunft des Sprechers sehr unterschiedlich klingen. Und zum anderen schleichen sich manchmal überraschende Anglizismen ein, auf die der Algorithmus nicht vorbereitet ist.
"Es gab verschiedene Attacken, die das ganze Netzwerk eigentlich lahmgelegt haben. Und deshalb … das ist natürlich sehr unpredictable."
Sprecher: "Es gab verschiedene Attacken die das ganze Netzwerk lahmgelegt haben und deshalb das ist natürlich sehr an prädikate."
Aufnahmequalität als Herausforderung für Algorithmen
Problematisch wird es auch, wenn die Aufnahmequalität nicht optimal ist. Ein Telefongespräch mit Hintergrundgeräuschen, dem wir locker folgen können, ist für Algorithmen eine Herausforderung. Aber auch wenn eine Menge Kauderwelsch im computergenerierten Transkript steht: Es hilft mir trotzdem, mich besser in dem Tonmaterial zurechtzufinden. Besonders hilfreich sind Dienste, die noch einen Schritt weiter gehen. Sie verknüpfen beide Ebenen miteinander: Text und Ton. Das macht etwa die amerikanische Website Trint.com. Sie erstellt von Tonaufnahmen computergenerierte Transkripte und zeigt diese dann im Browser an. Gleichzeitig wird im Hintergrund die Sprachaufnahme geladen. Durch Klick in den Text kann ich dann die entsprechende Stelle der Aufnahme abspielen. So kann ich Fehler im generierten Transkript schnell erkennen und korrigieren. Interessante Passagen markiere ich gelb und kann sie per Suchfunktion schnell wieder finden und den Text dann einfach in mein Beitrags-Manuskript kopieren. Ich kann den Inhalt von Interviews so viel besser auswerten. Computerprogramme haben also schon heute Einfluss auf das Radioprogramm. In Zukunft könnte sich das Radiomachen durch neue Software-Werkzeuge aber noch stärker verändern.
"Descript is the world's first audio word processor, an audio production suite built from the ground up."
Noch funktioniert nicht alles perfekt
In Kalifornien wird eine Software namens Descript entwickelt. Während Trint mir erlaubt, anhand des Texts durch das Audio zu navigieren, ermöglicht Descript auch komplexere Bearbeitungen. Es verbindet die Textarbeit an einem Manuskript und das Schneiden des Tonmaterials in einem Programm. In einem klassischen Manuskript würde ich an dieser Stelle schlicht schreiben: Klammer auf, Tippgeräusche, Klammer zu. In Descript kann ich die Sounddatei direkt mit der Textdatei verknüpfen und im Text wird hervorgehoben, wo die Geräusche untergelegt werden sollen. Interview-Ausschnitte können auch direkt eingebunden werden. Wenn ich im Text ein Wort oder einen Satz lösche, wird er automatisch auch aus der Tonaufnahme herausgeschnitten.
"You can edit the audio just like you’d use a word processor."
Man könne das Audio bearbeiten wie Text in einem Textverarbeitungsprogramm, verspricht das Werbevideo. Das alles funktioniert noch nicht perfekt und vor allem nur auf Englisch. Aber das Potenzial wird schon sehr deutlich. Wir Radiomacher werden dank solcher Werkzeuge in Zukunft viel enger am Tonmaterial arbeiten können. Der Abstraktionsgrad wird geringer, weil wir nicht mehr so viel auf der Textebene agieren werden, sondern die Tonebene immer dabei sein wird. Das dürfte auch unsere Arbeitsabläufe verändern und wie wir im Team aus Autoren und Redakteuren zusammenarbeiten.