Montag, 29. April 2024

Archiv

Computerprogramme
Ein Algorithmus für realistische Filmgeräusche

Ein Schritt auf einem Dielenboden klingt anders als einer auf Sand, wenn Holz auf Holz trifft, dann hört sich das anders an als bei Metall. US-Forscher haben einem Computerprogramm nun beigebracht, wie physikalische Aktionen und Geräusche zusammenhängen, es liefert zu einer stummen Filmszene automatisch den passenden Sound.

Von Michael Gessat | 29.08.2016
    Wonach hört sich das an? Da haut und scharrt jemand ganz offenbar mit einem Holzstock auf Gestrüpp herum und kratzt dann noch ein wenig auf einem weichen, sandigen Boden. Wenn Sie diese Geräusche so wahrgenommen haben, freut sich Andrew Owens vom "Computer Science and Artificial Intelligence Lab" am MIT bei Boston. Denn genau diese Szene ist auf dem Videofilm zu sehen, den sein Computerprogramm nachträglich vertont hat.
    "Unser Algorithmus ist eine nicht allzu komplizierte Anwendung von rekursiven neuronalen Netzen. Wir bauen da auf vorhandenen Methoden auf, wie sie momentan in vielen Bereichen sehr erfolgreich eingesetzt werden, etwa bei der Bild- und Objekterkennung. Aber das Programm startet ohne vorgegebenes Wissen; wir sagen dem Algorithmus nichts über physische Aktionen oder Materialeigenschaften."
    Stattdessen fütterten Owens und seine Kollegen das Programm mit Trainingsmaterial. 977 Videos nahmen die Informatiker dazu auf, zwei Drittel davon in Gebäuden, ein Drittel im Freien, jeweils ungefähr 35 Sekunden lang.
    "Greatest Hits" nennen die Forscher ihre Sammlung – es handelt sich nämlich um Nahaufnahmen der "Hits", also der Schläge mit einem hölzernen Trommelschlägel auf verschiedene Oberflächen. "Greatest Scratches" wäre der Alternativtitel, denn die Informatiker kratzten und stocherten auch auf den Objekten herum und dokumentierten jeweils, wie das aussieht und wie sich das anhört.
    "Das Eingangssignal beim Training des Algorithmus ist eine Abfolge von Bildern, das Ausgangssignal ist eine Abfolge von Geräuschen. Und das neuronale Netz ermittelt die Beziehung, also wie laut der Klang bei einem Einzelbild ist und welche Frequenz er hat, ob das Objekt, das wir da schlagen, eher hoch klingt oder tief."
    Das Ganze beruht natürlich, wie beim "maschinellen Lernen" üblich, auf purer Statistik: Bestimmte optische Eigenschaften von Materialien oder auch die Geschwindigkeit einer Stockbewegung korrelieren mit einem akustischen Effekt. Aber mit diesen Daten gefüttert, kann der trainierte Algorithmus nun auch eine stumme Filmsequenz "Stock trifft Oberfläche" nachvertonen. Und zwar so überzeugend, dass Testpersonen teilweise die synthetische Version als "echt" einstuften und den eigentlichen O-Ton als computergeneriert.
    "Eine mögliche Anwendung könnte also tatsächlich sein, Sound für Film oder Tonproduktionen zu liefern. So etwas gibt es ja schon, das ist als sogenanntes 'Foley' bekannt: Wenn Sie zum Beispiel im Film ein Pferd galoppieren hören, dann hören sie höchstwahrscheinlich nicht das Pferd, das sie da sehen."
    Dazu müsste der Algorithmus natürlich noch mit weiteren Bild-Ton-Beispielen trainiert werden. Denkbar ist übrigens auch, daran arbeiten die Informatiker gerade, einer optischen Szenerie eine nur grob plausible Geräuschkulisse zu verpassen – also einem Film oder Foto eines Strandes zum Beispiel Meeresrauschen und Möwengeschrei. Ein völlig anderes Anwendungsgebiet für computergenerierte Tonspuren sieht Andrew Owens in der Robotik: Algorithmen, die Bildern automatisch passende Geräusche unterlegen, könnten autonomen Maschinen helfen, sich in einer unbekannten Umgebung zurecht zu finden.
    "Man könnte das nutzen, um das visuelle System solcher Maschinen zusätzlich zu trainieren. Nach dem Motto: Das Objekt, mit dem Du gerade interagierst, macht so ein Geräusch. Diese akustische Information wiederum könnte nützlich sein, um ein Objekt von anderen zu unterscheiden."
    In bestimmten Situationen liefert nämlich ein neuronales Netz, das von Geräuschen auf physikalische Eigenschaften schließt, bessere Ergebnisse als eines, das optische Eindrücke interpretiert.