"Wir sind hier im Labor meiner Arbeitsgruppe, dem Ambient Intelligence Lab."



sagt Thomas Hermann vom Exzellenzcluster Kognitive Interaktionstechnologie der Universität Bielefeld.



"Und dieser Raum dient uns für vielfältige Forschungsfragen rund um den Bereich Datenverklanglichung – Sonifikation ist das – und Mixed Reality, Augmented Reality-Anwendungen."



Der Informatiker steht unter zwei großen, mit Lautsprechern bestückten Metallringen, die von der Decke hängen.



"Und hier in diesem Labor finden auch die Forschungen statt rund um den Sound-Refiner."



Auf dem Fußboden befinden sich, im Abstand von etwa drei Metern, zwei schwarze Ständer, etwa einen Meter hoch. Auf jedem von ihnen thront ein weißer Lautsprecher. Sie sind Teil von Hermanns aktuellem Projekt, dem Sound-Refiner, zu deutsch: Klangveredler.



"Das ist ein System, mit dem wir die Sprachdiskretion in schützenswerten Bereichen verbessern wollen. Denken Sie da zum Beispiel an eine Empfangssituation in einer Arztpraxis, wo über sensitive Themen geredet wird, wie zum Beispiel: ‚Was haben Sie denn für ein Problem?‘ ‚Ja, ich habe da eine Rötung im Intimbereich.‘ Bei solchen Informationen möchte man eigentlich nicht gerne, dass andere einfach so zuhören können. Und da ist Diskretion ein Thema."

Sprachdiskretion wünschen sich viele Menschen

Auch in Apotheken oder am Bankschalter würden sich viele wünschen, dass das Gespräch nur unter vier Augen stattfindet, statt im öffentlichen Raum. Um wenigstens akustisch eine Art Privatsphäre zu schaffen, gibt es abgesehen von einer Abstandslinie auf dem Boden nicht viele Möglichkeiten. Ein Ansatz ist, das gesprochene Wort mit einem breitbandigen Rauschen aus Raumlautsprechern zu übertönen. Dadurch werden möglichst viele der in der Sprache enthaltenen Frequenzen überdeckt. Hermann spielt ein Beispiel vor.

"Der Nachteil ist hier gut zu hören: Um die Sprache wirklich zu überdecken, muss das Rauschen sehr laut sein.



Wir Menschen sind nämlich ausgesprochen gute Hörer und Hörerinnen. Das sieht man zum Beispiel, wenn man an eine Cocktailparty denkt. Dort fällt es uns ganz leicht, unser Gegenüber zu verstehen, auch wenn im Hintergrund Musik läuft und andere Menschen sprechen und vielleicht noch Störgeräusche vorhanden sind."



Und hier kommt der Sound-Refiner ins Spiel. Das intelligente System soll gesprochene Wörter in Echtzeit so verfremden, dass Umstehende das Gefühl haben, die Unterhaltung erklinge in einer fremden Sprache, die sie nicht verstehen.

Komplizierter Verschlüsselungsalgorithmus

Dazu ist ein komplizierter Algorithmus nötig, der mit allerhand Informationen gefüttert werden muss: Schalldruckpegel-Sensoren registrieren die Schallenergien, die beim Gespräch auftreten. Hinzu kommen Daten über die Klangkulisse der Umgebung und die Position der Lautsprecher, die das Verfremdungssignal letztendlich abspielen sollen.



"Und all diese Informationen kommen in unser Verfahren und müssen sehr intelligent miteinander verrechnet werden. Und das in extrem kurzer Zeit, damit wir in Echtzeit ein Verfremdungssignal erzeugen, was genau unseren Zwecken dient."



Steht ein Kunde in einer Warteschlange, wird er natürlich trotzdem die Schallwellen des Gesprächs wahrnehmen, das gerade am Schalter geführt wird. Aber der Sound-Refiner spielt parallel dazu ein anderes Geräusch ab, das Lautsprecher an der Decke oder in einem Regal wiedergeben.



"Und am Ort ihrer Trommelfelle verbinden sich diese beiden Klänge – man spricht von einer linearen Superposition oder Überlagerung der Signale – zu einem Gesamtschall. Und wenn die richtigen Mechanismen benutzt werden, dann lässt sich diese Überlagerung so darstellen, dass wir ein verfremdetes Gesamtsignal haben, was wie aus einer anderen Sprache kommend klingt."

Überlagerung aus Original- und Maskierungsgeräuschen

Und wie klingt sie nun, die Warteschlange der Zukunft? Der echte Prototyp ist noch geheim, weil gerade die Vorbereitungen für die Patentanmeldung laufen. Deshalb demonstriert Jiajun Yang, der als Postdoc in Thomas Hermanns Labor arbeitet, das Prinzip an einem Beispielsatz. Er wurde mit einem Sprachgenerator erzeugt. Um diesen Satz für Umstehende unverständlich zu machen, erzeugen die Forscher dann per Computer ein Maskierungsgeräusch. Jiajun Yang:



"Ausgehend von einer Reihe von Silben, erzeugen wir frei erfundene Wörter und daraus einen erfundenen Satz, gesprochen von der Stimme derselben Person. Und um die Verfremdung zu erreichen, spielen wir beides gleichzeitig ab."



"Sie können immer noch erkennen, dass die Stimme von der gleichen Sprecherin stammt. Es klingt, als ob dieselbe Person reden würde, aber der Inhalt ist völlig unverständlich. Was man hört, ist keine Sprache, sondern frei erfundenes Kauderwelsch."



In den nächsten Monaten optimieren die Forscher ihren Sprachverschlüsselungsalgorithmus zunächst mit Hilfe der beiden weißen Lautsprecher. Einer davon simuliert die sprechenden Personen, aus dem anderen kommt das verfremdete Signal. Später wird im Labor auch ein echter Verkaufsschalter eingebaut, um das System unter realen Bedingungen zu testen. Das Projekt Sound-Refiner wird vom Bundeswirtschaftsministerium gefördert und läuft bis Herbst 2020.

Damit am Ende ein kommerzielles Produkt herauskommt, arbeiten die Wissenschaftler mit einer Firma in Hamburg zusammen. Schon Ende dieses Jahres soll dann der erste Prototyp in eine Apotheke eingebaut werden. Und dort dafür sorgen, dass alle, die das Gespräch am Verkaufstresen nichts angeht, nur noch Bahnhof verstehen.