Seit 04:05 Uhr Radionacht Information
 
  • Deutschlandfunk bei Facebook
  • Deutschlandfunk bei Twitter
  • Deutschlandfunk bei Instagram

 
 
Seit 04:05 Uhr Radionacht Information
StartseiteWissenschaft im BrennpunktDie Menschenversteher31.12.2014

Computer Die Menschenversteher

Unsere Stimme verrät eine ganze Menge über uns: Alter, Geschlecht, Herkunft, Charakter, Stimmungslage. All das hören unsere Gesprächspartner ganz beiläufig aus ihr heraus, nicht aber Maschinen: Die taten sich bislang schwer mit dieser Kunst des Lauschens. Dabei begleiten uns schon jetzt viele Geräte, die wir mit der Stimme steuern: vom Computer im Callcenter über Siri, die iPhone-Assistentin, bis hin zum Navigationssystem im Auto.

Von Stefanie Schramm

Ein Teilnehmer des 30. Chaos Communication Congress (30C3) des Chaos Computer Clubs (CCC) sitzt in Hamburg mit seinem Laptop in einem Becken mit weichem Verpackungsmaterial. (picture-alliance / dpa / Bodo Marks)
Wissenschaftler arbeiten daran, Computerstimmen echter wirken zu lassen. (picture-alliance / dpa / Bodo Marks)
Weiterführende Information

Links des Deutschlandradios:

Wenn der Computer wie ein Mensch spricht
(Deutschlandradio Kultur, Elektronische Welten, 22.07.2013)

Elektronischer Verkehrsfunk
(Deutschlandradio Kultur, Elektronische Welten, 15.09.2008)

Links ins Internet: 

Telekom Innovation Laboratories

Deutsches Forschungszentrum für Künstliche Intelligenz

Erkennen von Müdigkeit in der Stimme

Diagnose von Krankheiten anhand der Stimme:

Parkinson

Depression

Computerstimme: "Hallo Deutschlandfunk, ich bin eure Zukunft. Wenn es die Wissenschaftler nicht schaffen, mir eine halbwegs vernünftige Sprechweise zu verpassen, tja, dann nerve ich eben weiter. Hahahahaha."

"Der muss noch einiges lernen. Also, wenn ich mir so etwas anhöre, muss ich innerlich feixen und lachen. Und das liegt einfach daran, dass die Computer noch nicht gelernt haben, auf den Menschen zu hören."

Sie sind überall: im Callcenter, im Bordcomputer, im Navigationssystem, im Handy – Computerstimmen.

"Wir können uns längst nicht mehr aussuchen, ob wir die Stimmen mögen oder nicht, wir haben sie um uns herum. Und dann möchte man natürlich, wenn man schon mit so viel Computerstimmen kommuniziert, halbwegs natürlich mit denen kommunizieren."

Die Stimmen aus dem Computer sollen menschlicher werden. Aber Kommunikation ist keine Einbahnstraße: Der Computer oder das Handy sollen auch uns besser verstehen – nicht nur was wir sagen, sondern auch wie wir es sagen; nicht nur unsere Stimme, sondern auch unsere Stimmung. Schließlich begleiten sie uns den ganzen Tag, und oft auch durch die Nacht.

"Und deswegen kommen wir immer mehr dazu, mit Computern oder kleinen Geräten reden zu wollen. Wir wollen das ja. Wir wollen auch, dass die uns verstehen."

Die Menschenversteher. Computer als Stimmanalytiker
Eine Sendung von Stefanie Schramm

"Was wünschen Sie? Ist es Ihnen zu warm? Soll ich die Klimaanlage einschalten? Oder lieber ein Fenster öffnen?"

"Mir gehorcht das Auto aufs Wort. Ich weiß ja auch, wo die Probleme noch sind in der Erkennung."

Wolfgang Wahlster ist Chef des Deutschen Forschungszentrums für Künstliche Intelligenz, und das seit mehr als 25 Jahren. Er will dem Computer beibringen, Menschen zu verstehen.

"Das spielt eine immer größere Rolle, denn wir wollen ja Systeme haben, die sich als Assistenzsysteme für den Menschen an seine Stimmungslage anpassen. "Ganz simples Beispiel: Wir wollen natürlich, wenn jemand sich beschweren will über Telefon (…), dass wir sehr schnell erkennen: 'Oh, dieser Kunde, der ist schon enorm emotionalisiert, hier müssen wir auch ganz speziell auf dessen Wünsche eingehen, damit wir ihn als Kunden nicht verlieren. Wir dürfen ihn zum Beispiel nicht sehr lange in der Warteschleife warten lassen."

Aber es müssen noch nicht einmal hoch anspruchsvolle Programme sein. Manchmal kommt es auch bei ganz simplen Anwendungen darauf an, dass der Computer menschliche Regungen versteht. Wolfgang Wahlster hat das selbst erlebt, mit einer Sprachsteuerung, die er fürs Auto entwickelt hatte.

"Zum Beispiel konnte man sagen: 'Linkes Fenster vorne auf, rechtes Fenster auf.' Das klappte wunderbar. Wir hatten dann noch eingebaut, dass während der Fahrt, wenn dann so ein Befehl von einem Kind hinten auf der Rückbank gesprochen wird, das nicht ausgeführt wird, das Auto sich sozusagen weigert."

Auf einer Testfahrt mussten die Forscher die Grenze zwischen Deutschland und der Schweiz überqueren. Der Grenzbeamte wartete schon vor seinem Häuschen.

"Dann haben wir gesagt: 'Rechte Scheibe auf.' Da wir aber noch rollten, passierte das nicht. Und dann haben wir geschrien – immer noch nicht verstanden. Und dann habe ich gesagt: 'Jetzt müssen wir die Emotion einbauen.' Wenn jetzt jemand anfängt, sehr emotional zu sagen: 'Rechtes Fenster auf!' zu dem Auto, und er fährt, dann muss es trotzdem geöffnet werden."

Ein Geöffneter Frauenmund (dpa / picture alliance)Bislang gelingt es Computern nicht, Emotionen in menschlichen Stimmen zu deuten. (dpa / picture alliance)

Die Emotion. Sie macht den Unterschied. Sie lässt uns erkennen, ob eine schlichte Anweisung wie "Fenster auf!" bloß ein Kinderspaß ist oder womöglich ein Hilferuf. Genau das soll der Computer lernen: Gefühle erkennen, in der Stimme.

Wie geht es Ihnen heute? Möchten Sie sich beschweren? Ich öffne schon einmal das E-Mail-Programm.

"Ich glaube, die am häufigsten geäußerte Emotion, verbal, ist wohl der Ärger. Ärger veranlasst uns dazu, unseren Ärger zu externalisieren."

Tim Polzehl kennt das. Der Kommunikationswissenschaftler arbeitet in den Telekom Innovation Laboratories an der Technischen Universität Berlin. Im Callcenter rufen die Kunden meist an, wenn etwas kaputt ist, wenn etwas nicht funktioniert, wenn etwas schief läuft.

"Im ersten Schritt wäre es schön, wenn ich eine Hotline anrufe und verärgert bin, dass die mich versteht, wenn ich verärgert bin. Das ist nicht der Normalfall, dass wenn ich mit so einer extremen Stimme in diese Systeme reinspreche, dass die mich überhaupt noch verstehen. Das macht mich natürlich umso ärgerlicher."

Damit der Sprachcomputer auch wütende Gesprächspartner versteht, muss er den Ärger aus der Stimme herausfiltern. Aber dazu muss er den Ärger erst einmal als solchen erkennen. Um dem Computer das beizubringen, haben Polzehl und seine Kollegen Stimmen gesammelt: ärgerliche, freudige, traurige, gelangweilte.

"Und dann geht man hin: 'Computer hör mal, das sind deine Ausdrücke:'

"Der Lappen liegt auf dem Eisschrank." (Wütende Emotion)

"Der Lappen liegt auf dem Eisschrank." (Freudige Betonung)

"Der Lappen liegt auf dem Eisschrank." (In gelangweilter Stimmlage)

"Man tut dann möglichst mächtige Algorithmen aus dem Maschinenlearning drauf und hofft eben später, dass man dem Computer ein, zwei, drei Klassen beibringen kann, sodass der feststellen kann, aha, meine Person hat nicht nur gesprochen, sondern ist erstens verärgert, zweitens freudig drauf, drittens vielleicht hat sie überhaupt kein Interesse am Thema."

Die Algorithmen analysieren die Sprachproben auf ihre akustischen Eigenschaften.

"Wir haben zum Beispiel unsere Stimmhöhe, die Tonlage, da kann ich hoch und runter variieren, und wenn ich aufgeregt bin, gehe ich auch mal ein bisschen höher und so weiter und so fort. Dann haben wir das Tempo. Dann haben wir so ne Art Intensität, manchmal ist das so mhh das ist so ein, manche Leute sagen Knödeln, so ein Pressen in der Stimme, so ein hrr-Faktor darin."

Computermodelle für verschiedene Emotionen

Der Computer erfasst aber auch viele abstrakte Parameter, die sich nicht so anschaulich beschreiben lassen – oder die der Mensch überhaupt nicht wahrnimmt. Um die 6.000 Merkmale registriert die Maschine.

"Wenn wir möchten, dass nicht wir Bescheid wissen, sondern dass die Systeme umso besser werden, dann ist es vielleicht auch gar nicht als allererstes erstrebenswert, jedes einzelne Prozessglied wirklich logisch erklären zu können, sondern dann ist es erstrebenswert, dass meinetwegen mein Ärgererkenner auch wirklich zu 90 Prozent funktioniert, und nicht nur zu 60 Prozent."

Tim Polzehl lässt den Computer Modelle für die verschiedenen Emotionen erstellen, sozusagen akustische Steckbriefe. Damit die möglichst genau werden, muss die Maschine trainieren, immer und immer wieder.

"Das will sie am Mittwoch abgeben." (Wütend gesprochen)

"In sieben Stunden wird es soweit sein." (Wütend gesprochen)

"An den Wochenenden bin ich bisher immer nach Hause gefahren und habe Agnes besucht." (Wütend gesprochen)

"Ich will das eben wegbringen und dann mit Karl was trinken gehen." (Wütend gesprochen)

In der Berliner Datenbank stecken rund 100 verschiedene Stimmen. An denen hat der Computer schon recht gut gelernt: In bis zu 85 Prozent der Fälle liegt er mit seiner Analyse inzwischen richtig. Einige Callcenter großer Telekommunikationskonzerne und Versandhändler lassen die Anrufer bereits von Algorithmen vorsortieren: nach Alter und Geschlecht, aber auch nach Gemütszustand. Wer richtig sauer ist, kommt schneller dran oder wird mit einem speziell geschulten Mitarbeiter verbunden.

"Sie klingen sehr müde. Wir sind ja auch schon seit vier Stunden und 13 Minuten auf der Autobahn. Fahren Sie doch bei der nächsten Raststätte in 1,7 Kilometern raus, und gönnen Sie sich einen Kaffee."

Ein Autofahrer flippt aus, weil ihn ein Fahrradfahrer bittet, den Radweg frei zu machen. Die überschäumende Wut im Straßenverkehr ist im Englischen ein stehender Begriff: Road Rage. Jarek Krajewski von der Rheinischen Fachhochschule Köln arbeitet an einem Computerprogramm, das diese hochkochende Emotion erkennen kann. Es könnte im Auto installiert werden und helfen, die Auswirkungen eines Wutausbruchs abzumildern.

"In der Situation gibt es entweder den Bereich Sofortreaktion, bedeutet, dass man versucht, mit dieser extrem heißen Reaktion umzugehen, also zu versuchen, den Fahrer herunterzuregeln, wie auch immer. Oder eben, eher wahrscheinlicher, die Fahrzeugsysteme darauf vorzubereiten, dass ein Fahrer in den nächsten Sekunden weniger vernünftig oder vernunftgesteuert agieren wird. Das heißt vielleicht Überholen, abrupt Abbremsen. Oder eben auch andere Möglichkeit: car-to-car communication, das heißt auch andere Fahrzeuge informiert, dass sich hier ein Fahrer befindet, der gerade ausflippt."

Der Wirtschaftspsychologe und seine Kollegen gehen ganz ähnlich vor wie Tim Polzehl: Sie haben Aufnahmen von wütenden Autofahrern gesammelt, davon gibt es im Internet reichlich. Dann haben sie diese vom Computer analysieren lassen, der wiederum hat ein Modell dafür erstellt, wie sich Wut am Steuer anhört. Mit der Methode lassen sich auch andere Gefahren für den Straßenverkehr aufspüren, zum Beispiel Müdigkeit.

"Wir haben unterschiedliche Müdigkeitsexperimente durchgeführt, unter anderem im Fahrsimulationssetting, das heißt also, Fahrer werden über viele, viele Stunden wachgehalten und am Schlaf gehindert, fahren dann am Fahrsimulator und werden dort über einen langen, langen Zeitraum über die Nacht hinweg bis acht Uhr morgens aufgezeichnet."

Am Anfang klingen die Probanden noch so:

"Rufen Sie den Notdienst an." (Wache Fahrerin)

"Rufen Sie den Notdienst an." (Wacher Fahrer)

Nach Stunden im Fahrsimulator dann so:

"Rufen Sie den Notdienst an." (Müde Fahrerin)

"Rufen Sie den Notdienst an." (Müder Fahrer)

"Ja, wir haben hier eine sehr schwache Betonungsstruktur, also insbesondere die Intensität, mit der Akzente gesetzt werden, ist relativ schwach. Wir haben eine verwaschene Aussprache. Dann haben wir in der Stimmqualität Veränderungen, wie zum Beispiel häufig eine behauchtere Stimme wie auch eine eher nasale Stimme."

Damit die Müdigkeitsdiagnose im Auto funktioniert, muss man dem Fahrer allerdings erst einmal ein paar Sprachfetzen entlocken.

"Das ist natürlich eine Herausforderung bei Müdigkeit, den Fahrer zum Sprechen zu bringen, zumindest zu kurzen Sprachäußerungen. Da gibt's auch einige Ideen, dass Infotainmentsysteme charmant gewisse Dinge abfragen und der Fahrer darauf reagiert."

Dann kann das System versuchen, die heikle Lage zu entschärfen.

"Es kann auf der einen Seite als Sofortreaktion den Fahrer darüber informieren: 'Übrigens, reiß dich ein bisschen zusammen, du bist ziemlich müde, ein paar Minuten musst du noch durchhalten.' Es ließen sich fahrzeuginterne Systeme aktivieren, von einer Kühlung, Klimaautomatik, die anspringt, bis hin zu anderen aktivierenden Systemen. Oder eben die Kommunikation zu externen Fahrzeugen: 'Vorsicht, da ist ein müder Fahrer.'"

Fluglotsen und Piloten ließ Krajewski ebenfalls im Simulator schuften, bis ihnen die Augen zu fielen. Auch sie könnte ein solches System überwachen und notfalls wachrütteln, genauso Ärzte im Operationssaal. Und auch der Einfluss von Alkohol lässt sich aus der Stimme heraushören. Aber wird der Computer das je so gut hinbekommen wie der Mensch?

Krajewski: "Im Moment ist man fast in einem Gleichgewichtszustand, das heißt das System ist fast so gut wie durchschnittliche Rater, wobei wir davon ausgehen müssen, dass wir in wenigen Jahren Systeme haben, die wesentlich besser und genauer Alkoholisiertheit oder Müdigkeit analysieren können als der durchschnittliche menschliche Sprecher."

Womöglich kann der Computer eines Tages also viel mehr aus unserer Stimme heraushören als unsere Mitmenschen. Damit könnte er zu einem wichtigen Zeugen werden.

"Wenn im Nachhinein zum Beispiel ein Kunstfehlerprozess angestoßen wird und das System ohnehin die OP-Kommunikation verfolgt und dann im Nachhinein diese OP-Kommunikation ausgewertet wird und dann eben festgestellt wird, der Operateur war in einem alkoholisierten Zustand, dann sind das mit Sicherheit Dinge, die schwer ins Gewicht fallen können."

Dass solche Systeme tatsächlich zum Einsatz kommen werden, hält Krajewski für wahrscheinlich. Denn die technische Entwicklung treffe auf einen gesellschaftlichen Trend:

"Was wir tatsächlich im Moment bekommen, ist eine sogenannte Health-and-Safety-Ideologie, das heißt die Idee, dass Sicherheit und Gesundheit als Super-Grundrecht dastehen, das eben auch Totalüberwachung rechtfertigt."

Dann würden nicht nur Piloten oder Ärzte per Stimmanalyse überwacht, sondern wir alle. Was wird der Computer dann alles heraushören können? Krajewski arbeitet gerade daran, auch Erkältungen und Grippe akustisch zu diagnostizieren.

"Was denkbar wäre an Szenarien, ist folgende Situation: Ich möchte ein Handy-Ticket kaufen, das System stellt aber fest, dass ich eine Grippe habe und dementsprechend nicht Bus fahren sollte und folgerichtig wird mir dann das Handyticket eben nicht verkauft."

Da stellt sich zum ersten Mal Irritation ein. Und es geht nicht nur um eine simple Grippe. Verschiedene Forschergruppen arbeiten schon daran, auch andere Krankheiten an Veränderungen der Stimme und der Sprechweise zu erkennen: Parkinson, ADHS oder Depressionen. Das könnte Patienten und Therapeuten helfen – indem es die Diagnose und die Beobachtung des Krankheitsverlaufs einfacher macht. Aber die Daten könnten auch in die Hände von Versicherungen, Gesundheitsbehörden oder Arbeitgebern geraten. Das ist selbst Jarek Krajewski nicht geheuer:

"Es fühlt sich überhaupt nicht gut an, das muss man sagen. Ich denke, dass sich ganz dringend eine gesellschaftliche Diskussion in Gang setzen muss, die sich damit beschäftigt, welche Form von Daten wollen wir eigentlich in Zukunft für eine allgemein gesundheitsoptimierte Lebensgestaltung zukommen lassen oder nicht. Das heißt, wollen wir ein Leben, in dem wir nicht mehr unter vier Augen kommunizieren, in dem auch unsere Emotionen nicht mehr privat sind?"

"Herr Müller, was ist denn heute los? Ich habe Sie doch bisher als einen sehr ausgeglichenen, verträglichen Menschen kennengelernt. Gerade klingen Sie aber extrem aufgeregt!"

Zurück in Berlin, in den Telekom Innovation Laboratories. In dem Hochhaus mit dem leuchtend magentafarbenen T auf dem Dach versucht Tim Polzehl, das Puzzle aus Emotionen, Launen, Gemütszuständen zusammenzusetzen, ein Gesamtbild entstehen zu lassen.

Der Blick geht bis zum Brandenburger Tor, in der anderen Richtung ist der alte Funkturm zu sehen. Drinnen Großraumbüros, die Arbeitsplätze dicht an dicht. Hier bringt Polzehl dem Computer bei, Menschen als Individuen kennenzulernen.

"Die Emotion alleine als spontane Observation mag in manchen Szenarien reichen, wie in dem Callcenter-Szenario. Aber wenn ich mir eben vorstelle, dass die Technologie, die Sprachtechnologie heutzutage mich jeden Tag begleiten soll, dann soll sie sich auf mich einstellen. Man kann sagen "Hey, das ist Tim. Tim, der redet immer ein bisschen schneller und verwirrt, der ist halt so."

Polzehl diktiert seinem Handy und Computer heute schon SMS und Mails, besonders im Auto. Auch das Navigationssystem steuert er mit seiner Stimme. Die Spracherkennung begleitet ihn bereits durch den Alltag.

"Da würde ich mir sehr wünschen, dass die mich besser kennenlernen dürfte, um mich besser a) zu verstehen, wenn ich meine SMS und meine E-Mails diktiere, und b) vielleicht auch ein bisschen mehr an Menschlichkeit mir gegenüber zurückspiegeln könnte, indem sie nämlich wüsste, wann ich aufgeregt bin, und dann sollte sie eventuell ruhig sein."

Die Big-Five-Kriterien der Stimmendeutung

Damit Computer Menschen besser einschätzen können, trainiert Polzehl Algorithmen darauf, aus der Stimme die Persönlichkeit herauszulesen. Fünf Hauptdimensionen haben Psychologen vorläufig ausgemacht, sie werden "Big Five" genannt: Extraversion, Emotionale Stabilität, Offenheit für Erfahrungen, Gewissenhaftigkeit, Verträglichkeit. Zum Training verwendet Polzehl nüchterne Standardtexte – es kommt ja auf den Ausdruck der Stimme an:

"Willkommen beim Gutscheindienst. Um ihren Gutschein einzulösen, geben Sie bitte den Gutscheincode ein. Mit diesem Telefonanschluss können Sie Ihren Gutschein leider nicht einlösen. Rufen Sie bitte diese kostenlose Rufnummer noch einmal an, und zwar von dem Anschluss aus, für den Sie den Gutschein einlösen möchten. Vielen Dank und auf Wiederhören."

"Wir haben also einen sehr extrovertierten Sprecher. Man hört das natürlich an der Art und Weise, wie er seine Stimmvolumina gebraucht, wie er seine Tonhöhe gebraucht, in welcher Art und Weise er hoch und runter zieht. Das ist alles im Ausdruck der Stimme enthalten, zu einem großen Teil auch maschinell wiederfindbar."

"Wir haben den zweiten Sprecher als etwas gedämpfter gehört, wahrgenommen, der ist so ein bisschen tatsächlich nicht aus sich herausgehend, das heißt die Stimmhöhe geht auch tatsächlich physisch nicht aus sich heraus, geht nicht in große Höhen, genauso wie die Lautstärke, das war alles sehr normalisiert, sehr zurückhaltend."

Ein eher introvertierter Mensch also. Damit der Computer Zurückhaltung von emotionaler Instabilität oder geringer Offenheit unterscheiden kann, muss er üben, üben, üben. Und das nicht nur in der Entwicklungsphase im Labor – auch später im echten Einsatz muss er länger hinhören, wenn es nicht einfach um Ärger mit der Hotline oder Wut am Steuer geht.

"Das ist allerdings auch keine negative Sache, sondern so lernen wir Menschen ja auch. Wir lernen jemanden kennen, wir lernen jemanden besser kennen, und irgendwann kennen wir ihn richtig gut. Und wenn wir jemanden richtig gut kennen, können wir auch sagen, ja, der ist heute nicht besonders gut drauf. So geht's natürlich den Maschinen auch, beziehungsweise viel schlimmer, die brauchen halt ein paar tausend Beispiele mehr."

In bis zu 85 Prozent der Fälle liegt der Computer inzwischen richtig – wenn es um eine einzelne Dimension der Persönlichkeit geht, die ein Schauspieler klar dargestellt hat. Aber in der Realität ist unsere Persönlichkeit ja eine Mischung aus allen fünf Dimensionen.

"Damit kommt er mal besser, mal schlechter klar. Das ist aber das Ziel, der Computer soll eine unbekannte Stimme einordnen und soll mir sagen, zu 80 Prozent Sicherheit kann ich vorhersagen, dass diese Stimme sehr extrovertiert ist. Zu 20 Prozent Sicherheit kann ich vorhersagen, dass sie auch sehr offen ist."

Gelingt das, können Computer auch kurzfristige Gefühlsausbrüche besser einordnen. Und sie könnten lernen, wie sie mit den Charakteren und Launen ihrer Benutzer am besten umgehen. Wenn also die Computer uns Menschen besser verstehen, könnten sie auch selbst ein bisschen menschlicher werden. Mensch und Maschine nähern sich an, Stück für Stück.

"So kann man sich vorstellen, wenn der Computer lernen würde, stimmlich zu reagieren, wie ein Mensch reagiert, dann müssten wir uns auch nicht permanent vorstellen, dass da ja eine Maschine im Hintergrund ist, und dass die vielleicht nicht so clever ist, und dass man das nervend findet. "

Damit ein Computer möglichst einfühlsam mit einem verärgerten Menschen umgehen kann, muss er nicht nur den Ärger in seiner Stimme erkennen, sondern auch wissen, wie das Individuum, das er da vor sich hat, grundsätzlich tickt.

"Der eine wird vielleicht beruhigt dadurch, dass die Computerstimme ihn besser versteht, der nächste regt sich darüber auf, dass diese Computerstimme auch noch die Frechheit hat, auf ihn beruhigend einzuwirken. Das ist wirklich abhängig von der Charakteristik, von der Persönlichkeit des Sprechers."

Wenn die Algorithmen also Emotionen und Persönlichkeitsmerkmale erkennen und die dazu passende Reaktionen abrufen können, wird die Interaktion zwischen Mensch und Maschine natürlicher. Das macht aber zugleich die Erzeugung der eigentlichen Computerstimme anspruchsvoller.

"Wenn Sie beim Lotto anrufen, und die Stimme sagt "Bitte geben Sie jetzt Ihren Tipp ab", da ist es immer dieselbe Stimme, das kann man aufnehmen, das passt. Wenn man allerdings natürlich sprachlich interagieren möchte, dann muss ja der Computer alle möglichen Ausdrücke und Inhalte wiedergeben können, ausdrücken können, generieren, synthetisieren können."

Vom Kampf mit blechernen Stimmen

Ganz am Anfang hatten die Forscher noch versucht, den menschlichen Vokaltrakt möglichst naturgetreu nachzubauen und so eine natürliche Stimme zu erzeugen. Doch das Ergebnis klang blechern. Dann gingen sie einen völlig anderen Weg: Sie ließen Schauspieler alle möglichen Wörter mit unterschiedlicher Intonation einsprechen, zerschnipselten sie in ihre kleinsten Laute und ließen den Computer daraus in Echtzeit neue Sätze basteln. Die Methode ist extrem künstlich, doch das Ergebnis klingt natürlicher. Zum Beispiel beim Branchenführer Nuance. Zu der Verbesserung hat auch die Analyse von menschlichen Stimmen beigetragen.

"Wir lernen aus der Analyse eigentlich relativ viel darüber, wie die Variabilität hinsichtlich der Emotion oder hinsichtlich des Stimmcharakters oder der Persönlichkeit aussieht. Was wir in der Synthese können, wir können eine Geschwindigkeit vorgeben, wir können eine Art Intensität vorgeben, wir haben Statistiken, wie sehr hoch, wie sehr runter soll denn die Stimmfrequenz gehen dürfen und können uns da so ein bisschen verwirklichen."

Mit dem Ergebnis ist Polzehl aber noch nicht zufrieden. Die menschliche Stimme und Sprechweise sind einfach zu vielschichtig:

"Da sehen wir so viele Freiheitsgrade, was man betonen kann, was man lang ziehen kann, was man vielleicht nach hinten stellen kann, was man durch Pausen, durch rhythmisches Verhalten unterstreichen kann, was man durch Lauterwerden oder durch Höher- oder Niedrigerwerden der Stimme unterstreichen kann. Dass das einfach zu komplex im Moment ist, um es zu synthetisieren. Zur Erzeugung einer völlig neuen Stimme braucht man ein bisschen mehr als nur das, was wir bisher von einer vorhandenen Stimme feststellen können."

"Sie klingen ja so entspannt heute nachmittag. Haben Sie schon alles vorbereitet für die Silvesterparty? Ich wünsche einen guten Rutsch!"

"Das Problem ist zumindest mal soweit gelöst, dass wir starke Ausschläge in der Emotionalität erkennen können. Man muss allerdings dazu sagen, der Mensch kann das erheblich noch in größeren Nuancen. Aber was heute sehr gut geht, ist eben so jemand, ist der jetzt ganz relaxt, ist der aufgeregt, ist der jetzt wirklich aggressiv, total geladen, diese Stufen können wir eigentlich sehr treffsicher mit Computern erkennen."

Und nicht nur das: Auch Müdigkeit und Alkoholisiertheit, ja sogar Krankheiten können Computer heute schon aus unseren Stimmen heraushören. Morgen werden sie womöglich auch unsere Persönlichkeit und unsere Macken einschätzen können. Und wenn sie uns Menschen besser verstehen, wird das den Maschinen helfen, selbst ein bisschen umgänglicher zu werden. Doch ganz wie ein Mensch klingen werden sie wohl so bald nicht.

"Werden wir nicht? Na, ihr werdet euch noch wundern …"

Die Menschenversteher. Computer als Stimmanalytiker
Eine Sendung von Stefanie Schramm

Produktion: Axel Scheibchen

Redaktion: Christiane Knoll.

 

Das könnte sie auch interessieren

Entdecken Sie den Deutschlandfunk