"Wie finden Sie meinen neuen Hut? Manche Menschen vertragen keine Erdbeeren. Sie isst kein salziges Gericht."
Solche Sätze findet der Schüler aus Dresden eigentlich eher "uncool". Aber was tut man nicht alles für die Forschung. "Voll korrekt" liest er also sämtliche Wörter, Ziffern und Zahlen vor, die auf einem Computer-Monitor erscheinen. Letztlich dürfte er selbst etwas davon haben: Denn in Zukunft kann er vielleicht auch mit seinem Handy so reden. Dass viele sprachgesteuerte Geräte heute noch nicht verstehen, was man ihnen sagt, das liegt offenbar auch an der Stimme.
"Wir wissen es von anderen Spracherkennungssystemen, dass zum Beispiel Diktiersysteme für Frauenstimmen schlechter funktionieren. Und das liegt häufig daran, dass diese Systeme entwickelt wurden mit Sprachdatenbanken, in denen hauptsächlich Männerstimmen drin waren. Das heißt, da ist ein großer Unterschied. Und wir denken, dass ein ähnlich großer Unterschied jetzt auch zwischen erwachsenen und jugendlichen Stimmen ist."
Christoph Draxler vom Institut für Phonetik und Sprachliche Kommunikation der Uni München. Er organisiert die Ph@tt Sessionz genannte Datensammlung. Zum einen macht also der Klang jugendlicher Stimmen den Spracherkennungssystemen die Arbeit schwer. Man denke etwa an den Stimmbruch. Andererseits sind es aber auch spezielle Ausdrücke, die in herkömmlichen Sprachdatenbanken fehlen. Um sie zu erfassen, lassen die Münchner Forscher die Jugendlichen zum Beispiel erzählen, was sie letzte Woche gemacht haben:
"Ja, ich war mit meinen Freunden Fahrrad fahren. Und am Montag war ich schwimmen. Zwischen den Tagen, also meistens abends, gehe ich nochmal mit Freunden auf die Halfpipe skaten."
Dazu Christoph Draxler:
"Sie waren in der 'Halfpipe skaten' oder sie waren 'shoppen', das sind ja alles Wörter - gut, wir kennen sie, wir verstehen sie - aber sie sind in wenigen Datenbanken für Erwachsene überhaupt drinnen, weil Erwachsene diese Wörter nicht benutzen oder nur sehr selten benutzen. Gut, 'shoppen' vielleicht. Aber 50jährige, die in der 'Halfpipe skaten', das dürfte doch selten vorkommen."
Damit nicht Jugendliche aus ganz Deutschland extra nach München kommen müssen, lassen die Wissenschaftler die Aufnahmen vor Ort machen: in Schulen. Und zwar von den Lehrern und Schülern selbst. Die Phonetiker stellen dafür jeweils zwei Mikrofone zur Verfügung und einen hochwertigen Analog-Digital-Wandler. Der wird einfach an einen Schulcomputer mit Internetzugang angeschlossen. Vom Server des Instituts lässt sich dann eine eigens entwickelte Aufnahme-Software herunterladen. Das Programm gibt vor, welche Zahlen oder welchen Text die Schüler jeweils sprechen sollen - insgesamt über 100 Sprachbeispiele. Dabei werden auch Äußerungen abgefragt, die sich direkt auf Anwendungen beziehen. Zum Beispiel: Wie sagst Du einem sprachverstehenden Mobiltelefon, dass es ein Fax vorlesen soll?
"Handy, les' das Fax vor! Gib mir das Fax, bitteschön!"
Eine Besonderheit des Aufnahmeprogramms ist, dass es die Sprachdaten nicht auf der Festplatte des Schulrechners ablegt. Bereits während der Aufzeichnung werden die Daten leicht komprimiert und über das Internet direkt zum Server der Münchner Phonetiker geschickt. Am Institut beginnt dann die eigentliche Arbeit. Eine reine Sprachaufnahme ist nämlich so gut wie wertlos. Brauchbar wird sie erst dadurch, dass man sie in geschriebenen Text überträgt und jeden einzelnen Laut präzise erfasst, also zum Beispiel verschieden ausgesprochene "A"s genau voneinander unterscheidet. Dazu hören sich Hilfskräfte, so genannte Segmentierer, die Aufnahmen an und markieren, von wo bis wo welcher Laut zu finden ist. Unterstützt werden sie dabei vom Computer.
"Wir haben mittlerweile schon so viele Sprachdaten gesammelt, dass wir wissen, wie lange die durchschnittlichen Lautdauern sind. Das heißt, was wir machen können - mit einem Programm, das mein Kollege Florian Schiel entwickelt hat - ist eine halbautomatische Segmentierung. Das Programm nennt sich MAUS, Munich AUtomatic Segmentation. Das heißt, wenn wir die Orthographie vorgegeben haben, können wir eine ziemlich gute Segmentierung für eine Äußerung finden. Das heißt aber mindestens, dass die Orthographie schon da sein muss."
Also eine korrekte Textfassung der Aufnahme. Die automatisch unterteilten Sprach-Beispiele werden anschließend noch einmal nach Gehör überprüft. Rund 1000 Jugendliche wollen die Münchner Wissenschaftler bis März nächsten Jahres aufnehmen. Schon im Sommer soll die Sprachdatenbank komplett bearbeitet sein. Eine Datensammlung auf voraussichtlich zehn bis 20 DVDs. Interessant nicht nur für die Entwickler in der Industrie, sondern auch für Sprachforscher.
Solche Sätze findet der Schüler aus Dresden eigentlich eher "uncool". Aber was tut man nicht alles für die Forschung. "Voll korrekt" liest er also sämtliche Wörter, Ziffern und Zahlen vor, die auf einem Computer-Monitor erscheinen. Letztlich dürfte er selbst etwas davon haben: Denn in Zukunft kann er vielleicht auch mit seinem Handy so reden. Dass viele sprachgesteuerte Geräte heute noch nicht verstehen, was man ihnen sagt, das liegt offenbar auch an der Stimme.
"Wir wissen es von anderen Spracherkennungssystemen, dass zum Beispiel Diktiersysteme für Frauenstimmen schlechter funktionieren. Und das liegt häufig daran, dass diese Systeme entwickelt wurden mit Sprachdatenbanken, in denen hauptsächlich Männerstimmen drin waren. Das heißt, da ist ein großer Unterschied. Und wir denken, dass ein ähnlich großer Unterschied jetzt auch zwischen erwachsenen und jugendlichen Stimmen ist."
Christoph Draxler vom Institut für Phonetik und Sprachliche Kommunikation der Uni München. Er organisiert die Ph@tt Sessionz genannte Datensammlung. Zum einen macht also der Klang jugendlicher Stimmen den Spracherkennungssystemen die Arbeit schwer. Man denke etwa an den Stimmbruch. Andererseits sind es aber auch spezielle Ausdrücke, die in herkömmlichen Sprachdatenbanken fehlen. Um sie zu erfassen, lassen die Münchner Forscher die Jugendlichen zum Beispiel erzählen, was sie letzte Woche gemacht haben:
"Ja, ich war mit meinen Freunden Fahrrad fahren. Und am Montag war ich schwimmen. Zwischen den Tagen, also meistens abends, gehe ich nochmal mit Freunden auf die Halfpipe skaten."
Dazu Christoph Draxler:
"Sie waren in der 'Halfpipe skaten' oder sie waren 'shoppen', das sind ja alles Wörter - gut, wir kennen sie, wir verstehen sie - aber sie sind in wenigen Datenbanken für Erwachsene überhaupt drinnen, weil Erwachsene diese Wörter nicht benutzen oder nur sehr selten benutzen. Gut, 'shoppen' vielleicht. Aber 50jährige, die in der 'Halfpipe skaten', das dürfte doch selten vorkommen."
Damit nicht Jugendliche aus ganz Deutschland extra nach München kommen müssen, lassen die Wissenschaftler die Aufnahmen vor Ort machen: in Schulen. Und zwar von den Lehrern und Schülern selbst. Die Phonetiker stellen dafür jeweils zwei Mikrofone zur Verfügung und einen hochwertigen Analog-Digital-Wandler. Der wird einfach an einen Schulcomputer mit Internetzugang angeschlossen. Vom Server des Instituts lässt sich dann eine eigens entwickelte Aufnahme-Software herunterladen. Das Programm gibt vor, welche Zahlen oder welchen Text die Schüler jeweils sprechen sollen - insgesamt über 100 Sprachbeispiele. Dabei werden auch Äußerungen abgefragt, die sich direkt auf Anwendungen beziehen. Zum Beispiel: Wie sagst Du einem sprachverstehenden Mobiltelefon, dass es ein Fax vorlesen soll?
"Handy, les' das Fax vor! Gib mir das Fax, bitteschön!"
Eine Besonderheit des Aufnahmeprogramms ist, dass es die Sprachdaten nicht auf der Festplatte des Schulrechners ablegt. Bereits während der Aufzeichnung werden die Daten leicht komprimiert und über das Internet direkt zum Server der Münchner Phonetiker geschickt. Am Institut beginnt dann die eigentliche Arbeit. Eine reine Sprachaufnahme ist nämlich so gut wie wertlos. Brauchbar wird sie erst dadurch, dass man sie in geschriebenen Text überträgt und jeden einzelnen Laut präzise erfasst, also zum Beispiel verschieden ausgesprochene "A"s genau voneinander unterscheidet. Dazu hören sich Hilfskräfte, so genannte Segmentierer, die Aufnahmen an und markieren, von wo bis wo welcher Laut zu finden ist. Unterstützt werden sie dabei vom Computer.
"Wir haben mittlerweile schon so viele Sprachdaten gesammelt, dass wir wissen, wie lange die durchschnittlichen Lautdauern sind. Das heißt, was wir machen können - mit einem Programm, das mein Kollege Florian Schiel entwickelt hat - ist eine halbautomatische Segmentierung. Das Programm nennt sich MAUS, Munich AUtomatic Segmentation. Das heißt, wenn wir die Orthographie vorgegeben haben, können wir eine ziemlich gute Segmentierung für eine Äußerung finden. Das heißt aber mindestens, dass die Orthographie schon da sein muss."
Also eine korrekte Textfassung der Aufnahme. Die automatisch unterteilten Sprach-Beispiele werden anschließend noch einmal nach Gehör überprüft. Rund 1000 Jugendliche wollen die Münchner Wissenschaftler bis März nächsten Jahres aufnehmen. Schon im Sommer soll die Sprachdatenbank komplett bearbeitet sein. Eine Datensammlung auf voraussichtlich zehn bis 20 DVDs. Interessant nicht nur für die Entwickler in der Industrie, sondern auch für Sprachforscher.