Die Szene stammt aus einem Amazon-Werbevideo für "Echo", ein zylinderförmiges Gerät, etwa so groß wie eine Flasche, das es bisher nur in den USA zu kaufen gibt. Das Gerät wird irgendwo im Haus oder in der Wohnung aufgestellt und mit dem WLAN verbunden. Schon bald sollen Szenen wie aus dem Video in immer mehr Haushalten überall auf der Welt Wirklichkeit werden - wenn es nach dem Willen von Firmen wie Amazon, aber auch Google, Apple oder Microsoft geht. Menschen benutzen ein elektronisches Gerät mithilfe ihrer Stimme, das Gerät antwortet mit einer Computerstimme oder befolgt die Anweisungen. In "Echo", dem dunkelgrauen Zylinder von Amazon, stecken hochwertige Lautsprecher und sieben Mikrofone, über die Sprachkommandos oder Fragen seiner Benutzer aufgefangen werden.
Damit das möglich ist, müssen die Mikrofone des Gerätes permanent eingeschaltet sein. Im Inneren "lauert" ein kleiner Computer darauf, dass das Codewort fällt - im Fall von Echo ist "Alexa" das Codewort, bei Android-Smartphones lautet es "OK Google". Muss man also Angst haben, von Geräten wie dem "Echo" permanent belauscht zu werden, wie es kürzlich über die Smart-TV-Geräte von Samsung behauptet wurde? Dr. Tilman Frosch vom Horst-Goertz-Institut an der Ruhr-Uni Bochum:
"Echo reagiert auf ein bestimmtes Keyword. Und die Erkennung dieses Keywords funktioniert lokal nach meinem Wissen. Das heißt, erst wenn dieses Keyword erkannt wird, werden die Daten an ein Backend geliefert."
Sprachdaten werden gespeichert
Dieser "Backend" ist das Rechenzentrum des Anbieters, im Falle von Echo ist das das Online-Kaufhaus Amazon. Die Sprachdaten der Benutzer fließen also erst dann als Datenstrom übers Netz, wenn der kleine Computer im Echo das Codewort erkannt hat. Im Rechenzentrum wird die Anfrage verarbeitet, nach einer Antwort gesucht und die Antwort flitzt übers Netz zurück in das Gerät seines Besitzers. Damit dieser Vorgang möglichst schnell und fehlerfrei ablaufen kann, ist das System lernfähig. Das heißt: Die Sprachdaten werden nicht nur analysiert und verarbeitet sondern auch gespeichert.
"Ein Nutzen von Sprachdaten an der Stelle ist natürlich, den Spracherkennungsalgorithmus zu verbessern. Sie müssen sich vorstellen, dass so ein Spracherkennungsalgorithmus ja nicht mit einem Dialekt oder einer klaren Aussprache konfrontiert ist sondern mit einer Vielzahl von Dialekten. Das sind ja global agierende Unternehmen. Und das dient der Service-Verbesserung, der besseren Erkennung von Sprache des einzelnen Kunden oder einer Kundengruppe in einer Region."
Was darüber hinaus mit den gespeicherten Sprachdaten passiert, darüber kann man nur spekulieren. Nichts spricht dagegen, diese Daten dem Benutzerprofil dauerhaft zuzuordnen, so dass Amazon, Google oder Apple neben Text-Daten wie Name, Geburtsdatum oder angesurften Websites auch weiß, wie die Stimme dieses Benutzers klingt. Wer das nicht will, der sollte sich ein System wie Echo nicht kaufen und die Spracherkennungsfunktionen in seinem Smartphone deaktivieren.