"Im gesprochenen Wort sind circa, je nach Sprechgeschwindigkeit, zwischen 80 bis 100 Wörter pro Minuten möglich. Das ist natürlich weit mehr als jetzt irgend so ein kleiner Beschreibungstext, der nur kurz zusammenfasst, hergeben kann."
Ergebnisse aus 320 Kanälen
Das sei einer der Gründe, warum die üblichen Suchmaschinen mit dem gesprochenen Wort oft überfordert sind, sagt Christian Schrumpf vom Bremer Start-up Spaactor. Deshalb haben er und sein Kollege Thorsten Schoop die Suchmaschine ‘Spaactor’ entwickelt. Der ungewöhnliche Name ist ein Kunstwort aus den englischen Begriffen "speech" und "spectator", also Rede und Zuschauer. Ihre Handhabung hingegen erinnert an andere Suchmaschinen. Wer zum Beispiel das Wort ‘Digitalisierung’ in die Suchmaske eintippt, der bekommt über 26.000 Audios und Videos vorgeschlagen. Die Bandbreite der Suchvorschläge erstreckt sich von der Tagesschau:
"International hinkt Deutschland bei der Digitalisierung eher hinterher"
Bis über Bundestagsdebatten:
"Vier Jahre später ist Deutschland immer noch ein Entwicklungsland bei der Digitalisierung."
Bis hin zu Podcasts, vor allem von öffentlich rechtlichen Sendern. Aus insgesamt 320 Kanälen - alle mit einem gewissen Bekanntheitsgrad - werden momentan Suchergebnisse geliefert.
"Wir verarbeiten aber nicht jetzt eine Webseite von einem Privatanwender, der irgendwie drei, vier Videos da drauf hat oder auch Youtube-Kanäle von irgendwelchen Unbekannten."
Inhalte werden verschriftlicht
Sagt Christian Schrumpf. Jeden Tag wird die Datenbank mithilfe von Feeds und Webcrawlern erweitert. Webcrawler sind Computerprogramm, die automatisch das World Wide Web durchsucht und neue Audios oder Videos finden. Die Inhalte werden dann mithilfe einer Spracherkennungssoftware verschriftlicht. Gesprochene Inhalte in geschriebenen Text umzuwandeln, hat das Programm mithilfe von zahlreichen Beispieldurchläufen gelernt. Details über die Funktionsweise bleiben aber Betriebsgeheimnis. Erst wenn ein Audio oder Video als Text vorliegt, kann es von den Nutzern bei Spaactor gesucht werden. Das Verschriftlichen bringt allerdings auch seine Probleme mit sich, meint Christoph Schmidt vom Fraunhofer-Institut für Intelligente Analyse- und Informationssysteme IAIS in Sankt Augustin bei Bonn.
"Das Hauptproblem ist natürlich, dass jeder Mensch anders spricht. Und der Computer muss jetzt eben nicht nur die Sprache eines Menschen erkennen, sondern eben von allen, zum Beispiel jetzt bei der deutschen Sprache, von allen Deutschen."
Auch Schmidt und sein Team haben eine Suchmaschine für Audios entwickelt. Die arbeitet speziell für Medienschaffende bei den öffentlich-rechtlichen Sendeanstalten und erleichtert so den Umgang mit den Archiven. Vor allem in den USA wird gerade sehr viel in die Forschung rund um Spracherkennung investiert. Deshalb haben die US-Kollegen gerade einmal eine Fehlerquote von vier Prozent, meint der Fraunhofer-Wissenschaftler Christoph Schmidt.
Fast zwei Millionen Wörter
"Bei der deutschen Sprache ist die große Herausforderung, dass es sehr viele zusammengesetzte Nomen gibt. Und deswegen auch die Menge der Wörter auch größer ist. Also wir zum Beispiel beim Fraunhofer IAIS arbeiten mit einem Vokabular von 1,9 Millionen Wörtern. Eben um die ganzen zusammengesetzten Nomen mit erkennen zu können, und im Deutschen ist deswegen die Spracherkennung so bei acht Prozent bis zehn Prozent."
Womit er die Fehlerquote meint. Nicht ganz unschuldig an der schlechteren Quote dürften auch Dialekte sein, meint Schmidt. Sie funktionieren wie eine eigene Sprache, die Spracherkennungssoftware auch erlernen muss. Dialekte sieht er aber auch als Chance.
"Das ist zum Beispiel auch ein Thema, wo man sieht, da wird Google nicht reingehen. Also Google wird jetzt zum Beispiel ein standard-deutsches System bauen, Google wird wahrscheinlich nicht ein bayrisches System bauen."
Höhere Fehlerraten hat die Spracherkennung von Spaactor auch, wenn sich unter die deutschen englische oder französische Worte mischen. Die Gründer möchten ihrer Suchmaschine deshalb in Zukunft auch noch andere Sprachen beibringen.