Dienstag, 19. März 2024

Archiv

Digitale Lexikographie
Die Suche nach dem deutschen Wortschatz

Früher Statussymbol, heute Staubfänger: Gedruckte Lexika haben ausgedient. Das neu eröffnete "Zentrum für Digitale Lexikographie" will die Linguistik ins 21. Jahrhundert katapultieren. In den nächsten acht Jahren sollen Algorithmen helfen, ein umfangreiches Wörterbuch der deutschen Sprache aufzubauen.

Von Wolfgang Noelke | 31.01.2019
    Grimm's Deutsches Wörterbuch.
    Das neue entstehende Wörterbuch wird umfangreicher sein als der Duden und das Grimm'sche Wörterbuch zusammen - und wesentlich aktueller (picture-alliance / dpa)
    "Wenn Sie die Sterne beobachten möchten, brauchen Sie ein Teleskop und das ist ungefähr das, was wir auch hier entwickeln."
    Das "Teleskop" des Lexikographen Adrien Barbaresi ist ein Suchalgorithmus, der jenen Analyseprogrammen ähnelt, mit denen zum Beispiel Modeunternehmen aus Internetfotos die Beliebtheit neuer Farben ermitteln. Data-Mining heißt diese Trendsuche. Statt nach Farben, sucht Barbaresis Programm nach, im Internet auftauchenden Wörtern und Begriffen:
    "Das ist speziell für die Linguistik entwickelt. Das ist Spitzentechnologie für die wissenschaftliche Forschung in diesem besonderen Kontext. Data-Mining ist in einem breiteren Kontext."
    Linguistisches Data-Mining
    Der Algorithmus sucht nach alten und neuen Wörtern, Begriffen, sowie nach deren Herkunft. Quellen dieser Internetrecherche sind überwiegend Texte aus Büchern und Zeitungen. Der Vorstoß zur unredigierten deutschen Gegenwartssprache – frei nach Martin Luther, die Fähigkeit "dem Volk aufs Maul" zu schauen - ist die Spezialität dieses Linguistik-Suchprogramms:
    "Denn die Sprache im Internet, das sind die Zeitungen. Ich glaube, das werden Sie auch wissen, das sind gebildete Leute, die auf Hochdeutsch schreiben. Es gibt jetzt mit dem Internet Leute, die sich in diversen Kontexten ausdrücken möchten. Das ist für uns Linguisten besonders interessant, denn wir haben eine bestimmte Norm, also das Hochdeutsche und dann gibt's eine Vielfalt von Soziolekten und Dialekten sogar. Manchmal gibt es Leute, die einfach auf eine bestimmte Art reden und man weiß nicht genau, warum. Und bei uns entscheidet dann die Frequenz. Das heißt, wenn etwas besonders frequent wird, dann wird es zum Trend und das wird dann als Trend erkannt und möglicherweise muss das dokumentiert werden, beziehungsweise lexiografisch erfasst werden."
    Der Genitiv ist im Nachteil
    Ergänzend zum Algorithmus bedarf es eines umfassenden Fachwissens, warum – zum Beispiel - in diesem Satz der korrekte Gebrauch der Formulierung "Es bedarf" durch ein holperiges "Es braucht" ersetzt werden kann und - warum dies inzwischen nicht mehr als holperig und unkorrekt empfunden wird. Dr. Alexander Geyken ist Arbeitsgruppenleiter im Zentrum für Deutsche Lexikographie, dem ZDL. Er sagt:
    "Also das eine hat heutzutage Nachteile, weil es eines Genitivs bedarf. Der wird heute zunehmend weniger verwendet und ist damit eindeutig im Nachteil. Die andere Verwendungsweise mit "es braucht" fordert den Akkusativ und hat damit strukturelle Vorteile, wenn man so will."
    Noch werden beide Formulierungen verstanden, trotz des zunehmenden Verzichts auf den Genitiv. Dies ist ein auf dem Bildschirm sichtbares Beispiel lebendiger, sich stets verändernder Sprache, erklärt Geyken:
    "Wir haben die Möglichkeit, über zeitliche Verlaufskurven Tendenzen zu ermitteln und sehen jetzt hier, 'Es bedarf'- Ich habe das jetzt so abgefragt, dass man das am Satzanfang sieht. Also 'es bedarf keiner weiteren Erläuterung' - in diesem Sinne wurde das hier abgefragt. Man sieht also, die Tendenz ist seit 1945 zunächst einmal steigend und fällt dann seit den 1960ern und hat sich in etwa halbiert gegenüber dem Stand von 1945. Jetzt kann ich das mal vergleichen mit 'Es braucht'. Ich suche jetzt nach Ansätzen mit 'Es braucht'-Beginn und vergleiche das mit den Sätzen mit 'Es bedarf'. Was man sieht ist, dass die sich überkreuzen, an einer gewissen Stelle etwa Mitte der 1990er Jahre und seitdem geht 'Es braucht' ganz steil nach oben und 'Es bedarf' sinkt leicht.
    Grundlagen für umfangreiches Wörterbuch
    Warum "Bedürfnisse" nur noch selten so genannt werden und stattdessen zu "Bedarfen" mutierten, liegt wahrscheinlich am Bedürfnis der Kanzleisprache, sich möglichst abzuheben, von menschlichen Bedürfnissen – oder – Bedarfen. Ursprünglich stand Bedarf für "Mangel" und "Not", bevor der Begriff seit vor mehr als 200 Jahren in der sogenannten Kanzleisprache verwendet wird. Solche Erkenntnisse gehören unter anderem zu Grundlagen des Wörterbuchs der deutschen Gegenwartssprache, das das ZDL in den nächsten acht Jahren ergänzen und aufbauen wird. Das Ergebnis wäre – in Papier gedruckt – dann wesentlich umfangreicher, als der Duden und das Grimm'sche Wörterbuch gemeinsam.
    "Wir müssen die bisherige Wörterbuchbasis aktuell und konsistent halten. Herausforderung ist dabei die große Menge der Wörter im Deutschen. Nimmt man ein, etwa eine Milliarde laufende Texte umfassendes Korpus, kommt man auf knapp fünf Millionen verschiedene Wörter. Das steigt nicht linear mit der wachsenden Korpusmenge, aber es steigt. Hier ist nur an dieser Stelle entscheidend, dass auch die größten Wörterbücher der deutschen Sprache deutlich weniger Stichwörter haben. Das heißt, wir müssen auf diese Differenz zwischen diesen vielen Wörtern und dem, was wir lexikographisch beschreiben können, aus Zeitgründen einen Weg finden, wie man das praktisch umsetzen kann."
    Vorzüge gegenüber dem gedruckten Buch
    So Alexander Geyken während der Auftaktveranstaltung am Dienstagabend. Am Begriff "Auftakt" demonstrierte der Computerlinguist gleich die Vorzüge digitaler Systeme im Vergleich zum gedruckten Buch.
    "Man kann nämlich diese Word-Cloud nehmen und noch einmal nach grammatischen Eigenschaften sortieren, nämlich zum Beispiel nach den Wörtern, die ein Adjektiv-Attribut von 'Auftakt' sind. Man findet also einen 'furiosen', einen 'gelungenen' und einen 'verheißungsvollen Auftakt' oder die Präpositionalgruppe, 'Ein Auftakt nach Maß', den wir hoffentlich heute haben werden et cetera."
    Dass der Begriff "Auftakt" ursprünglich nichts mit Musik zu tun hat, sondern aus der kriegerischen Choreographie des Fechtens stammt, sei noch ergänzend erwähnt. Derartige Verwechslungen zu vermeiden und regionale Missdeutungen zu definieren, erfordere die besondere Aufmerksamkeit der Wissenschaftler, soll die Lexikographie Deutscher Gegenwartssprache später auch von Algorithmen sogenannter Künstlicher Intelligenz verstanden werden. Menschen, als Mittler einer dafür unmissverständlich menschlichen Interpretation der Sprache, so Klaus-Dieter Lehmann, Präsident des Goethe-Instituts blieben deswegen auch künftig unersetzlich:
    "Wenn man nur technisch und ökonomisch denkt, werden wir überfahren. Ohne eine Einstellung, die auch geschult arbeitet, wird die künstliche Intelligenz – glaube ich der Sieger sein. Dieses Lexikographie-Zentrum ist genau das Gegenbeispiel der Maschinensprache. Und deshalb will ich hier, dass dieses ZDL wirklich groß wird, weil der kulturelle Reichtum in dieser Variationsbreite liegt."