Freitag, 19. April 2024

Archiv


Gute Daten, schlechte Daten

Internet.- Die Datenflut im World Wide Web wächst immer schneller. Klar, dass dabei nicht selten auch falsche Informationen in digitale Systeme gelangen. Doch leider ist es um ein Vielfaches komplizierter, Daten aus dem Netz herauszubekommen als sie hineinzustellen.

Von Wolfgang Noelke | 14.11.2009
    Noch heute gibt es Abonnenten, wie die Familie Meier, die ihre Zeitschrift gleich dreimal erhält: Einmal ist der Name Meier mit 'ei' richtig geschrieben, auf dem zweiten Exemplar steht der Name mit 'ai', auf dem dritten, Meier mit 'ay'. Da die digitale Kette durch fehlertolerante Postboten unterbrochen ist, bemerkt der Verlag den Fehler erst ein Jahr später, wenn Familie Meier zwei der drei Rechnungen nicht bezahlen will. Wenn die Abonnenten in Potsdam wohnen würden, ergeben sich noch sechs weitere, schwer zu überprüfende Möglichkeiten, Potsdam falsch zu schreiben: 120.000 Mal findet man Potsdam mit 'tz' 130.000 Mal sogar mit 'tz' und doppeltem 'm' und die Podcast-Generation verleiht der Stadt fast 40.000 Mal ein 'd' in der Mitte.

    Deswegen sollte man zur Datenbereinigung Suchmaschinen vermeiden, sagt Professor Felix Naumann, Leiter des Fachgebiets Informationssysteme am Potsdamer Hasso Plattner Institut, sondern möglichst Datenbanken offizieller Stellen nutzen, denn um nur 10.000 Adressdaten auf Relevanz und Doubletten zu überprüfen, bedarf es bereits 500 Millionen Vergleiche, die spezielle Programme nach einem angepassten Algorithmus erledigen:

    "Um diese 500 Millionen zu vermeiden – das kann sich ja keiner leisten, denn das dauert Wochen und Jahre – bemüht man sich, Vergleiche zu vermeiden. Das heißt, man vergleicht nicht jeden mit jedem anderen, sondern vergleicht vielleicht nur Leute, die innerhalb der gleichen Postleitzahl wohnen. Die Annahme dahinter ist die, dass die Potleitzahl in der Regel richtig geschrieben ist und dann muss ich nur noch diese Personen vergleichen. Damit habe ich die Menge der Vergleiche drastisch reduziert. Ich muss nicht jedem mit jedem, sondern vielleicht im Bereich einer Postleitzahl zehn Abonnenten untereinander vergleichen. Zehn mal zehn sind etwa 100 Vergleiche. Dadurch bin ich deutlich schneller."

    Komplizierter wird es beispielsweise in mittleren und größeren Unternehmen, erklärt Tagungspräsident Michael Mielke, wenn...

    "...in Unternehmen immer mehr Geschäftsregeln elektronisch abgelegt worden sind, die einem erklären, wenn ein Datensatz bestimmte Kriterien erfüllt, das ist dann die Regel, dann ist er richtig. Wenn ich aber jetzt ganz viele Regeln habe, ein gutes Beispiel aus der Vergangenheit ist, rund 30.000 Abrechnungsregeln. Dann habe ich eine Größenordnung erreicht, wo ich mich dann schon wieder fragen muss: Sind meine Regeln eigentlich noch qualitativ gut oder wie viel Doubletten habe ich eigentlich da drin?"

    Um in diesem Fall Rechnungen und Bestellungen aus dem digitalen Nirwana zu bergen, bedurfte es eines maßgeschneiderten Rettungsprogramms:

    Mielke:

    "Da haben wir eine eigene Sprache gemacht, in der definiert ist, wie Regeln zu beschreiben sind, haben dann mit Dataminingmethoden, also mit Analysewerkzeugen den Source Code uns angeschaut und haben die Regeln entsprechend der neuen Sprachdefinition beschrieben und dann anschließend tatsächlich analysieren können. Und dann ist hier am Institut zusammen mit Studenten ein Werkzeug entstanden, das heute operativ eingesetzt wird, im Unternehmen und den Sachbearbeitern die Möglichkeit gibt, zu schauen, auch in alten Programmen, was ist denn da hinterlegt? Und wenn ich da jetzt etwas ändern will, auf was muss ich dann achten?"

    Ähnlich könnte auch eine einheitliche Plattform kommunaler Daten entstehen, die zum Teil noch in unkompatiblen Uralt-Systemen beheimatet sind. Diego Calvo de Nó aus Frankfurt löst solche Probleme mit der Open Source Software Penthaho:

    "Sie haben Bürger als Objekt, Sie haben irgendwelche Kataster- Adressen als Objekt und Sie müssen diese Daten in einem Datenmodell erstmal einheitlich definieren. Und dann können Sie die Daten extrahieren aus dem Systemen und durch den Workflow verarbeiten und dann abgleichen und irgendwo wieder speichern. Sie können jeden Schritt der Verarbeitung grafisch sehen. Wir haben damals ein Tool gesucht, das Open Source ist und das auch diese graphische Möglichkeit hat und die Plug-In-Möglichkeit. Diese Möglichkeit, zusätzliche Komponenten selber zu bauen und zu platzieren."

    Der Vorsitzende der Deutschen Gesellschaft für Informations- und Datenqualität, Dr. Marcus Gehbauer, wünscht sich mehr Kompetenz der Entwickler, die damit aufhören sollten, analoge Geschäftsregeln ungeprüft eins zu eins in die digitale Verarbeitung zu integrieren:

    "Was heutzutage fehlt ist, wenn man Systeme entwickelt und Datenspeicherung angeht, macht man sich über die möglichen Problemfelder keine Gedanken. Und das muss man angehen, strukturell. Es muss Leute geben, die sagen: Schritt zurück! Ich guck mir diese Datenkonstellation an und welche Probleme könnten auftauchen? Wenn Sie heute aus dem Bankendesaster etwas lernen wollen, machen es auch diese Beispiele deutlich: Es reicht nicht, neue Regularien einzuführen, sondern man muss ein neues Denken einführen: Wie gehe ich solche Systematiken tatsächlich an?"