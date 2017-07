Thomas Schäfer: "Das ist eine riesige Datenmenge, mehrere Millionen Datensätze, die dort ausgewertet werden müssen, die natürlich nicht vorstrukturiert sind, sondern das kann man sich vorstellen, als wenn mehrere Millionen lose Blätter hintereinander liegen, die dann erst mal maschinenlesbar gemacht werden müssen, um dann die entsprechenden Kenntnisse daraus zu gewinnen."

Manfred Kloiber: So fasst der hessische Finanzminister Thomas Schäfer die Aufgaben zusammen, die auf die Ermittler des Bundeskriminalamtes zukommen werden. Denn das BKA hat die Panama Papers angekauft. Die Kriminalisten vermuten, dass durch die Auswertung der Papiere jede Menge Steuersünder in Deutschland enttarnt werden. Peter Welchering, Sie haben recherchiert, was da an Auswertungsarbeit geplant ist. Werden die Datenanalysten im BKA da ähnlich vorgehen wie die Journalisten des "Guardian" und anderer Medienhäuser, die ja mit teilweise erstaunlichen Rechercheergebnissen aufwarten konnten?

Deutschland entwickelt leistungsstarke Software für NoSQL-Datenbanken

Peter Welchering: Insbesondere die Kollegen des "Guardian" hatten ja eine breite Unterstützung aus der Wissenschaft. Und die konnten ihre Recherchen letztlich nur mit Hilfe einer riesigen Graphdatenbank durchführen. Da haben nicht nur Computerwissenschaftler geholfen, sondern auch viele Geisteswissenschaftler, die vor allen Dingen im Bereich digitaler Geisteswissenschaften teilweise schon seit vielen Jahren mit Datenmodellen für Graphdatenbanken arbeiten, und vor allen Dingen mit Skripten für die Abfragesprache Cypher.

Auf solche Unterstützung aus der Akademia wird das BKA nicht zugreifen können. Aber das BKA kann Schnittstellen verwenden, die für NoSQL-Datenbanken und speziell für Graphdatenbanken inzwischen am Markt sind, um die Panama Papers dann auszuwerten, ohne allzu tief in Feinheiten etwa der Graphentechnologie einsteigen zu müssen. Seit einigen Jahren ist vor allen Dingen in Deutschland enorm leistungsfähige Software für NoSQL-Datenbanken und eben auch für Graphdatenbanken entwickelt worden, die leicht benutzbare Benutzerschnittstellen und vor allen Dingen eine ausgesprochen starke Datensicherung bietet. Deshalb gehen Datenbankexperten auch davon aus, dass sich der gesamte Bereich der NoSQL-Datenbanken ziemlich stürmisch entwickeln wird. Das ist eben erst durch passgenaue Anwendungssoftware von Drittanbietern möglich geworden. Und da dürfte sich nach einhelliger Einschätzung der Datenbankexperten ein unglaublich starker Trend am Datenbankmarkt abzeichnen.

Manfred Kloiber: Was da los ist am Datenbankmarkt, und wie sich Schnittstellen und Anwendungspakete für NoSQL-Datenbanken entwickelt haben und noch weiter entwickeln werden, darüber haben wir mit Dr. Thorsten Liebig von der Derivo GmbH in Ulm gesprochen. Er hat schon sehr früh, nämlich seit 2010, auf NoSQL- und Graphdatenbanken gesetzt.

Abbildung von "Realweltzusammenhängen"

Thorsten Liebig: Also, ich glaube, dass NoSQL-Datenbanken im allgemeinen und Graphdatenbanken im Speziellen den Markt peu à peu weiter beherrschen werden, ihre Marktanteile ausbauen werden, weil sie einfach ein sehr natürliches Mittel sind, um Realweltzusammenhänge abzubilden. SQL-Datenbanken haben nach wie vor ihre Berechtigung, aber für viele Probleme, sei es in der Medizin, sei es in anderen Bereichen, wie zum Beispiel Straßennetzen, Stromnetzen, da steckt ja der Begriff Netz schon mit in den Daten drin, und dafür sind Graphdatenbanken sehr gut geeignet.

Sprecherin: Um komplexe Strukturen, wie etwa bei den Panama Papers genau zu ermitteln und zu dokumentieren, eignen sich vor allen Dingen Graphdatenbanken besonders gut. Denn sie stellen ein regelrechtes Netzwerk von Personen, Orten oder Ereignissen dar und bilden es als Grafik ab. Ein paar Klicks als Abfrage an die Graphdatenbank genügen, um etwa herauszubekommen, wer wann welches Schwarzgeld wohin transferiert hat. Aber nicht nur für solche Recherchen eignen sich Graphdatenbanken besonders gut.

Daten können direkt eingelesen werden

Thorsten Liebig: Es gibt sehr viele medizinische Graphdatenbestände, in der Genomik, in der Anatomie, in der Pharmazie, wo abgebildet ist, welche Wirkstoffe denn mit welchen Nebenwirkungen beispielsweise zusammenhängen usw. Da gibt es sehr viele Daten, die sich direkt einladen lassen. Dieser Weg ist sehr kurz.

Sprecherin: Damit der Weg sehr kurz ist und der Anwender sich nicht erst in die für manchen unwegsamen Tiefen einer Datenbankabfragesprache wie Cypher einarbeiten muss, sind leistungsfähige Benutzeroberflächen entwickelt worden.

Thorsten Liebig: Benutzer möchten an den Daten direkt sehen, welche Verknüpfungen beispielsweise zu anderen Objekten bestehen, und diese dann ganz gezielt auswählen.

"Benutzer soll eigene benutzerdefinierte Kategorien und Filter produzieren könmnen"

Sprecherin: Das funktioniert nur, wenn das Datenmodell ausreichend leistungsstark ist, um überhaupt nicht vorhersehbare Verknüpfungen und Zusammenhänge suchen und aufzeigen zu können. Solch ein Datenmodell muss sich entwickeln. Wichtig für diesen Prozess sind die Datenbankentwickler und ihre Anwender. Denn hier wird eine Kooperation der ganz besonderen Art vorausgesetzt.

Thorsten Liebig: "Das ist das Ziel unseres Ansatzes, dass die Datenbankentwickler so eine Vorklassifizierung der Objekte vornehmen und der Benutzer während seiner Recherche eigene benutzerdefinierte Kategorien und Filter produzieren und wieder verwenden kann."

Sprecherin: So sind für NoSQL-Datenbanken und in besonderer Weise für Graphdatenbanken leistungsfähige Anwenderpakete entstanden, die mit ausgesprochen flexiblen Datenmodellen arbeiten. Insbesondere die Entwicklergemeinde rund um die Graphdatenbank Neo4j hat erkannt, dass diese Anwenderpakete auf gemeinsamen Standards basieren müssen. Und so werden jetzt auch Auswertungen bei den Panama Papers möglich, die noch vor wenigen Jahren einen enormen Entwicklungsaufwand vorausgesetzt und jede Ermittlungsbehörde vollkommen überfordert hätten. Gleichzeitig bleiben viele Entwickler, vor allen Dingen aus dem Bereich der Graphdatenbanken, ausgesprochen skeptisch. Denn sie haben nach der Fertigstellung eines Anwenderpakets keinen Einfluss mehr auf die ganz konkreten Einsatzbereiche. Deshalb läuft in der Entwicklergemeinde auch gerade eine sehr spannende Diskussion über die Grenzen für den Einsatz solcher starken Graphdatenbanken, ihrer Schnittstellen und ihrer Benutzeroberflächen.