Spurensuche im Datendschungel

Ralf Krauter: Die schöne heile Welt der Steueroasen ist seit heute Geschichte. In einer konzertierten Aktion haben Leitmedien weltweit Artikel publiziert, die offenlegen, mit welchen ausgebufften Tricks Superreiche ihr Vermögen vor dem Fiskus verbergen. Die Geheimen Geschäfte der Oligarchen und Milliardäre wurden publik, weil ein anonymer Tippgeber einem Netzwerk investigativer Journalisten massenhaft Daten zugespielt hat. Die wurden dann im monatelanger Recherchearbeit verifiziert und ausgewertet, bevor "Süddeutsche Zeitung", "Washington Post", "Guardian" und andere die Bombe heute platzen ließen. Über die technischen Tricks, mit denen die Journalisten den Datendschungel durchforsteten, wollen wir jetzt mit dem IT-Experten Peter Welchering sprechen, der uns aus Stuttgart zugeschaltet ist. Herr Welchering, am Anfang dieser Affäre stand keine Steuer-CD, sondern eine ganze Festplatte mit 260 Gigabyte Daten, 2,5 Millionen Dokumenten drauf. Wie sind die Rechercheure vorgegangen, um in der Datenflut nicht zu ertrinken?

Peter Welchering: Zunächst mal haben sie der Datenflut noch nachgeholfen. Sie mussten nämlich alle Daten finden, auch Daten, die etwa in Bildern versteckt sind. Und Daten, die dann verschlüsselt sind, mussten entschlüsselt werden. Und eventuell gelöschte Daten mussten wiederhergestellt werden. Und dann geht’s von der Forensik an die eigentliche Analyse. Das heißt, dann wird tatsächlich indexiert, also jedes Dokument wird erfasst - und zwar sowohl der Inhalt als auch die Metadaten. Wer hat wann dieses Dokument erstellt? Mit welchem Programm? Wer hat damit gearbeitet? Und das schreibt man dann in eine große Datenbank, "Suchbaum" genannt. Dieser Suchbaum oder diese Datenbank gibt Auskunft darüber: Wo steckt denn jedes Dokument in dieser Datenbank und welche Beziehung von diesem Dokument verweist auf andere Dokumente? Und dann kann man in die inhaltlichen Suchanfragen gehen.

Krauter: Wie kann man sich so einen Suchbaum vorstellen? Kann man das mal plastisch machen?

Welchering: Beispielsweise geht’s dann darum: Wer hat wem was geschickt? Da werden dann solche Beziehungen aufgelistet und es werden Namen verschlagwortet, etwa von Fantasiefirmen oder Namen von wirklichen Personen, die daran beteiligt sind. Und all diese Namen stehen dann eben in einer Datenbank. Und damit ich diese Namen sehr schnell wiederfinden kann, mit allen Beziehungen, die diese Namen auf andere Dokumente, auf andere Namen, auf Tarnfirmen, auf bestimmte Kontostände haben, wird eben in der Datenbank angegeben, auf welche anderen Datenfelder, auf welche anderen sozusagen Beziehungsdatensätze hier verwiesen wird. Das ist im Prinzip eine ganz alte Datenbanktechnologie, damit einfach diese Anfragen nicht Stunden zur Beantwortung dauern, sondern in Sekunden oder Minuten erledigt werden können.

Krauter: Und wenn man diese Datenbank dann mal hat mit diesen Suchbäumen: Wie genau sucht man darin dann nach den verräterischen Strukturen, auf die es ja ankommt?

Welchering: Indem man beispielsweise einfach nur einen Namen eingibt, oder indem man sagt: Stell mir doch mal alles, was hier an Beziehungen zwischen dem Dokument, das ich gerade habe, dargestellt ist, grafisch dar. Nehmen wir mal an, es gibt eine Mail mit einem Vertrag über die Gründung einer Tarnfirma. Dann stehen ja in diesem Vertrag vermutlich die Namen der Gründer. Unter Umständen gibt es auch Bilddateien mit den Pässen dieser Namen der Gründer, die dann gesucht werden müssen. Und es gibt logische Abfolgen und einen zeitlichen Bezug. Und diese logischen Abfolgen und diese zeitlichen Bezüge – wer hat also wann diesen Vertrag geschickt, wer hat ihn gegengezeichnet, wer hat dafür gebürgt, dass tatsächlich der betreffende Mensch, der da in diesem Vertrag genannt ist, auch mit dem Dokument übereinstimmt? – das kann ich dann alles nachvollziehen und aus dieser Datenbank herauslesen und so auch in eine Abfolge setzen und damit quasi auch eine Handlung rekonstruieren.

Krauter: Im Blog der "Süddeutschen Zeitung" war heute Mittag zu lesen, Programmierer hätten zu Recherchezwecken sogar eigens die Software solcher Offshore-Finanzdienstleister nachgebaut. Wie macht man sowas und wozu macht man das überhaupt?

Welchering: Aus den Metadaten der Dokumente, in denen Beispielsweise steht, mit welchem Programm ist denn dieses bearbeitet worden, weiß der Rechercheur ja, welche Software benutz wurde. Und das konnte dann schon Aufschluss darüber geben, mit welcher Software die denn gearbeitet haben, welche Systeme die eingesetzt haben. Den Ermittlern reicht das meistens nicht. Die beschlagnahmen deshalb auch noch Arbeitsspeicher, Logdaten des Betriebssystems, um dann wirklich rauszukriegen: Wer hat denn wann mit welchen Programmen welche Daten, welche Dokumente bearbeitet, an wen weitergereicht? Und das macht man im Wesentlichen, um diese Indexierung abzusichern, aber auch, um zusätzliches Beweismaterial zu kriegen, um einzelne Verdächtige dann etwa überführen zu können und um genauere Kenntnisse darüber zu bekommen, wie eigentlich diese Offshore-Firmen funktionieren.

Krauter: Insgesamt 122.000 Briefkastenfirmen sind in diesen Dokumenten verzeichnet. Und die Daten von 130 Menschen, die irgendwie mit diesen Firmen zu tun hatten. Das heißt ja im Klartext wahrscheinlich: Die Auswertung dieses Datenschatzes wird Monate oder vielleicht Jahre dauern.

Welchering: Nein, eigentlich sollten Wochen reichen. Denn die wesentliche Arbeit – das Indexieren, das Aufzeichnen von Beziehungen zwischen Dokumenten, ist ja abgeschlossen. Und wenn sich jetzt die Ermittlungsbehörden einschalten und konkrete Anfragen haben, dann reichen eigentlich wenige Tage aus, um diese Beziehung deutlich zu machen, das heißt, um einzelne Beschuldigte herauszufiltern und deren Beweise für die Ermittlungsbehörden dann auch wirklich zur Verfügung stellen zu können und denen zu übersenden.

Bundesregierung

Aktuelle Berichte und Hintergründe

USA

Aktuelle Beiträge, Analysen und Hintergründe

Krieg in der Ukraine

Aktuelle Lage und Hintergründe

Nahostkonflikt

Aktuelle Lage und Hintergründe

Coronavirus

Aktuelle Berichte und Hintergründe

China

Aktuelle Berichte und Hintergründe

Iran

Aktuelle Lage und Hintergründe

Israel

Hintergründe und Aktuelles

Europäische Union (EU)

Aktuelle Berichte und Hintergründe

Aktuelle Themen

Spurensuche im Datendschungel

Programm

Hören

Kontakt

Service

Über uns