Dienstag, 19. März 2024

Archiv

DataRefuge.org
Ein Zufluchtsort für Daten

Seit Donald Trumps Amtsantritt ist das Thema Klimawandel von der Website des Weißen Hauses verschwunden. Forscher befürchten, dass Regierungen auch andere unliebsame Daten aus dem Netz nehmen könnten. Eine Gruppe von Wissenschaftlern hat daher DataRefuge.org gegründet. Dort werden wichtige Dokumente und Studien archiviert.

Von Thomas Reintjes | 23.01.2017
    Lackierte Frauenhände tippen auf einerLaptoptastatur
    US-Forscher arbeiten mit Hochdruck daran, wichtige Daten zu kopieren und zu archivieren. (imago / cp24)
    "Ich heiße Bethany Wiggin und bin Professorin an der University of Pennsylvania in Philadelphia."
    Bethany Wiggin unterrichtet nicht nur Deutsch, sondern leitet auch ein interdisziplinäres Programm, in dem es um Mensch und Umwelt geht, auf Englisch: Environmental Humanities. Die Wissenschaftler, die dort arbeiten erinnern sich kurz nach der Wahl Donald Trumps 16 Jahre zurück. Als George Bush das Weiße Haus von Bill Clinton übernahm. Damals seien viele Daten von Behörden plötzlich nicht mehr zugänglich gewesen.
    "Und wir überlegen uns, wenn das schon unter Bush II der Fall gewesen war, wie es dann unter Trump wohl wäre."
    Trump-Regierung könnte auch andere Daten löschen
    Ihnen wird bewusst, dass eine Regierung, die den Klimawandel leugnet, auch entsprechende Daten verschwinden lassen könnte. Mitte Dezember entscheiden sie sich, etwas dagegen zu tun. Die Wissenschaftler in Philadelphia gründen DataRefuge.org - ein Zufluchtsort für Daten. Sie arbeiten zusammen mit Forschern in Toronto und Experten vom Internet Archive in Kalifornien. Auch für die eigene Universitätsbibliothek ist eine Kooperation selbstverständlich.
    "Dafür sind Bibliotheken da. Um Daten, um Tatsachen, um Informationen zu beschützen."
    Die Liste der gefährdeten Informationen und Websites wächst schnell. Die Umweltbehörde EPA könnte unter der neuen Regierung ebenso wertvolle Daten offline nehmen wie die NOAA, die Wetterbehörde. Seiten des Energieministeriums und des Landwirtschaftsministeriums könnten betroffen sein, und auch Seiten der NASA. Es kann um Datenbanken gehen oder so etwas wie Unterrichtsmaterialien für Lehrer.
    Inhalte werden kopiert und wieder ins Netz gestellt
    Die Datenretter identifizieren gefährdete Seiten und geben deren genaue Adressen an das Internetarchiv weiter. Dort wird dann eine Kopie der Inhalte abgespeichert und wieder ins Netz gestellt. Doch leider ist es nicht immer so einfach.
    "Es ist einfach auch Tatsache, dass es andere Dateien vor allem für die Klimaforscher, dass sie nicht leicht ins Internetarchiv kommen können."
    Der Umfang der Daten ist ein Faktor. Das noch größere Problem ist, dass sich Datenbanken nicht so leicht duplizieren lassen wie einfache Websites oder PDF-Dokumente. Die Wissenschaftler müssen Programme einsetzen, um die Daten auslesen und abspeichern zu können. Oft müssen sie diese Programme individuell auf die jeweilige Datenquelle zuschneiden. Das wird zusätzlich dadurch erschwert, dass bestimmte Verfahren eingehalten werden müssen, damit die Daten nicht ihren Wert verlieren.
    "Sie müssen durch bestimmte Protokolle runtergeladen und dann wieder hochgeladen werden, da wir unbedingt die wissenschaftliche Qualität von diesen Daten sichern wollen."
    Nicht nur die Daten, sondern auch die Metadaten müssen systematisch erfasst werden. Wo kommen die Daten her, wer hat sie wie heruntergeladen - das seien wichtige Informationen, damit Forscher den Daten vertrauen können. Weil das alles sehr aufwendig ist, beginnen Bethany Wiggin und ihre Mitstreiter, Veranstaltungen zu organisieren. So lässt sich besser koordiniert arbeiten.
    "So genannte Data Rescue Events, also wirklich ein Tag oder für uns in Philadelphia war das ein ganzes Wochenende, dass wir Leute zusammenbringen um dann diese ziemlich schwierig runterzuladenden Datenbanken zu speichern."
    Liste der zu rettenden Daten wächst stetig
    Am Wochenende vor Trumps Amtseinführung kommen in Philadelphia rund 200 Studenten, Professoren und Externe - etwa IT-Spezialisten und Hacker - zusammen, um die Daten zu sichern. Doch bei diesem und anderen Data Rescue Events konnte bisher nur ein Bruchteil der Daten kopiert werden. Etwa 6.500 Seiten und 2 Terabyte Daten seien schon zusammengekommen, aber die Liste der noch zu sichernden Internetadressen wächst schneller, als die Helfer sie abarbeiten können.
    "Unsere Liste ist noch lang. Das heißt, wir brauchen Hilfe und würden auch gerne noch weitere Hilfsangebote bekommen."
    Noch sind außer auf der Seite des Weißen Hauses wohl keine größeren Datensätze aus dem Netz genommen worden. Aber die Zeit läuft den Datenrettern davon.