Donnerstag, 25. April 2024

Archiv

Science 2.0
Wie Open Data die Wissenschaft verändert

"Science 2.0" ist der Titel einer Konferenz, die heute in Köln begonnen hat. Eine der Fragen ist, wie es gelingt, möglichst vielen Forschern Zugang zu den Daten ihrer Kollegen zu verschaffen. Die Antwort der EU-Komission heißt "European Open Science Cloud": Ein Netzwerk, das 1,7 Millionen Forschern erlauben soll, Daten auszuwerten, zu speichern und mit anderen zu teilen.

Anneke Meyer im Gespräch mit Ralf Krauter | 03.05.2016
    Duzende kleiderschrankgroße Module des "SuperMuUC" Hochleistungsrechners in einer kahlen Halle.
    Der Höchstleistungsrechner "SuperMuUC" der Universität München. (dpa / Tobias Hase)
    Ralf Krauter: Was steckt hinter dieser "Datenwolke für die Wissenschaft"?
    Anneke Meyer: Wissenschaft produziert heute mehr Daten als je zuvor. Das ist toll, weil das die Grundlage für mehr Wissen ist. Voraussetzung ist aber eben: Man muss die Daten nicht nur haben, sondern auch mit ihnen arbeiten können. Und dafür braucht es oft mehr Rechenleistung als ein normaler Computer hat. Die allermeisten Forschungsinstitute haben deshalb schon große Rechenzentren auf die die Wissenschaftler zugreifen können um dort ihre Daten zu speichern, sie zu analysieren und auch mit anderen Wissenschaftlern zu teilen. Die European Open Science Cloud will genau so eine Infrastruktur, übergreifend für alle Forscher, aller Disziplinen, die in und mit Europa arbeiten, zur Verfügung stellen.
    Krauter: Wenn so viele Forschungsinstitute schon so eine Infrastruktur haben, die sie ihren Wissenschaftlern zur Verfügung stellen können, warum braucht es dann noch eine europäische Datenwolke?
    Meyer: Dahinter stecken zwei Motive: Ein politisches und ein wissenschaftliches.
    Krauter: Sprechen wir zuerst über die politische Dimension.
    Meyer: Viele Wissenschaftler haben so eine Infrastruktur an ihrer Forschungseinrichtung, aber eben nicht alle. Die, die sich selber um den Verbleib ihrer Daten kümmern müssen, nutzen oft Angebote kommerziellen Dienstleister wie Amazon oder Google, die in Amerika sitzen. Europa hat bisher bei jeder großen IT-Entwicklung den Anschluss verpasst. Bevor das schon wieder passiert, wollen Politiker eine europäische Lösung auf den Weg bringen, die dann auch von europäischen Anbietern umgesetzt wird. Von der wissenschaftlichen Seite her ist das Interesse ein Anderes: Wenn jeder seine Suppe kocht, weiß niemand, was auf der Speisekarte steht. Und hier kommt das kleine Wort "Open" in European Open Science Cloud zum Tragen. Um ein Beispiel zu nennen: Alleine für Daten aus dem medizinischen Bereich gibt es derzeit rund zehn verschiedene Datenarchive, die man getrennt durchsuchen muss. Es wäre natürlich viel einfacher durch eine Plattform Zugriff auf alle zu haben.
    Krauter: Ist denn der Plan, das alles, was Forscher an Daten in dieser Science Cloud laden, offen zugänglich für alle anderen Forscher ist? Oder kann man da abgestufte Nutzungsrechte vergeben?
    Meyer: Der Begriff, den die Vordenker der Initiative da gerne benutzen ist "ausgewogen offen". Das heißt grundsätzlich wird alles geteilt, aber auf Antrag können Daten auch unsichtbar bleiben. Zum Beispiel, wenn sonst Privatsphäre gefährdet ist. Ansonsten ist der Gedanke aber, das Daten bevor sie ungenutzt in Archiven verstauben, lieber für neue Projekte zur Verfügung stehen sollen.
    Krauter: Mangelnder Austausch von Informationen führt ja heute oft auch noch dazu, dass derselbe Versuch mehrfach gemacht wird, weil der eine Forscher von den Experimenten des anderen nichts wusste. Ließe sich sowas künftig verhindern?
    Meyer: Das kann natürlich vorab nicht gesagt werden, aber das könnte tatsächlich passieren: Wenn alle Forscher ihre Daten selbstverständlich teilen, erhöht das natürlich die Transparenz. Man weiß besser, welche Daten es in einem Feld schon gibt. Unnötige Experimente werden verhindert und gleichzeitig kann die Reproduzierbarkeit verbessert werden. Wenn Daten auf diese Weise recycelt werden, bekämen Forscher Ansehen nicht nur für Publikationen, sondern auch für die Daten selber. Und das motiviert natürlich, weiter zu teilen. Wenn diese Rechnung aufgeht, könnte sich das Projekt zu einer eierlegenden Wollmilchsau entwickeln, die viele Probleme auf einmal löst.
    Krauter: Der erste Prototyp im kleinen Rahmen soll 2018 benutzbar sein und dann in drei Jahren "nur noch" auf die richtige Größe wachsen – das klingt sehr ambitioniert.
    Meyer: Ja, das tut es, aber man muss dabei bedenken, dass das Projekt nicht von Null startet. Viele datenintensive Forschungsprojekte haben einiges an Vorarbeit geleistet. Beim CERN, um nur ein Beispiel zu nennen, hat man in den letzten 15 Jahren Lösungen für so ziemlich jedes technische Problem entwickelt, das bei dieser Art von dezentraler Datenverwendung vorkommt. Was fehlt, ist eine technische Infrastruktur, die alle Ressourcen, die in Europa bereitstehen, miteinander vernetzt. Und vor allem ein Regelwerk, um private und öffentliche Dienstleister zusammen zu bringen, also politische und rechtliche Übereinkünfte. Es geht also ausnahmsweise nicht so sehr um Taten, sondern um Worte, um hier ans Ziel zu kommen.