Freitag, 19. April 2024

Archiv

Datenschutz in der Wissenschaft
Forscher im Dilemma

Daten, die in Universitäten gewonnen werden, sollten frei zugänglich sein. Doch wenn es um personenbezogene Informationen geht, spielt auch Datenschutz immer eine Rolle. Probandendaten können nicht in jedem Fall einfach weitergegeben werden. Das stellt Forscher vor eine fundamentale Frage: Anonymität oder offene Wissenschaft? Ein Beispielfall aus Harvard.

Von Thomas Reintjes | 30.06.2015
    Die renommierte Universität Harvard in Cambridge (Massachusetts)
    Die Harvard-Universität: Den Studierenden wird die Möglichkeit geboten, Vorlesungen online zu verfolgen. Für diesen Service müssen sich sich allerdings anmelden und verschiedenste Informationen über sich preisgeben. (picture alliance / dpa)
    Harvard, das ist die altehrwürdige Elite-Universität in Cambridge, Massachusetts, mit ihrem idyllischen Campus. HarvardX - hinten mit einem großen X - ist die Online-Version von Harvard. Frei zugänglich werden auf der Plattform edX.org Vorlesungen von Harvard-Professoren ins Netz gestellt – als sogenannte Massive Open Online Courses, kurz MOOCs, mit teilweise Zehntausenden Teilnehmern.
    Insgesamt mehr als eine Million Menschen weltweit haben schon an den Kursen teilgenommen. Bei HarvardX wissen sie über die Online-Studenten viel genauer Bescheid als über die Studenten auf dem Campus. Justin Reich wertet die Daten aus.
    "Wenn sich die Studenten anmelden, bitten wir sie, einige Fragen zu beantworten - über ihre Ziele, Motivation, ihr Vorwissen - diese Art von Informationen. Und dann protokolliert die Plattform fast alle Schritte, die sie dort machen: Wenn sie einen Kommentar hinterlassen, ihre Hausaufgaben abgeben, um Hilfe bitten, wenn sie ein Video ansehen oder wenn sie ein Video auf doppelte Geschwindigkeit stellen. Wir versuchen dann zu analysieren, wie die Menschen die Lernangebote nutzen."
    "Wir wollen, dass ein Teil der Daten offen verfügbar ist"

    Ziel dieser Datensammlung ist, die Kurse zu verbessern. Und sie ist Teil des Forschungsauftrags von HarvardX. Wie kann man MOOCs pädagogisch und technisch so gestalten, dass sie zu möglichst großem Lernerfolg führen? Antworten findet Justin Reich in den erhobenen Daten. Und er möchte sie nicht für sich behalten, sondern im Sinne von Open Science publizieren. Open Science, offene Wissenschaft, hat zum Ziel, Forschung leichter zugänglich zu machen.
    "Wir glauben hier fest an die Stärken von Open Data und Open Science. Unsere offene Lernplattform ist in vielerlei Hinsicht offen. Sie ist nicht nur offen zugänglich, sie läuft auch auf einer Open-Source-Software. Wir wollen offene Lizenzen verwenden. Und wir wollen, dass ein Teil der Daten offen verfügbar ist, sodass andere Wissenschaftler unsere Arbeit überprüfen können oder neue Erkenntnisse aus unseren Daten gewinnen können."
    Doch ohne Weiteres kann Justin Reich die Daten nicht herausgeben. Er muss sie anonymisieren. Auch bei seinen aus den Daten gewonnenen Ergebnissen muss er sich Gedanken darüber machen, ob darin einzelne Studenten identifiziert werden könnten. Wenn beispielsweise aus dem kleinen Litauen nur wenige Studenten an einem Kurs teilgenommen haben, dann lassen sie sich für Dritte leicht identifizieren. In diesem Fall würde Justin Reich dann die Daten verwischen und die Kursteilnehmer dem Baltikum oder Osteuropa zuordnen statt einzelnen Ländern. Oder er löscht besonders einzigartige Nutzer einfach aus den Daten. Keine gute Lösung, denn wenn er anderen Wissenschaftlern den so gefilterten Datensatz für ihre eigenen Analysen überlässt, bekommen sie unter Umständen verfälschte Ergebnisse.
    Das Problem betrifft nicht nur Datensätze von Studenten, sondern alle möglichen Formen von soziologischen Studien. Und es wird immer größer: Weil Menschen immer mehr Informationen über sich öffentlich preisgeben, können sie in anonymisierten Datensätzen leichter de-anonymisiert werden. Justin Reich liebäugelt deshalb mit einem anderen Ansatz, bei dem er Herr über die Daten bleibt, genannt Differential Privacy.
    Mögliches Mittel gegen Missbrauch: Datensätze mit digitalen Wasserzeichen
    "Das könnte zum Beispiel so aussehen, dass wir nicht Daten, sondern Datenstrukturen mit anderen Wissenschaftlern teilen. Anstatt dass wir hier in Harvard sagen 'Hey MIT, schickt uns mal eure Daten', könnten wir sagen 'Hey MIT, ich schicke euch dieses Statistik-Programm, lasst das mal über eure Daten laufen und schickt mir die Ergebnisse zurück.'
    Eine weitere Möglichkeit wäre, Datensätze mit digitalen Wasserzeichen zu versehen, um gegebenenfalls Missbrauch nachvollziehen zu können. Ausgereift ist all das aber noch nicht. Und es wäre nur ein Teil der Lösung. Justin Reich wünscht sich auch, dass generell auf den Prüfstand gestellt wird, ob die Regeln, die für den Umgang mit Patientendaten im Analogzeitalter gemacht wurden, auch für den Umgang mit Studentendaten im Digitalzeitalter gelten sollten; und welche Abwägung zwischen Open Science und Gewährleistung von Anonymität die Gesellschaft eigentlich will.