Donnerstag, 25. April 2024

Archiv


Verräter-Phone im Einsatz

Ein paar clevere Statistik-Tools und schon lassen sich aus großen Datensammlungen allerhand Erkenntnisse gewinnen – so könnte man das Prinzip Big Data zusammenfassen. Die Anonymität von realen Personen hinter diesen Daten kann dabei aber nur schwer gewahrt werden. Das haben jetzt Forscher anhand der Datenbank eines Mobilfunkanbieters demonstriert.

Von Thomas Reintjes | 06.04.2013
    Maximal eine Ortsangabe pro Stunde, nicht genauer als die Größe einer Funkzelle. Solche Daten haben Wissenschaftler des Massachusetts Institute of Technology von einem Mobilfunkanbieter bekommen. Immer wenn Kunden telefoniert oder das Handynetz anderweitig genutzt haben, hat der Anbieter das registriert und die Position des nächstgelegenen Funkmasts dazu abgespeichert. Das Ergebnis sind Bewegungsprofile - viele Bewegungsprofile: Die Forscher werteten die Daten von 1,5 Millionen Kunden eines Anbieters aus, gesammelt über 15 Monate hinweg in einem kleinen europäischen Land. Die Daten enthielten weder Namen noch Telefonnummern, sondern lediglich Pseudonyme. Der Mathematiker Yves-Alexandre de Montjoye stellte jedoch schnell fest, dass sich die Bewegungsprofile stark unterschieden.

    "Dann wollten wir wissen, wie viele Punkte wir brauchen, um jemand in der Datensammlung zu identifizieren. Und das Ergebnis ist bemerkenswert: Man braucht vier Punkte. Vier zufällig gewählte Ort-Zeit-Kombinationen sind genug, um 95 Prozent der Menschen zu identifizieren."

    Wer also lediglich vier Zeitpunkte und Orte kennt, an denen eine Person ihr Handy benutzt hat, kann das komplette Bewegungsprofil der Person aus der riesigen Datenbank herausfiltern – und damit die Anonymität der Daten aufheben. Diese vier Zeitpunkte sind schnell gefunden: Tweets mit Ortsmarken oder Fotos mit Geotags könnten dabei helfen. Yves-Alexandre de Montjoye und seine Kollegen haben auch untersucht, was passiert, wenn sie die Auflösung der Daten künstlich verschlechtern. Wenn sie also versuchen, die Anonymität besser zu gewährleisten, indem sie mehrere Funkzellen zu einer zusammenfassen und die Zeitabstände zwischen den Ortsangaben vergrößern. Doch selbst als sie 15 Funkzellen zu einer zusammenfassten und das Zeitraster auf eine Genauigkeit von 15 Stunden einstellten, konnten sie immer noch die Hälfte der Personen identifizieren.

    Für Seth Schoen, Datenschützer von der Electronic Frontier Foundation, beweist die Studie einmal mehr:

    "Es ist sehr schwierig, die Identität einer Person zu verschleiern. Es ist schwierig anonym zu sein. Scheinbar bedeutungslose Handlungen folgen einem Muster. Die Menschen unterscheiden sich stark voneinander. Die Entwicklung zeigt immer wieder: Auch wenn auf etwas nicht dein Name steht, kann man dich anhand dessen identifizieren."

    Das stellt die Wissenschaftler vor ein Problem: Denn auch sie wollen eigentlich anhand vermeintlich anonymisierter Datensammlungen Erkenntnisse gewinnen, etwa über die Ausbreitung von Krankheiten, Migrationssbewegungen oder Staubildung auf Autobahnen.

    "Wir glauben fest daran, dass der Einzelne, Firmen und Wissenschaftler viel Nutzen aus diesen Daten ziehen können. Unsere Arbeit zeigt, dass es möglich sein könnte, die Daten zu identifizieren. Wir denken, das ist wichtig für die Debatte. Um die Frage zu klären, wie wir die Nutzung dieser Daten für alle fair gestalten können."

    Mediziner seien in der Vergangenheit bereits vorsichtiger geworden, anonymisierte Patientendaten an Forscher weiterzugeben, sagt der Datenschützer Seth Schoen. Er fordert, dass Unternehmen – ob Kliniken, Banken oder Mobilfunkanbieter – ihre Kunden in Zukunft fragen, ob deren Daten anonymisiert weitergegeben werden dürfen. Seine eigentliche Forderung geht aber noch weiter:

    "Ich wünsche mir, dass Unternehmen keine Daten sammeln, die sie nicht für ihr Geschäft brauchen."

    Dass anhand der Daten wichtige Erkenntnisse gewonnen werden könnten, lässt er nicht gelten. Big Data mag also vielversprechend erscheinen, einmal mehr wird aber klar: Die Datensammlungen haben ihren Preis – den schwieriger werdenden Schutz der Privatsphäre des Einzelnen.

    Zum Themenportal "Risiko Internet"