Das menschliche Genom besteht aus mehr als drei Milliarden Basenpaaren. Um eine Person genetisch zu identifizieren, müssen Wissenschaftler nicht die ganze Erbgutsequenz kennen. Für die Analyse reichen einige markante Stellen im Genom. Aber die bisherigen Methoden sind teuer und zeitaufwändig, so Yaniv Erlich von der Columbia Universität in New York.
"Wir wollten ein Weg finden, wie man schnell menschliche Spuren mithilfe einer DNA-Analyse identifizieren kann. In der Rechtsmedizin gibt es viele Beispiele, wo wir binnen kurzer Zeit Proben identifizieren müssen.
Konzentration auf bestimmte Varianten im Erbgut
Der Datenwissenschaftler wollte eine Methode entwickeln, mit der Rechtsmediziner etwa bei einer Katastrophe schnell hunderte Proben vor Ort analysieren können. Das Gerät sollte zudem transportabel und billig sein. Als Sequenziertechnik entschied er sich für Oxford Nanopore Minion. Dieses USB-stickgroße Gerät untersucht die DNA, ist aber fehleranfällig.
Daher müssen bei Erbgutanalysen die DNA-Stränge mehrfach abgelesen werden. Diesen Schritt spart sich Yaniv Erlich. Er hat eine Software entwickelt, die sich nur auf bestimmte Varianten im Erbgut konzentriert, so genannte SNPs. Diese ergeben in ihrer Kombination in der Regel bei jedem Menschen ein individuelles Muster. 200 davon reichen aus. Durch die große Anzahl dieser SNPs können Fehler beim Ablesen toleriert werden und dennoch zu einem sicheren Ergebnis führen.
"Sobald die DNA im Sequenzer ist, brauchen wir bis zur Identifizierung höchstens drei Minuten– superschnell also. Das Equipment kann man preiswert überall kaufen."
Algorithmus findet die individuellen Muster
Um die Software zu testen, hat Yaniv Erlich die Daten von 10.000 Personen aus einer Datenbank genommen. Der Algorithmus sollte in den Datensätzen die individuellen Muster finden, die er für eine Identifizierung benötigte - und es habe durchweg geklappt.
"Am Anfang der Sequenzierung sieht man nichts, da ist alles durcheinander, aber je mehr DNA sequenziert ist, desto mehr passiert, das Signal wird deutlicher und dann kann man die Person identifizieren, auch wenn es 30.000 Datensätze sind. Mathematisch haben wir gezeigt, dass das auch bei Datenbanken mit mehreren Millionen Individuen funktioniert."
Von der Probenentnahme, über die Aufbereitung der DNA bis zur Analyse dauert es keine Stunde. Denkbar sei die Anwendung auch bei der Authentifizierung von Zelllinien in der Medizin. Dort besteht ebenfalls Bedarf für eine schnelle, sichere und billige Identifizierungsmethode. Schwerpunkt dürfte die Rechtsmedizin bleiben. Für eine massentaugliche Anwendung werden aber Datenbanken benötigt, in der die Muster möglichst vieler Personen gespeichert sind. Und hier wird es schwierig, räumt Yaniv Erlich ein.
Datenschützer sind alarmiert
"Die große Frage ist, ob rechtsmedizinische Labore und Strafverfolgungsbehörden solche Datenbanken aufbauen wollen. Geld ist kein Problem, das alles kostet ja nicht viel. Aber die Datenbanken sind notwendig und die Daten müssten standardisiert bei der Probenentnahme erhoben werden."
Der Aufbau solcher genetischen Datenbanken ruft Datenschützer auf den Plan. Auch wenn die Muster keine Aussagen über äußerlich sichtbare Merkmale oder Krankheitsrisiken einer Person ermöglichen, muss vorab dennoch juristisch geklärt werden, wie die Daten gespeichert und geschützt werden und wer Zugang dazu erhält.