Algorithmen im Alltag (3/12) - Der Gesichtserkenner

2520219705_Folge 3 - Der Gesichtserkenner.jpg — Der Algorithmus zur Gesichtserkennung kann nicht einfach so Gesichter mit der Datenbank vergleichen, wie ein Mensch es mit Fahndungsfotos tun würde. Er muss sie in etwas übersetzen, mit dem er rechnen kann. (Hans-Jörg Brehm / epict.de)

Das Champions-League-Finale 2017 fand am 3. Juni im walisischen Cardiff statt und endete mit einem Sieg von Real Madrid über Juventus Turin. Weil die Polizei Angst vor Ausschreitungen gewaltbereiter Fans hatte, fahndete sie am Tag des Finales mit Videokameras nach bekannten Hooligans. Die automatische Gesichtserkennung, die dabei zum Einsatz kam, war aber nicht sonderlich genau. Die Fehlalarmquote lag bei sage 92 Prozent. Diese Quote löste damals eine Debatte über diese Art der Fotofahndung aus – und über die Praxisreife der Algorithmen dahinter.

Florian Kirchbuchner: "Es wird oft kritisiert, dass hier mal so eine Verdächtigung ist. Aber der Computer sagt dann nicht, dass es ein Straftäter ist. Er gibt nur einen Schwellwert aus, und dass es mit 80 Prozent Wahrscheinlichkeit oder mit 50 Prozent Wahrscheinlichkeit eine Person ist."

Florian Kirchbuchner vom Fraunhofer-Institut für Grafische Datenverarbeitung sieht die häufigen Fehlalarme bei der Fotofahndung 2017 in Cardiff nicht so eng. Es sei eben eine Frage der Perspektive, sagt er: Der Algorithmus zur Gesichtserkennung, der damals zum Einsatz kam, sei per se erstmal neutral und verdächtige niemanden. Aber was tut er dann?

Mehr als der Abgleich von Gesichtern mit Datenbank-Inhalten

Florian Kirchbuchner: "Der Input ist zum einen das Bild der Person, die ich suche. Und ich habe dann in der Datenbank gespeichert noch eine Bildersammlung, in der ich versuche, die Person zu finden."

Der Algorithmus kann aber nicht einfach so Gesichter mit der Datenbank vergleichen, wie ein Mensch es mit Fahndungsfotos tun würde. Er muss sie in etwas übersetzen, mit dem er rechnen kann. In diesem Fall ist das ein Vektor – also eine Zahlenkolonne, die aus verschiedenen Werten besteht.

Florian Kirchbuchner: "Der klassische Ansatz ist, dass man ein Gesicht vermisst: Man hat die Abstände zwischen Augen, zwischen Mund-Partien, die Form des Gesichts und die Kinn-Linie. Über 20 Punkte werden hier festgelegt und die Abstände dieser Punkte werden dann in diesem Vektor beschrieben."

Eine weitere Methode geht davon aus, dass jedes Gesicht als Kombination verschiedener Standard-Gesichter beschrieben werden kann. Die Gewichtung dieser Schablonen führt ebenfalls zu einem Vektor, der ein bestimmtes Gesicht präzise beschreibt. Soll der Algorithmus jetzt überprüfen, ob ein Gesicht, das gerade einer Kamera vor die Linse kam, in einer Datenbank gespeichert ist – etwa einer Fahndungsliste – schaut er, welcher Vektor aus der Datenbank am besten dazu passt.

Der Krux an der Gesichtserkennung

Florian Kirchbuchner: "Am Ende kommt dabei heraus: Ein Score-Wert oder eine Trefferliste. Meistens werden hier bis zu zehn Personen ausgegeben und mit einer Wahrscheinlichkeit: Wie wahrscheinlich ist die Person vorhanden?"

Das ist die Krux solcher Algorithmen: Sie sind sich nie hundertprozentig sicher, sondern geben nur eine Wahrscheinlichkeit heraus. Je nachdem, ab welcher Wahrscheinlichkeit sie Alarm schlagen, gibt es dann mehr oder weniger Fehlalarme. Bei dem Champions-League-Finale in Cardiff, so teilte es die Polizei seinerzeit mit, wurden tatsächlich 173 Verdächtige erkannt. Die Algorithmen zur Gesichtserkennung gaben aber auch 2297 Mal falschen Alarm. In all diesen Fällen habe die Polizei die Videoaufnahmen oder die betreffende Person persönlich überprüft, hieß es. Niemand sei fälschlicherweise festgenommen worden. Besonders effizient klingt das aber nicht.

Performance

Florian Kirchbuchner: "Die Fehlerquoten bei klassischen Systemen sind im Promillebereich. Wenn ich eine frontale Gesichtsaufnahme habe, funktioniert der Computer mittlerweile besser als der Mensch."

Das ist etwa bei automatischen Passkontrollen so, wo das Gesicht eines Reisenden mit dem biometrischen Foto auf seinem Pass verglichen wird. Beim Abgleich mit großen Bilddatenbanken, etwa von Fahndungslisten, kommen die besten Algorithmen heute auf Trefferquoten von über 70 Prozent. Und das, obwohl sie es teils mit schlechten Fotos zu tun haben, weil die Gesichter mal von der Seite aufgenommen sind, mal schlecht belichtet.

Um dennoch halbwegs treffsicher zu sein, nutzen Gesichtserkennungssysteme maschinelles Lernen. Das heißt, sie lernen beispielsweise mit zigtausenden Trainingsbildern, wie man die Gesichter verschiedener Personen, die sich relativ ähnlich sehen, unterscheidet. Dabei kommen am Ende auch wieder Vektoren raus. Sie beschreiben die Gesichter anhand von über tausend charakteristischen Merkmalen. Welche das sind, weiß selbst der Programmierer nicht mehr. Denn die aussagekräftigen Werte legt der Algorithmus selbst fest. Doch die Automatisierung durch maschinelles Lernen birgt auch Gefahren.

Wo das System an seine Grenzen stößt

Florian Kirchbuchner: "Es gibt Schwächen. Die Algorithmen sind diskriminierend. Die meisten Algorithmen funktionieren bei weißen männlichen Personen am besten, bei schwarzen weiblichen Personen am schlechtesten. Das liegt eigentlich daran, wo diese Algorithmen entwickelt werden und welche Trainingsdaten ich dazu auch habe."

Das ist eine Schwäche, die sich durch bessere, diversere Trainingsdaten aus der Welt schaffen ließe. Generell hat die Gesichtserkennung aber ein anderes Problem, eines, das bei vielen Algorithmen auftaucht: Es kommt drauf an, wofür man sie nutzt. Die Technik kann den Zugriff auf das eigene Handy vereinfachen, Fotosammlungen sortieren, Schlangen an Passkontrollen verhindern. Das ist hilfreich.

Bei Polizeieinsätzen wie in Cardiff muss aber abgewogen werden. Überwiegen die Vorteile? Oder sind die zusätzlichen Kontrollen, die aufgrund von Fehlalarmen nötig werden, schon übergriffig? Und ist der nächste logische Schritt nicht ein kompletter Verlust der Anonymität im öffentlichen Raum? Und der Verlust der Unschuldsvermutung, weil das System letztlich jeden behandelt, als wäre er verdächtig?

Wohin die Reise gehen könnte, zeigt ein Beispiel aus Shenzhen in China: Dort filmt ein System Menschen, die bei Rot über die Straße gehen. Das Video wird dann auf großen Bildschirmen abgespielt - eine Art Pranger des 21. Jahrhunderts. Laut Medienberichten arbeitet ein Unternehmen gerade daran, die Gesichter auf den Videos zu erkennen, um direkt persönliche Bußgelder zu verhängen.