Lorenz Matzat: "Scoring ist per se nicht schlecht. Die Frage ist: Wie sieht die gesellschaftliche Kontrolle darüber aus?"
Lorenz Matzat von Algorithm Watch spricht einen wichtigen Punkt bei Scoring-Algorithmen an. Algorithmen kennen erstmal keine Vorurteile, keine Sympathien und unterliegen keiner Tagesform. Sie könnten Menschen also im Prinzip objektiv beurteilen – und werden bereits vielerorts eingesetzt.
Im Online-Handel entscheiden sie, wer auf Rechnung einkaufen darf und wer nur gegen Vorkasse. Bei großen Unternehmen sortieren sie Bewerber vor. In den USA hat ein Algorithmus in den letzten 20 Jahren die Rückfallwahrscheinlichkeit von über einer Million Straftätern vorhergesagt. Und in China entsteht ein Sozialkredit-System, das auf Grundlage des Verhaltens der Bürger über Karrierechancen oder Reisefreiheit entschieden soll.
Das Problem ist aber: Die Objektivität dieser Systeme ist nur ein Versprechen, das hart erarbeitet werden muss. Wie funktioniert also das Scoring, etwa am Beispiel der Schufa?
Input
Lorenz Matzat: "Es gibt sozusagen relativ vage Angaben der Schufa, was sie da einfließen lassen. Aber was da einfließt, offiziell, sind auf jeden Fall Sachen, wie: Zahlen Sie regelmäßig Ihren Kredit zurück? Haben Sie irgendwelche Rechnungsausfälle?"
Die Schufa selbst gibt an, 200 Einzelvariablen [*] verarbeiten zu können. [**] Im Schnitt habe sie pro Verbraucher aber zehn Informationen, mit der sie eine Art Bonitätsscore berechnet.
Output
Lorenz Matzat: "Der Output bei der Schufa konkret ist eine Zahl, die heißt 78 Prozent. Damit würden Sie keinen Kredit bekommen in der Regel. Wenn Sie online einen beantragen wollen, dann hat die online Bank vermutlich auch eine Schnittstelle zur Schufa, wo sie anhand Ihrer Adresse abfragt, ob Sie kreditwürdig sind."
Konkret heißt die Methode hinter dem Scoring-Algorithmus "logistische Regression". Sie berechnet, wie wahrscheinlich ein Ereignis – in diesem Fall ein Kreditausfall – aufgrund verschiedener Variablen ist.
Systemgrenzen
Lorenz Matzat: "Wie man so einen Score berechnet, ist nicht umstritten. Das ist kein großes Geheimnis. Das Geheimrezept ist: Welche Daten fließen ein und wie werden die bewertet? Welchen Faktor geben die dem Score?"
Die Kritik an der Schufa – und ein grundlegendes Problem der Scoring-Algorithmen – ist nämlich, dass nicht offen gelegt wird, wie stark die einzelnen Variablen ins Gewicht fallen. Doch es gibt gute Gründe, diese Informationen unter Verschluss zu halten: Sie sind ein Geschäftsgeheimnis und die Geheimhaltung erschwert es, dass Leute das System austricksen.
Auf der anderen Seite macht diese Geheimniskrämerei eine gesellschaftliche Kontrolle der Bewerter praktisch unmöglich. Die Experten von Algorithm Watch wollten das gemeinsam mit Partnern ändern und baten Menschen darum, ihnen ihre Schufa-Auskunft zuzuschicken.
Lorenz Matzat: "Und diese Tabelle haben wir dann eben ausgelesen, haben um demographische Angaben gebeten wie Alter, Geschlecht, Jahreseinkommen, etc. Und haben versucht, nachzuvollziehen darüber, wie vielleicht diese Informationen zustande kommen. Ob da auch solche Sachen Einfluss haben wie auch Wohnort oder Alter oder Herkunft. Das ist uns in dem Grad nicht gelungen, weil wir haben zu wenig Daten bekommen, auch zu wenig repräsentativ - also wir haben nur einen bestimmten Ausschnitt der Gesellschaft erreichen können."
Hier kommt ein wichtiger Aspekt von Scoring-Algorithmen ins Spiel: Wenn man zum Beispiel nicht will, dass der Wohnort oder die Herkunft bei der Bewertung einer Person eine Rolle spielt, dann reicht es nicht, diese Informationen einfach aus dem Input zu streichen.
Performance
Lorenz Matzat: "Das Besondere ist, dass es auch so genannten Proxy-Variablen gibt. Das heißt, Sie können anhand bestimmter Anhaltspunkte einen Schluss auf einen nicht angegebenen Anhaltspunkt treffen."
So kann etwa die Adresse der Bank Aufschluss geben, wo jemand wohnt. Oder die Körpergröße verrät, ob jemand wahrscheinlich eine Frau oder ein Mann ist. Schwer kontrollierbar wird so etwas, wenn Scoring-Algorithmen mittels maschinellem Lernen selbst festlegen, wie stark sie die einzelnen Variablen gewichten. Denn dabei können sie Vorurteile entwickeln.
Ein Beispiel: Der Onlinehändler Amazon hat einem System beigebracht, Job-Kandidaten mit einem einfachen Punktesystem vorzusortieren. Irgendwann habe man dabei aber festgestellt, dass der Scoring-Algorithmus Frauen diskriminiert – und zwar ohne das Geschlecht der Bewerber zu kennen, heißt es in einem Reuters-Bericht zum Thema.
Was war passiert? Das System hatte mit Daten der letzten zehn Jahre gelernt, in denen relativ wenige Frauen eingestellt worden waren. Anscheinend hat es sich beigebracht, Hinweise wie die Mitgliedschaft in Frauenvereinen oder Abschlüsse von reinen Mädchenschulen im Lebenslauf als etwas Negatives zu interpretieren.
Wie also könnte die geforderte Kontrolle solcher Algorithmen aussehen? Eine Methode sind Audits, bei denen man den Input nur leicht variiert, etwa an Stellen, die auf das Geschlecht hindeuten, und dann schaut, ob das den Output verändert. So kann man prüfen, ob ein Algorithmus diskriminierend ist, ohne im Detail zu wissen, wie er funktioniert.
[*] Aus dem vorliegenden SCHUFA-Report auf Seite 58 geht die Zahl von 200 Einzelvariablen hervor.
[**] An dieser Stelle haben wir in der Audiofassung und im vorliegenden Manuskript eine Kürzung vorgenommen. Ursprünglich hieß es, dass die SCHUFA unter anderem auch den Familienstand in die Scoreberechnung einbezieht. Das ist aber nicht korrekt.
[**] An dieser Stelle haben wir in der Audiofassung und im vorliegenden Manuskript eine Kürzung vorgenommen. Ursprünglich hieß es, dass die SCHUFA unter anderem auch den Familienstand in die Scoreberechnung einbezieht. Das ist aber nicht korrekt.