Donnerstag, 18. April 2024

Archiv

Algorithmen im Alltag (1/12)
Der Internetlotse

Knapp einer Milliarde Webseiten gibt es im Internet. Um diese nach Relevanz zu sortieren, nutzen viele die Internet-Suchmaschine Google. Deren Pagerank-Algorithmus wurde Mitte der 1990er-Jahre von zwei Stanford-Studenten programmiert. Grundlage aber waren frühe Beobachtungen in einem Flüchtlingslager.

Von Piotr Heller | 04.04.2019
Deutschlandfunk-Sendereihe Algorithmen im Alltag: Der Internetlotse
Deutschlandfunk-Sendereihe Algorithmen im Alltag: Der Internetlotse (epict.de / Hans-Jörg Brehm)
Hinter Googles Websuche steckt ein Algorithmus, dessen Ursprünge man bis zum Ersten Weltkrieg verfolgen kann. Damals arbeitete ein angehender Arzt namens Jacob Moreno in einem Flüchtlingslager bei Wien. Ihm fiel auf, wie Sympathien und Antipathien zwischen einzelnen Personen zu Konflikten führten. Später entwickelte er daraus die Soziometrie, eine Methode der Sozialforschung. Dabei befragt man Mitglieder einer Gruppe, wen sie zum Beispiel sympathisch finden. Dann zeichnet man ein Netzwerk: Die Gruppenmitglieder sind Punkte, die Sympathien sind Pfeile zwischen den Punkten. So lässt sich ein Überblick gewinnen.
"Ideengeschichtlich ist das der richtige Ursprung zu dem, was dann später für Webseiten, wo wir es mit Millionen und Milliarden zu tun haben, ein sehr sinnvolles Kriterium ist."
Um die Parallele zwischen Websuche und Soziologie zu verstehen, die der Mathematiker Sebastian Stiller von der TU Braunschweig hier zieht, muss man sich erstmal klarmachen, wie man die Sympathiepfeile in einem sozialen Geflecht interpretieren kann. Man kann sagen, dass Personen, auf die viele Pfeile zeigen, in irgendeiner Form wichtig sind. Das heißt die Anzahl der Pfeile, die auf eine Person zeigen, spiegelt ihre Relevanz wieder. Vor einer ganz ähnlichen Aufgabe standen die beiden Erfinder des Google-Algorithmus vor 25 Jahren: Sie mussten ermitteln, wie wichtig eine bestimmte Webseite im Vergleich zu zigtausend anderen ist, um die Funde ihrer Suchmaschine zu sortieren. Dazu nutzten sie die Tatsache, dass das Internet nichts anderes ist als ein gigantisches Netzwerk.
Input
"Wir haben einzelne Knoten oder Punkte in diesem Netzwerk. Und das sind die Webseiten, die wir letztlich sortieren wollen nach der Wichtigkeit. Und zwischen den Knoten gibt es Links. Eine Website verweist auf die andere. Und das ist der Input."
Spezielle Programme, sogenannte Webcrawler durchstreifen das Internet und sammeln diese Informationen über Links und Webseiten. Jetzt kann man aber nicht einfach die Links, die auf eine Seite verweisen, zusammenzuzählen und daraus ableiten, wie relevant sie ist. Denn nicht jeder Link fällt gleich stark ins Gewicht.
"Wenn jemand wichtig ist und jemand anderen einen Link gibt, dann ist der wahrscheinlich auch wichtig. Wenn ich unwichtig bin und auf Sie verlinke, dann sind Sie nur ein bisschen wichtig, aber nicht ganz so viel. Und das klingt jetzt erst einmal zirkulär: Woher weiß ich denn, wie toll das jetzt für Sie ist, dass ich auf Sie verlinkte? Ja, da beißt sich die Katze in den Schwanz. Das ist aber nicht so schlimm."
Weil man dieses Problem mathematisch lösen kann. Das macht der Algorithmus. Wie er das genau tut, ist kompliziert zu beschreiben, aber man kann sich mit einem Bild helfen.
"Wir stellen uns das so vor: Jeder kriegt so ein Säckchen Wichtigkeit. Wenn jetzt jeder sein ganzes Säckchen nimmt – mit Sand drin – und gibt es an alle weiter, mit denen er verlinkt ist. Und dann gibt er diesen Sand an alle seine Nachbarn weiter, die er für wichtig hält, bis er selber gar keinen mehr hat. Gleichzeitig kriegt er aber von denen, die ihn für wichtig halten, wieder Sand zurück. So. Und wenn jetzt magischerweise jeder am Ende genauso viel Sand hat wie am Anfang, dann haben wir die Wichtigkeit genau richtig verteilt. Dass die Idee. Das ist ein Gleichgewichtszustand."
Output
"Der Output ist letztlich diese Säckchen. Der Algorithmus hat die Aufgabe, diese Säckchen so zu verteilen, dass wenn man den Sand weitergeben würde, am Ende wieder jeder genauso viel hat. Das macht die Mathematik."
So weist der Algorithmus – um im Bild zu bleiben – jeder Webseite ihr Säckchen Wichtigkeit zu. In Wirklichkeit nennt sich dieses Säckchen Pagerank und ist eine Zahl. Mit ihr lassen sich die Suchergebnisse sortieren – je größer der Pagerank, desto weiter oben auf der Trefferliste taucht ein Suchergebnis auf.
Performance
"So wie dieser Algorithmus durchgeführt wird, hat er am Ende nach jeder notwendigen Genauigkeit präzise die stationäre Verteilung gefunden. Und das ist auch gut. Das heißt, an dieser Stelle ist die Analyse des Algorithmus selber nicht das, worüber wir uns Sorgen machen müssen. Die entscheidende Frage ist, ob das Kriterium auf das Phänomen anwendbar ist? Also wenn ich ein besseres Kriterium hätte, dann würde ich wahrscheinlich der Versuchung erliegen, steinreich zu werden."
So kann man es natürlich sehen: Die Grundidee des Pagerank hat Google zur erfolgreichsten Suchmaschine der Welt und seine Programmierer steinreich gemacht. Das zeigt, dass das Kriterium mit den Links gut funktioniert. Aber natürlich reicht es nicht. Der Google-Algorithmus sortiert auch Spamseiten aus, er bevorzugt schnell ladende Seiten und Texte, die oft aktualisiert werden oder sich durch gehobenes Sprachniveau auszeichnen und so weiter. Trotz ständiger Optimierung fällt aber manchmal auch etwas Wertvolles durchs Raster.
Systemgrenzen
"Es kann natürlich auch sein dass man gute Webseiten zu einer Sache hat, die dann gar nicht in Erscheinung treten. Und das ist dieses Problem: Wenn Sie bestimmte Schlagworte eingeben - und Sie haben zum Beispiel eine Firma, die was zu diesen Schlagworten tut oder so - und sie finden sich dann wirklich auf der dritten Seite von der Suchmaschine, dann sind sie halt nicht auffindbar."
Auf der anderen Seite ist das bei knapp einer Milliarde Webseiten, die es im Internet gibt auch gar nicht vermeidbar. Deshalb ist es wichtig, dass Nutzer Suchmaschinen als Werkzeug begreifen und ihre Sucheingaben variieren, um auch das zu entdecken, was die Algorithmen für wenig relevant halten.