Dienstag, 19. März 2024

Archiv

Abgezockt vom Computer
Künstliche Intelligenz schlägt Pokerprofis

Nach 20 Tagen pokern, hat Libratus vor gut einer Woche vier der weltbesten Pokerprofis besiegt. Libratus ist der Name eines Computerprogramms, das vor allem deswegen so stark ist, weil es kontinuierlich dazu lernt, erklärt sein Erfinder Tuomas Sandholm.

Von Michael Gessat | 09.02.2017
    Ein sogenannter Dealer legt im "Aceclub" in Hamburg Karten für eine Runde Poker aus.
    Poker ist zu komplex, um mit den Algorithmen und der Computertechnik immer die optimale Lösung zu finden. (picture alliance / dpa / Jens Ressing)
    Wer beim Thema Poker an James-Bond-Filme denkt, wer glaubt, es handele sich um ein Glückspiel und die Hauptschwierigkeit bestände darin, die Schweißperlen auf der Stirn des Gegners richtig zu deuten und selbst keine Miene zu verziehen – der liegt völlig falsch. Schach und Go sind im Vergleich deutlich weniger komplex – hier sind nämlich stets alle spielrelevanten Informationen, die Steine auf dem Brett nämlich, für beide Spieler sichtbar. Poker hingegen ist wegen der verdeckten Karten ein Spiel mit "nicht vollständiger Information" – und das stellt auch eine "Künstliche Intelligenz" vor gewaltige Probleme. 2015 hatte ein Wissenschaftlerteam im Fachblatt "Science" schon einmal einen Pokeralgorithmus vorgestellt, der quasi perfekt spielen konnte. Prof. Tuomas Sandholm von der Carnegie Mellon University in Pittsburgh hatte damals in "Science" einen begleitenden Kommentar verfasst:
    "Das war aber 'Heads up limit Texas hold'em', eine viel einfachere Pokervariante mit ungefähr 10 hoch 14 möglichen Spielkonstellationen. Die Leute dort konnten also mit cleveren Kompressionsverfahren und anderen Tricks quasi den kompletten Spielbaum auf Festplatten speichern und lösen. Was unser Programm Libratus jetzt im Match gespielt hat, 'Heads up no limit Texas hold'em', ist viel komplexer. Es hat rund 10 hoch 160 mögliche Konstellationen, so etwas lässt sich nicht abspeichern, das ist mehr als die Zahl der Atome im Universum."
    Mut zur Lücke
    Da bleibt nur eine Devise: Mut zur Lücke. Und genau das ist der gebräuchliche Ansatz für Computerprogramme, Probleme mit nicht vollständiger Information und hoher Komplexität in den Griff zu bekommen. Auch Libratus arbeitet also intern zunächst mit einem vereinfachten Modell des Spiels, einer sogenannten Abstraktion – und ermittelt hier für jede einzelne Spielsituation, welche eigenen Aktionen zu einem möglichst optimalen Resultat führen. Sandholm und seinem Team gelang es, die dabei bislang verwendeten Algorithmen deutlich zu verbesser
    "Aufgrund dieser neuen Algorithmen konnten wir ein Modell des Spiels berechnen, das viel detaillierter und realistischer ist als alle bislang verwendeten Abstraktionen. Und das das zweite Programmmodul von Libratus verfeinert nun ständig diese vorausberechnete Strategie auf Basis der konkreten Situation, die im gerade laufenden Pokerspiel eingetreten ist."
    Eigene Spielweise schwer durchschaubar
    "Endgame Solver", Endspiel-Löser heißt das Modul, und hier haben die Programmierer eine ganze Reihe neuer Ideen eingebaut. Ein Highlight: Libratus berücksichtigt ständig, ob sein Gegner im gerade laufenden Spiel schon Fehler oder Ungenauigkeiten begangen hat – und rechnet das gleich penibel in einen entsprechenden Dollarbetrag um. Genau diese Summe betrachtet das Programm anschließend als Verfügungsrahmen, um selbst eine ungewöhnliche oder riskantere Aktion einzustreuen und die eigene Spielweise schwerer durchschaubar zu machen.
    Für Stephan Kalhamer, Mathematiker und Präsident des Deutschen Poker Sportbunds, war eine Phase im Match zwischen KI und Menschen besonders beeindruckend: Am Tag vier hatten die Poker-Profis nach einem ersten Rückstand plötzlich Oberwasser – sie probierten neue kreative Ideen aus:
    "Und dann ist bestimmt auch so was wie Teamgeist, Selbstvertrauen, ja diese ganze Endorphin-Schiene; ich glaube an mich und das wird zur selbst erfüllenden Prophezeiung - das hat dann alles eine Zeitlang funktioniert. Aber die Kälte des Computers hat dann halt brutal zurückgeschlagen; er hat dann einfach gesagt: "Ja, ja, ich weiß schon, dass ihr da gerade vom spieltheoretischen Optimum abweicht, aber ich hab's jetzt am Schirm."
    Libratus lernt dazu
    Genau so war es – Libratus lernt nämlich kontinuierlich dazu und justiert vollautomatisch das eigene Abstraktionsmodell und die eigenen Strategien nach. Nacht für Nacht hatte das Programm ganz zielgerichtet die Lücken gestopft, die seine Gegner tags zuvor im Spiel gefunden und ausgenutzt hatten.
    Für Tuomas Sandholm war das Pokermatch vor allem eine Messlatte für die Leistungsfähigkeit seiner Algorithmen – er entwickelt auch Software für Problemstellungen in der realen Welt, für den Finanz-, Medizin und Cybersecurity-Sektor.
    Aber was Libratus angeht – perfekt sei das Pokerprogramm trotz des eindrucksvollen Sieges nicht:
    "Das Spiel ist einfach zu komplex, um mit den Algorithmen und der Computertechnik, die uns derzeit zur Verfügung stehen, immer die optimale Lösung zu finden. Die Strategie ist also nicht perfekt, sie ist schlagbar. Eine ganz andere Frage ist – schafft das ein menschliches Gehirn? Da bin ich mir nicht so sicher. Wenn Sie Fleisch und Blut als Recheninfrastruktur nehmen, dann stößt das nun mal an Grenzen."