Dienstag, 16. April 2024

Archiv

Künstliche Intelligenz
Poker-Software „Pluribus“ zockt fünf Profis gleichzeitig ab

Informatiker melden einen Durchbruch bei der Entwicklung selbstlernender Computerprogramme. Die Poker-Software "Pluribus" spielt die Variante "No Limit Texas Hold'em" besser als menschliche Profis. Bewiesen hat sie das in 10.000 Runden mit je 5 menschlichen Gegnern.

Michael Gessat im Kollegengespräch mit Christiane Knoll | 12.07.2019
Ein sogenannter Dealer legt im "Aceclub" in Hamburg Karten für eine Runde Poker aus.
Ein sogenannter Dealer legt im "Aceclub" in Hamburg Karten für eine Runde Poker aus. (picture alliance / dpa / Jens Ressing)
Christiane Knoll: Vielleicht erinnern Sie sich noch: Vor zweieinhalb Jahren haben wir hier in Forschung aktuell über "Libratus" berichtet - ein Computerprogramm, das damals in einem öffentlichkeitswirksam ausgetragenen Match die vier weltbesten menschlichen Pokerprofis schlagen konnte. Kleine, aber wesentliche Einschränkung: Das Programm hatte damals gegen jeden der Profis einzeln gespielt, wie in der Schlussphase einer Pokerrunde, der alle übrigen Mitspieler ausgestiegen sind. Jetzt präsentiert das gleiche Programmierer-Team in der Fachzeitschrift "Science" eine neue Version: "Pluribus" heißt die, das Programm schlägt wiederum stärkste Profispieler - aber nun auch in einer richtigen Pokerrunde mit sechs Spielern. Bei mir ist mein Kollege Michael Gessat – sechs statt zwei Spieler, das macht die Herausforderung für die KI wesentlich komplexer?
Michael Gessat: Absolut, das sind noch einmal ganz andere Dimensionen. Poker ist ein Spiel mit unvollständiger Information – im Gegensatz zu Schach etwa oder Go – da stehen ja alle Figuren bzw. Spielsteine auf dem Brett – beim Poker kenne ich dagegen erstmal nur die eigenen und die aufgedeckten Karten; im Grunde muss ich da laufend Wahrscheinlichkeiten berechnen, was die Gegner auf der Hand haben und was im Kartenstock sein könnte. Schon allein das ist bei sechs Spielern erheblich aufwendiger, und dazu kommen jetzt die möglichen Aktionen bzw. der Strategien der fünf Gegenspieler – die Anzahl der möglichen Spielverläufe und der Entscheidungsbaum wächst dadurch dramatisch an.
Mut zur Lücke statt komplexe Rechenleistung
Knoll: Wie haben die Programmierer diese Zunahme der Komplexität in den Griff bekommen – mit mehr Rechenkraft?
Gessat: Überraschenderweise nicht – im Gegensatz zu den Programmen der Google-Tochterfirma "Deep Mind" für Schach und Go oder für das Shooter-Spiel "Counter Strike", die ja auf neuronale Netzen beruhen, kommt Pluribus sowohl in der Trainingsphase - (da spielt der Algorithmus zunächst eine sehr große Zahl von Partien bzw. hier Pokerhänden gegen sich selbst und erarbeitet sich eine Basisstrategie) - als auch beim Spielen mit relativ bescheidener Computer-Hardware aus. Im Grunde hat das Team hier rund um den Programmierer Tuomas Sandholm das "Mut zur Lücke"- Motto von 2017 erfolgreich weiterentwickelt, und Wege gefunden, wie sich der Such- und Entscheidungsbaum effektiv beschneiden lässt. Zwei Beispiele: Beim Poker spielt es ja eine sehr wichtige Rolle, wie hoch die Spieleinsätze der Gegner sind, ob man da eben mitgeht, erhöht oder aussteigt - Pluribus beschränkt sich bei jeder Entscheidung auf ein paar wenige mögliche Einsatzhöhen und rechnet eben nicht den kompletten Entscheidungsbaum neu durch, wenn ein Gegner 150 statt 100 Dollar auf den Tisch gelegt hat. Und es versucht bestimmte ähnliche Karten-Konstellationen zu generalisieren und spielt dann jeweils die gleiche Strategie.
Knoll: Generalisieren, Eindampfen von Komplexität – das ist doch wahrscheinlich genau das, was auch sehr gute menschliche Spieler können?
Gessat: So ist das, und sie können noch etwas ziemlich schnell und effektiv, was Pluribus erst gar nicht versucht: die spezifischen Besonderheiten oder eben Schwächen in der Spielweise der Gegner zu erkennen und dann auszunutzen, das würde die benötigte Rechenpower bzw. Bedenkzeit exzessiv ausweiten. Und trotz dieser Einschränkung: Pluribus konnte in zwei Matches über 10.000 bzw. 5.000 Partien menschliche Top-Spieler übertreffen, einmal in der Konstellation 5 Menschen gegen eine KI-Instanz, und dann auch in der Version ein Mensch gegen fünf Programm-Instanzen. Es ging jeweils auch um ein ganz nettes Preisgeld, so dass die Poker-Profis hinreichend motiviert waren. Fazit: Pluribus spielt bei weitem nicht perfekt oder im Sinne der Spieltheorie unschlagbar – aber für einen Sieg gegen Menschen reicht es, jetzt auch in der gebräuchlichsten Poker-Version "Six Player No Limit Texas hold’em".