El indiscutible repaso que le pegó el bot Libratus a cuatro jugadores humanos el mes pasado ha estado alimentando las conversaciones y las pesadillas de un buen número de jugadores estos últimos días.
Contra aquellos que auguran el apocalipsis, el armageddon, la desaparición del poker online, el único argumento infalible es que la complejidad del proceso dela información incompleta, que es la base del poker, aumenta exponencialmente cuando vas añadiendo jugadores a la mesa. Una inteligencia artificial alimentada por un supercomputador de 20.000.000$ puede haber alcanzado un nivel muy alto jugando Heads-Up, pero una partida en mesa corta o larga se escapa aún a su alcance.
Pronto no nos va a quedar ni eso, si hacemos caso a la predicción que ha hecho uno de los creadores de Libratus, Noam Brown, en una entrevista a Pokerlistings. El 6max va a ser el próximo campo de investigación para los creadores de inteligencia artificial, y Brown da un plazo bastante corto para que los humanos también las pasen canutas para mantenerse a la altura.
También dejó interesantes datos acerca de la evolución entre Claudico y Libratus, tumbando de paso alguno de los análisis equivocados que han hecho los perdedores ante la prensa.
Los resultados del match
Me quedé sorprendido de verdad con lo bien que lo hizo la inteligencia artificial. Antes de la competición, probamos la inteligencia artificial contra bots previos y teníamos la sensación de que estaba batiendo a Claudico a tenor de unas 10-12 bb/100, que era más de lo que los humanos lograron durante su victoria en 2015, aunque no por mucho. Pensábamos que teníamos un ligera ventaja sobre los humanos, pero no estábamos seguros de cuánta. Nos impresión mucho lo bien que se comportó.
No nos fijamos demasiado en cuánto del margen que los humanos lograron sobre Claudico se debió a la explotación. Encontraron debilidades en Claudico y se aprovecharon de ello. Por ejemplo, subir cuando Claudico limpeaba era muy efectivo, y de ahí provino buena parte del margen de su victoria. El hecho de que Libratus estuviera ganando a Claudico por 10-12bb/100 sin intentar explotarle nos debería haber sugerido que era mucho mejor que los humanos en Heads-Up.
Los errores de los análisis de los humanos
Durante la primera semana hubo mucha especulación entre los humanos sobre cómo Libratus se estaba ajustando a su juego y en qué aspectos era más fuerte. Oí que estaban detectando patrones en los datos y debilidades que en realidad no existían. Por ejemplo, un día intentaron 3betear con el 80% de las manos porque creyeron que la inteligencia artificial era débil contra cierto tamaño de resubida.
No creo que fueran vulnerabilidades reales. Solo ruido en los datos. Aunque también había patrones que sí existían. Por ejemplo, se dieron cuenta que no respondía demasiado bien a ciertos tamaños de apertura. Eran detalles que no nos preocupaban mucho previamente a la competición, pero demostraron ser agujeros importantes. Por suerte, el bot estaba preparado para solucionarlo, y entrenaba mientras sus oponentes descansaban.
Era una concepción errónea que tuvieron durante las partidas, que hacíamos pequeños retoques, que de un día para otro le hacíamos 4 betear más, o tirarse más a menudo. Lo que sucedía era que los humanos estaban utilizando diferentes tamaños de apuestas preflop y en el flop. Habíamos preprogramado un puñado de tamaños habituales y la inteligencia artificial, en principio, actuaba redondeando las apuestas a uno de ellos. Pero por las noches, entrenaba sobre cómo responder a los tamaños exactos, priorizando los más ultilizados por los humanos y los que estaban más lejos de los preprogramados.
Esa era una de las claves en el algoritmo que le permitía ajustarse al juego de los humanos. No estaba intentando explotarles, como ellos especulaban. El bot al que se enfrentaron era exactamente el mismo durante toda la competición. Solo aprendió a responder a los diferentes tamaños de apuesta.
La clave de la mejora entre Claudico y Libratus
Para el turn y el river, os habréis dado cuenta de que el bot se tomaba algo de tiempo. En realidad, estaba recomputando su estrategia cada vez que los humanos hacían una apuesta en esas calles. El problema que tuvimos con la preprogramación de tamaños de apuesta preflop y en el flop no existía en el resto de las calles. Las calculaba en tiempo real.
Claudico tenía un algoritmo para resolver el river, pero no era tan fuerte como este en muchos aspectos. Además, Libratus empezaba a usar el solucionador en el turn, que añadía un grado de complejidad mucho mayor al algoritmo.
Lo primero de todo es que Claudico no tomaba en cuenta los blockers. Trataba el y el como si fueran la misma carta, aunque hubiera tres picas en la mesa. Libratus recalculaba estas cosas en tiempo real.
Las overbets fueron otra cosa que nos sorprendió de Libratus. El bot no fue entrenado con manos jugadas por humanos. Nunca vio una mano de poker jugada por humanos. Así que llegó a la partida con una estrategia única que creyó óptima y que se diferencia mucho de lo que un jugador humano considera óptima. Las grandes overbets formaban parte de esa estrategia, y las donk bets también. Creo que ya se vio algo de esa agresividad en Claudico, que se hizo famoso por sus enormes all-ins en el river en botes demasiado pequeños. En Libratus la agresividad está mucho más equilibrada, y fue clave en la victoria.
El futuro de los bots y el poker online
Le podemos asegurar a la gente que no conectamos Libratus a la Red, ni tenemos planes para ello. Pero no hay nada que detenga a otra gente a la hora de coger la tecnología que publicamos e incorporarla a bots que puedan aparecer online. No conozco mucho ese mundo. Sé que hay bots online y que las salas ponen mucho esfuerzo en pillarlos, pero no sé qué bando está ganando esa guerra.
Se han hecho estudios sobre el juego a tres bandas. En general, las técnicas aplicadas a Libratus deberían funcionar igual de bien en un entorno de más de dos jugadores. Pero no hay manera de comprobarlo, porque es imposible saber si dos o más rivales humanos están haciendo colusión o están compinchados contra la máquina.
La competición de poker anual de inteligencias artificiales va a añadir una liga 6max, así que la investigación en ese campo va a empezar pronto, y creo que su desarrollo va a ser bastante rápido. Creo que, con algunas mejoras, Libratus podría batir a rivales humanos en 6max en un plazo de unos dos años.
Cuando estás jugando con seis jugadores, no está del todo claro si quieres jugar GTO (juego óptimo según la teoría de juegos), quizá sea mejor centrarse en explotar a los jugadores más débiles. Es una discusión que tiene lugar ahora mismo en el seno de nuestra comunidad. Los jugadores humanos aún tienen ventaja sobre la inteligencia artificial a la hora de explotar a jugadores débiles.