Une IA jouant au jeu de plateau Diplomatie à un niveau humain

Une IA jouant au jeu de plateau Diplomatie à un niveau humain

Automate machiavelique

Avatar de l'auteur
Martin Clavey

Publié dans

Sciences et espace

24/11/2022 5 minutes
20

Une IA jouant au jeu de plateau Diplomatie à un niveau humain

Une équipe de Meta AI a travaillé pendant plusieurs années sur une intelligence artificielle, Cicero, jouant au jeu de plateau Diplomatie. Résultat, après 40 parties anonymes en ligne, Cicero s'est classée dans les 10 % meilleurs joueurs ayant effectué plus d'une partie, avec une moyenne atteignant plus du double de celle des joueurs humains.

Après Deep Blue, AlphaGo, Nook et AlphaStar, voici Cicero qui rentre dans le game des IA joueuses. Cicero, elle, joue au fameux jeu de plateau Diplomatie. Et plutôt avec succès puisqu'elle arrive à être classée dans les 10% des meilleurs joueurs du site WebDiplomacy. Une équipe de Meta AI vient de publier un article dans la revue Science expliquant son fonctionnement.

Jouer aux échecs, au go, au bridge ou à StarCraft, comme ces autres avaient réussi à le faire à un bon niveau reste impressionnant.

Mais pour réussir à faire une IA qui joue à un bon niveau aux échecs ou au go, deux jeux où aucune information n'est cachée, il « suffit » d'utiliser l'apprentissage profond, et l'apprentissage par renforcement qui apprennent en jouant contre eux-mêmes avec une capacité de calcul et de modélisation suffisante. 

Pour le bridge, les chercheurs de la start-up française Nukkai avaient utilisé des simulations de Monte-Carlo, outils mathématiques qui estiment les résultats possibles d'un événement incertain, optimisées avec de petits réseaux de neurones, ce qui leur avait permis d'être beaucoup moins énergivore qu'AlphaGo.

Pour StarCraft, les chercheurs qui ont bâti AlphaStar, qui a mis une déculottée à deux joueurs pros, ont dû ajouter à l'apprentissage profond et à l'apprentissage par renforcement, la théorie des jeux et des algorithmes évolutionnistes.

Diplomatie, un jeu plus complexe

Mais ces jeux restent des jeux où il n'y a pas de communication, ni de concertation à avoir avec les autres joueurs. L'équipe de Meta AI a voulu s'attaquer à un jeu plus complexe, Diplomatie.

Ce jeu mêle stratégie, discussions avec les autres joueurs, collaboration et... trahisons aux bons moments. Les bases du jeu sont que sept joueurs (représentant l'Angleterre, la France, l'Allemagne, l'Italie, l'Autriche-Hongrie, la Russie et la Turquie) mènent des négociations privées (en chat pour la version en ligne WebDiplomacy sur laquelle a joué Cicero) pour coordonner leurs actions afin de coopérer et de rivaliser les uns avec les autres en donnant des ordres à leurs unités militaires sur un plateau de jeu qui reprend la carte de l'Europe.

Allier raisonnements stratégiques et modèle de langage

Pour créer Cicero, les chercheurs de Meta AI ont allié des modèles d'IA pour le raisonnement stratégique comme ceux de Deep Blue, AlphaGo ou de AlphaStar avec un modèle de langage proche de celui de BART.

Ce modèle de langage, nommé R2C2, de 2,7 milliards de paramètres pré-entraîné sur des textes venant d'internet a ensuite été affiné avec les conversations de 40 408 parties réalisées sur WebDiplomacy.

Dans leur article, les chercheurs expliquent qu'ils ont créé ce qu'ils ont appelé un « Imitation dialogue model » [modèle d'imitation de dialogue]. C'est-à-dire que le modèle a été spécifiquement entraîné à prédire un message du joueur A au joueur B à l'instant t, en prenant en compte l'historique des dialogues avec tous les joueurs, l'état du jeu, l'historique des actions, l'évaluation du niveau des joueurs et les meta-données du jeu et des messages.

CiceroArchitecture de Cicero. Crédits : Meta AI

Mais ensuite, il faut que Cicero puisse appliquer une tactique. Pour ça, elle utilise un module de raisonnement stratégique. Ce module utilise un algorithme de planification qui prédit les stratégies de tous les autres joueurs en fonction de l'état du jeu et des dialogues, en tenant compte à la fois de la force des différentes actions et de la probabilité qu'un humain choisisse cette action. Cicero peut ensuite prendre tout ça en compte pour choisir l'action de jeu qui sera la plus optimale pour elle.

Cicero a un troisième module qui filtre les messages absurdes, incompatibles avec la stratégie, ou stratégiquement pauvres.

Si vous voulez voir jouer Cicero, Markus Zijlstra, joueur qui a collaboré à sa création, a publié une vidéo d'une heure et demi montrant en détail une partie jouée par l'IA :

Des promesses et un manque de réflexion sur l'éthique

Dans le communiqué de presse publié par Meta à propos de Cicero, l'entreprise avance que la combinaison de ce genre de modules « pourrait, par exemple, faciliter la communication entre les humains et les bots conversationnels » et vend la possibilité qu'ils pourraient avoir une longue conversation dans le but de vous enseigner une nouvelle compétence. Le service communication de l'entreprise suggère aussi que cette technologie pourrait être utilisée pour améliorer les « non-player characters » des jeux vidéo.

Mais on peut imaginer qu'elle puisse être utilisée pour manipuler des humains en se faisant passer pour une vraie personne, une version très améliorée du scam, par exemple.

Dans l'annexe fourni par les chercheurs, il y a bien une section éthique, mais celle-ci ne se positionne pas vraiment sur des utilisations potentiellement néfastes de cette technologie. Le communiqué de presse de Meta précise que l'entreprise espère timidement qu'en rendant le code de Cicero libre sur GitHub, « les chercheurs en IA pourront continuer à s'inspirer de nos travaux de manière responsable ».

Cette remarque peut sembler un peu courte quand on sait que Meta AI a dépublié, la semaine dernière, son autre IA Galactica après de nombreuses réactions sur l'utilisation problématique qui pouvait en être fait.

Écrit par Martin Clavey

Tiens, en parlant de ça :

Sommaire de l'article

Introduction

Diplomatie, un jeu plus complexe

Allier raisonnements stratégiques et modèle de langage

Des promesses et un manque de réflexion sur l'éthique

Fermer

Commentaires (20)


Sujet intéressant mais…




Dans le document de « matériaux supplémentaires » fourni par les chercheurs,




… je ne suis pas sûr qu’il faille traduire littéralement supplementary material, “annexe” serait très bien passé ! 😅


Effectivement, « annexe » est bien approprié. Je viens de corriger. Merci.


Et c’est combien le coût énergétique pour faire fonctionner le boudin??
Car le SCAM avec ce genre d’IA sera limité si son coût hors de la portée de ce que peut rapporter l’arnaque.



Mais peut-on imaginer l’usage de cet IA dans la diplomatie et les relations internationale ?


En effet, je trouve dommage qu’à chaque annonce il manque la configuration matérielle utilisée. Il y a une différence entre un PC lambda à 500\( et un super-calculateur dont le prix dépasse largement le million de \).


Je ne connais pas ce jeu, mais ça a l’air de ressembler à Risk.


La grosse différence, qui fait tout l’intérêt de diplomatie par rapport à Risk, c’est qu’un tour de diplomatie se déroule selon deux phases :




  • à la première phase, les joueurs discutent entre eux, et consignent par écrit les ordres qu’ils programment pour leurs troupes

  • lors de la deuxième phase, l’ensemble des ordres est révélé, et tous sont appliqués « en même temps » (les règles précisent exactement dans quel ordre quand il y a des conflits, comme 4 joueurs qui attaqueraient la même case).



Cela rend le jeu beaucoup plus intéressant que risk (par exemple, si tu fais confiance à l’autre joueur, et que vous vous êtes mis d’accord, tu peux laisser une ville non protégée même s’il est en mesure de l’attaquer. Mais il peut toujours te trahir et ainsi prendre la ville…).


white_tentacle

La grosse différence, qui fait tout l’intérêt de diplomatie par rapport à Risk, c’est qu’un tour de diplomatie se déroule selon deux phases :




  • à la première phase, les joueurs discutent entre eux, et consignent par écrit les ordres qu’ils programment pour leurs troupes

  • lors de la deuxième phase, l’ensemble des ordres est révélé, et tous sont appliqués « en même temps » (les règles précisent exactement dans quel ordre quand il y a des conflits, comme 4 joueurs qui attaqueraient la même case).



Cela rend le jeu beaucoup plus intéressant que risk (par exemple, si tu fais confiance à l’autre joueur, et que vous vous êtes mis d’accord, tu peux laisser une ville non protégée même s’il est en mesure de l’attaquer. Mais il peut toujours te trahir et ainsi prendre la ville…).


merci


Wikipédia explique bien la genèse du jeu.
https://fr.wikipedia.org/wiki/Diplomatie_(jeu)


Billye

Wikipédia explique bien la genèse du jeu.
https://fr.wikipedia.org/wiki/Diplomatie_(jeu)


merci


Je n’ai pas trouvé mention de “les meta-données du jeu” dans l’article de Science.
Mais chapeau bas pour avoir synthétisé ça dans un article aussi court, l’original étant franchement indigeste.


Merci. Voilà l’extrait qui en parle : “game and message metadata (additional info about game settings and the current message, e.g., time since the last message, current turn, etc.)”


Merci pour l’article. J’en profite pour également saluer le travail de synthèse nécessaire à rendre ce genre de texte compréhensible et digeste pour le commun des mortels.



(reply:2106740:Martin Clavey)




merci


Les guerres du future pourront-elles être simulées et évitées ? Vous avez 3 heures ;)
Très intéressant mais aussi très flippant cette progression de l’IA!



(quote:2106730:GérardMansoif)
En effet, je trouve dommage qu’à chaque annonce il manque la configuration matérielle utilisée. Il y a une différence entre un PC lambda à 500\( et un super-calculateur dont le prix dépasse largement le million de \).




Ce qui est plus consommateur de ressource, ce n’est pas l’exploitation à proprement parler, mais l’apprentissage. Cette partie là nécessite effectivement de gros moyen car ça conssomme beaucoup plus de ressource et on cherche que ce soit très rapide (il faut simuler des milliers et des milliers de partie, on a pas le temps de les faire en temps réel). Cependant, l’exploitation peut souvent tourner sur des PC plus modeste et grand public.



Après, j’avoue qu’ici rien que le modèle de langage qui demande 2.7 millards de paramètre, même dans des formats très optimisé tenant sur 2 octets (16bit), c’est presque 6Go rien que pour les paramètre. Vu que ce genre d’algo est exécuter sur une carte graphique, ce n’est pas avec une carte entrée de gamme que tu fais ça. Le programme complet risque de nécessité plusieurs carte graphique grand public ou une grosse NVidia A100.


diplomatie le jeu qui peut te fâcher avec tout tes amis en une aprem ^^



C’est une variante de risk, sauf que ce qui compte c’est pas la quantité de troupe/ressource. Mais les accords entres parties.



par exemple si deux armées veulent conquérir un territoire c’est de base impossible, il faut toujours une tierce partie (à proximité) qui peut proposer son aide en échange de… et un quatrième peut équilibrer etc…



Donc pour avancer il faut réaliser des tractations, sachant qu’elles pourront ou pas être tenu.



bref une phase de tractation ou l’on forme des alliances et des accords et une phase de rédaction des ordres et une phase de résolution (le meilleur moment quand tu attendais une aide qui étrangement n’est pas venu car le joueurs avaient une meilleur opportunité avec un de tes ennemis)



un grand conseille penser bellaysienne, ne jamais accepter des trucs genre le tours d’après promis je t’aide, ou sur un coup dans le dos une proposition style ah ooops j’avais mal compris.


C’est quoi l’impact écologique d’apprendre à une IA de jouer à un jeu de plateau ?


Faut pas le voir comme ça, ça permet surtout aux humains de retourner travailler au lieu de jouer;
ben ouais, une fois que tout le monde a perdu 4fois, ils veulent plus jouer.



Pis l’IA préfère aussi jouer au jeu de plateau qu’aller travailler.
Et en dernier recours, elle appelle ses potes pour remettre de l’ordre, comme à Zhengzhou



white_tentacle a dit:




  • lors de la deuxième phase, l’ensemble des ordres est révélé, et tous sont appliqués « en même temps » (les règles précisent exactement dans quel ordre quand il y a des conflits, comme 4 joueurs qui attaqueraient la même case).




Sur la (vieille) version PC de Risk, il y avait un mode comme ça. A priori, rien n’empêche d’appliquer les mêmes règles à un Risk sur plateau. C’est effectivement intéressant et ça accélère le jeu.


Le meilleur mode selon moi pour jouer à Risk.