Dans l'esprit (profond) d'AlphaZero

Un article complet AlphaZero est publié

Quand AlphaZero a été annoncé pour la première fois à la fin de l’année dernière, il n’est pas exagéré de dire que cela a provoqué des sentiments de choc et de crainte. Après tout, un nouveau paradigme avait été introduit dans le monde quelque peu fastidieux des échecs informatiques, remettant en question des décennies de vérités acceptées et promettant des choses merveilleuses pour les joueurs du monde entier.

Voici un programme qui évitait les idées reçues sur la manière de devrait être construit, en remettant en cause même le principe le plus élémentaire: mieux c'est, plus vite. Non seulement il ne fonctionnait pas aussi vite que Stockfish, mais il était bien 900 fois plus lent, mais encore plus puissant de loin.

Cette nouvelle révélatrice était accompagnée d'un document préliminaire alléchant qui partageait bon nombre de ses détails intimes avec ceux qui pouvaient le comprendre et qui étaient prêts à travailler pour le mettre en œuvre. Pourtant, nombreux sont ceux qui ont crié au scandale, criant que non seulement le match d’essai avait été totalement injuste puisque AlphaZero fonctionnait sur un ‘supercalculateur’ alors que Stockfish ne l’avait pas fait, mais que Stockfish n’était rien de moins que paralysé.

AlphaZero: nouvelle lumière sur les grands jeux d'échecs, de shogi et de Go

Conditions de match

Le dernier article, publié dans Science magazine, un magazine sérieux qui exigera un examen minutieux et des examens par les pairs avant d’accepter un article, a apporté un certain nombre de rectifications concernant les conditions de match ainsi que des éclaircissements sur le matériel. Dans le pré-papier, le matériel attribué à Stockfish consistait en 64 fils générant 70 millions de positions par seconde et 32 ​​Mo (mégaoctets) pour les tables de hachage. Ce dernier détail ne manqua pas de cris d’indignation, puisqu’un montant aussi minime pouvait à peine lui être profitable. Il y avait ensuite la question du match de 100 matchs à raison d'une minute par coup, et enfin, dernier élément, mais pas des moindres, il y avait les mystérieux quatre TPU sur lesquels AlphaZero courait. Aujourd'hui, nombreux sont ceux qui pourraient apprécier le poids d'un GPU puissant, mais il est difficile de quantifier un TPU.

En fait, Stockfish fonctionnait sur 44 threads sur 44 cœurs (deux processeurs Intel Xeon Broadwell à 22 GHz à 22 cœurs), une taille de hachage de 32 Go, des tables de base Sygygy Endgame, à 3 heures de contrôle avec 15 secondes par coup. En outre, Stockfish 8 n'était pas la seule version testée, Stockfish 9 avait également sa chance. En ce qui concerne AlphaZero et ses TPU, les auteurs aident à affiner sa puissance en expliquant que s’il n’est pas identique, la performance par inférence est équivalente à un Titan V. Le Titan V est sans conteste un superbe GPU de qualité professionnelle, mais ses performances sont presque identiques. à celle de la Nvidia RTX 2080 Ti, un GPU à 1200 $ récemment sorti. Puissant? Sans aucun doute, mais à peine un supercalculateur à moins de comparer des machines d’année en arrière.

En outre, les auteurs ont testé diverses conditions, et pas seulement sans livres. Ils ont essayé de permettre à Stockfish d’utiliser un livre alors que ce n’était pas le cas pour AlphaZero, et même un match de style TCEC utilisant exactement les mêmes ouvertures que TCEC avait utilisées dans une super finale il ya quelques années, ainsi que des matchs à handicap handicapé avec AlphaZero obtenant un tiers du temps Stockfish obtenu ou même un dixième. Avez-vous voulu savoir comment AlphaZero se serait comporté en superfinale TCEC contre Stockfish? Voici le résultat.

Plus important encore, tous les jeux pour ces matches ont été publiés – plus de 200 jeux, y compris une belle sélection de Sadler qui a pris la liberté de choisir ceux qu'il pensait ne pas manquer.

L’article apportait des explications beaucoup plus détaillées ainsi que des graphiques pour aider à comprendre

Les fans de shogi n'ont pas été oubliés non plus. Non seulement les 100 jeux entre la version shogi d'AlphaZero ont été publiés, mais dix ont été choisis par Yoshiharu Habu, le «Kasparov» du Shogi.

Un aficionado averti qui est passé par-dessus était stupéfait. Comme il l'a expliqué: «J'ai regardé certains des jeux de shogi … et ils sont totalement impénétrables. Tous les principes connus de joseki (ouvertures) et de sécurité absolue sont jetés à la fenêtre! Dans certains de ces jeux, le roi ne se repose pas au centre, il joue l'équivalent de se diriger vers le centre du tableau avant de revenir au coin pour la sécurité et de gagner ensuite. Étonnant!"

Dans la publication Science où l'article AlphaZero paraît, des commentaires supplémentaires ont été fournis par des personnalités telles que Murray Campbell, leader dans la recherche sur l'IA et l'un des noms clés de Deep Blue, ainsi qu'un éditorial de Garry Kasparov, qui a donné son point de vue. dessus, notant:

(…) J'admets que j'étais ravi de voir qu'AlphaZero avait un style ouvert et dynamique comme le mien. La sagesse conventionnelle était que les machines approcheraient la perfection avec des manœuvres sèches sans fin, conduisant généralement à des jeux dessinés. Mais dans mon observation, AlphaZero donne la priorité à l’activité des pièces par rapport au matériau, préférant des positions qui, à mes yeux, semblaient risquées et agressives. Les programmes reflètent généralement les priorités et les préjugés des programmeurs, mais comme AlphaZero est un programme, je dirais que son style reflète la vérité. Cette compréhension supérieure lui a permis de surclasser le meilleur programme traditionnel du monde malgré le calcul d'un nombre beaucoup moins important de positions par seconde. C'est l'incarnation du cliché, "travaillez plus intelligemment, pas plus dur".

AlphaZero nous montre que les machines peuvent être des experts, pas seulement des outils experts. L'explicabilité est toujours un problème – cela ne va pas mettre les entraîneurs d'échecs à la faillite pour le moment. Mais les connaissances générées sont des informations dont nous pouvons tous tirer parti.

Assurez-vous de lire l'intégralité de l'éditorial.

Ouvertures

Dans le pré-document, de nombreux graphiques fascinants avaient été publiés sur les préférences d’ouverture d’AlphaZero au fur et à mesure de son évolution, ainsi que sur ses résultats aux tests de matchs contre Stockfish. Cette fois, les statistiques sont plus partagées de manière visuelle avec des barres de couleur pour vous aider à voir quand il gagne plus ou est perdu.

Il y a aussi une rupture fascinante de sa séquence préférée de 6 couches dans le jeu vidéo au fur et à mesure de son évolution. En d’autres termes, quelle serait la meilleure ouverture pour les deux côtés pour six plis? AlphaZero a été formé pour un total de 700 000 pas (considérez ces leçons comme des leçons de son évolution), et vous pouvez voir ici ce qu’il pensait être idéal après seulement 50 000 pas, puis 143 000 pas, et ainsi de suite jusqu’à son apogée jouer… préparez-vous à faire la grimace: le Berlin.

Le Berlin comme évolution logique de la théorie?

Certains pourraient voir dans Berlin le mot de la fin par AlphaZero sur les ouvertures comme un signe de régression. Après tout, après 608 000 pas, le classique Ruy Lopez était idéal.

Ce que nous avons appris

Pour les développeurs et les programmeurs, ce fut une aubaine, car il a finalement permis de résoudre un grand nombre de questions concernant les paramètres utilisés lors de l'entraînement et du jeu, ainsi que des révélations vraiment révélatrices. Pour ceux qui s’interrogent sur les implémentations exactes, Deep Mind a fourni un exemple de pseudocode, suffisant pour montrer comment certains algorithmes peuvent être codés. Parmi les éléments les plus intéressants sur le plan technique, il y avait une formule qui modifiait la base de la recherche en fonction du nombre de nœuds par coup atteint. Plus elle semblait profonde, plus la recherche devenait large.

Alors, est-ce que cela termine AlphaZero pour de bon maintenant? À peine. Comme Demis Hassabis était si prêt à le souligner récemment, un nouvel AlphaZero a été mis au point, plus puissant que celui mentionné dans le document. Soyez prêt pour les nouvelles annonces!


Rejouer tous les jeux d'AlphaZero


Clé USB Endgame Turbo 5

Analyse parfaite de la phase finale et augmentation considérable des performances du moteur: obtenez-la avec le nouvel Endgame Turbo 5! Cela donne l’ensemble des bases de table Sygygy 6 parties sur une clé USB. Il suffit de le brancher sur une prise USB et vous êtes prêt!

Plus…


Liens

Leave a comment

Send a Comment

Your email address will not be published. Required fields are marked *

This site uses Akismet to reduce spam. Learn how your comment data is processed.