Apprentissage conditionné par des buts en BBRL

Par Olivier Sigaud, 19 décembre, 2022

Mots clés : apprentissage par renforcement, buts, BBRL, XPAG, python

Résumé : Dans ce projet, les étudiants commenceront par s’inspirer de la librairie XPAG pour étendre la librairie BBRL avec la capacité à apprendre des politiques conditionnées par des buts et y intégreront le mécanisme d’Hinsight Experience Replay (HER). Dans un second temps, ils compareront la performance d’une optimisation basée sur HER à des méthodes évolutionnaires pour trouver une population de politiques diverses et performantes.

Sujet développé :

En apprentissage par renforcement, un agent peut apprendre à résoudre un ensemble de tâches en apprenant des politiques conditionnées par des buts. On parle de « Goal-Conditioned Reinforcement Learning » (GCRL). Un mécanisme fréquemment utilisé en GCRL s’appelle Hindsight Experience Replay (HER). Ce mécanisme permet à l’agent de tirer le meilleur parti possible des trajectoires sur lesquelles il a échoué en faisant comme si l’état qu’il a effectivement atteint était son but.

XPAG est une librairie dédiée au GCRL qui propose un modèle élégant pour faire de l’apprentissage par renforcement profond conditionné par des buts. Cette librairie vise des implémentations en JAX, mais le modèle abstrait peut être réutilisé dans un autre cadre.

De son côté, BBRL est une librairie d’apprentissage par renforcement à vocation pédagogique qui offre la plupart des algorithmes classiques, mais qui ne fournit pas les représentations ni les mécanismes utiles pour faire du GCRL.

Le premier objectif de ce projet est de construire une version de la librairie BBRL qui intégre le modèle et les mécanismes de la librairie XPAG, notamment HER.

Dans un second temps, les étudiants utiliseront la librarie ainsi développée pour comparer la performance de deux mécanismes d’optimisation d’une population de politiques, à savoir un mécanisme basé sur HER et un mécanisme évolutionnaire classique.

Pour les étudiants qui seront choisis, les bénéfices de ce projet seront multiples :
- ce sera l’occasion de se familiariser avec les concepts et outils du deep RL, qui jouent un rôle significatif dans les progrès actuels de l’Intelligence Artificielle.
- ce sera l’occasion de développer une bonne maîtrise du codage d’algorithmes d’apprentissage ainsi que de leur évaluation

Ce projet faisant appel à de nombreuses notions nouvelles pour les étudiants, une formation initiale à l’apprentissage par renforcement profond et à des aspects méthodologiques sera assurée durant les premières semaines, à l’aide de vidéos de cours, TME sous Google colab et sessions avec le tuteur.

Une forte motivation pour le machine learning, des bonnes bases en programmation python et une certaine familiarité avec github sont des prérequis.

Références

L’article sur Hindsight Experience Replay :
https://proceedings.neurips.cc/paper/2017/file/453fadbd8a1a3af50a9df4df…
Deux blogposts sur HER :
https://becominghuman.ai/learning-from-mistakes-with-hindsight-experien…

https://towardsdatascience.com/reinforcement-learning-with-hindsight-ex…

Le dépôt de la librairie BBRL :
https://github.com/osigaud/BBRL

Le dépôt de la librairie XPAG :
https://github.com/perrin-isir/xpag

Encadrant
Olivier Sigaud, ISIR
Nombre d'étudiants
3
Attribué
Oui
Obsolète
Non
Etudiants affectés
Roxane Cellier, Yi Qin, Zenhue Fu
Tags