Etude de Soft Actor-Critic à actions discrètes

Par Olivier Sigaud, 4 janvier, 2025

Contexte


Soft Actor-Critic (SAC) est un algorithme d’apprentissage par renforcement de l’état de l’art,
essentiellement utilisé avec des actions continues. Il existe cependant une version pour traiter un
ensemble discret d’actions, mais cette version est moins utilisée et moins étudiée. Il existe tout de
même quelques travaux qui soulèvent des questions intéressantes à propos de cet algorithme,
suggérant plusieurs variantes.


Objectifs


Pour enseigner l’apprentissage par renforcement, l’encadrant de ce projet a développé une librairie à
vocation pédagogique appelée BBRL. Le premier objectif de ce projet est de coder les différentes
variantes de SAC à actions discrètes dans la librairie BBRL et de comparer leurs performances,
entre elles et avec un autre algorithme de la littérature, DQN. Le second objectif est d’étudier plus
en détail les propriétés de ces variantes.
Pour les étudiant.e.s qui seront choisi.e.s, les bénéfices de ce projet seront multiples :
- ce sera l’occasion de se familiariser avec les concepts et outils de l’apprentissage par
renforcement, qui jouent un rôle significatif dans les progrès actuels de l’Intelligence Artificielle.
Les étudiant.e.s verront en avance une partie du contenu de l’UE RLD du M2 DAC.
- ce sera l’occasion de développer une bonne maîtrise du codage d’algorithmes dans BBRL, utilisée
en RLD, et d’apprendre une méthodologie rigoureuse pour l’évaluation d’algorithmes.
Ce projet faisant appel à de nombreuses notions nouvelles, une formation initiale à l’apprentissage
par renforcement, à BBRL et à des aspects méthodologiques sera assurée durant les premières
semaines.
Une forte motivation pour le machine learning, des bonnes bases en programmation python et une
bonne maîtrise de github sont des prérequis.

Encadrant
Olivier Sigaud, ISIR, Sorbonne Université (Olivier.Sigaud at isir.upmc.fr)
Nombre d'étudiants
2
Attribué
Non
Obsolète
Non
Tags