Codage de TD-MPC en BBRL

Par Olivier Sigaud, 2 janvier, 2024

L’algorithme Temporal Difference Model Predictive Control (TD-MPC) propose des avancées intéressantes vis-à-vis de l’état de l’art en apprentissage par renforcement. Il s’agit d’un algorithme Model-based, ce qui lui permet d’apprendre avec peu d’échantillons d’apprentissage, et il combine les méthodes de différences temporelles de l’apprentissage par renforcement et des méthodes de recherche de séquence optimales d’action, ce qui le rend très performant.

L’objectif du projet est de développer un code de TD-MPC en utilisant une librairie d’apprentissage par renforcement développée par l’encadrant, puis de tester l’implémentation réalisée dans différents environnements fréquemment utilisés dans la littérature. Si le temps le permet, on pourra aller jusqu’à l’implémentation de TD-MPC2, une version plus avancée.

Pour les étudiant.e.s qui seront choisi.e.s, ce sera l’occasion de se familiariser avec les concepts et outils de l’apprentissage par renforcement, qui jouent un rôle significatif dans les progrès actuels de l’Intelligence Artificielle, et de développer une bonne maîtrise du codage d’algorithmes dans BBRL.

Ce projet faisant appel à de nombreuses notions nouvelles, une formation initiale à l’apprentissage par renforcement et à des aspects méthodologiques sera assurée durant les premières semaines.

Une forte motivation pour le machine learning, des bonnes bases en programmation python et une bonne maîtrise de github sont des prérequis.

Références

L’article « Temporal difference learning for model predictive control »
https://arxiv.org/pdf/2203.04955.pdf

L’article « TD-MPC2: Scalable, Robust World Models for Continuous Control » (version avancée
de TD-MPC) :
https://arxiv.org/pdf/2310.16828.pdf

Le dépôt de la librairie BBRL :
https://github.com/ osigaud/ bbrl

Encadrant
Olivier Sigaud
Nombre d'étudiants
4
Attribué
Oui
Obsolète
Non
Etudiants affectés
Kim Saidi, Sama Satariyan, Yanis Djermouni, Erisa Kohansal
Tags