Sujet projet ANDROIDE : Apprentissage supervise pour le transfert de politiques sur robot reel Mots clefs : apprentissage supervise, apprentissage profond, robotique, transfert simulation-realite, saisie d'objets Nombre suggere d'etudiants/etudiantes : groupe de 2 a 4 A) Enjeux L'apprentissage de la saisie d'objet robotique est une tache encore irresolue a cause de nombreuses difficultes [1]. D'une part, il s'agit d'un probleme d'exploration difficile : il est tres delicat de produire des saisies reussies avec un robot tant que l'on ne dispose pas d'un controleur efficace, autrement dit, tant que le probleme n'est pas resolu. D'autre part, les experiences sur robots reels sont couteuses, lentes, et sujettes a de nombreux problemes d'integration et de maintenance. L'apprentissage en simulation est donc preferable, mais le decalage entre simulation et realite aboutit a des problemes de transferabilite des politiques generees en simulations : une trajectoire reussie en environnement virtuel ne fonctionne pas necessairement sur robot reel. Les algorithmes de recherche de nouveaute [2] permettent d'aborder le probleme d'exploration difficile en generant des trajectoires de saisies avec une grande diversite [3][4]. Ces methodes generent de tres larges repertoires de trajectoires de saisies qui fonctionnent en simulation. En revanche, le probleme de la selection des trajectoires pertinentes reste irresolu : une selection aleatoire aboutit a de faibles taux de transferabilite sur robot reel : jusqu'a 50 % pour les objets les plus reguliers, 5 % pour les plus lourds ou de forme complexe [4]. La question de la selection des trajectoires pertinentes est donc essentielle pour exploiter le potentiel des methodes basees NS pour la saisie d'objet. Dans ce projet, on propose d'aborder ce probleme par l'utilisation de methodes d'apprentissage supervise (arbres de decisions, apprentissage profond, ...). L'objectif est d'entrainer un modele de regression sur lequel s'appuyer pour estimer la transferabilite d'une trajectoire. Le modele doit generer une probabilite de transferer avec succes sur robot reel a partir d'un ensemble restreint de donnees decrivant une trajectoire. B) Objectifs Les grandes etapes proposees dans ce projet sont les suivantes : 1) Annotation de trajectoires boucles ouvertes - Prise en main du code E2R, generation de repertoires de trajectoires de saisies ; - Annotation des donnees generees ; 2) Entrainement d'un modele predictif de transferabilite - Traitement du jeu de donnee : validation croisee, ensemble de test ; - Entrainement du modele ; 3) Amelioration des performances du modele - Quelles methodes de traitement des donnees peuvent permettre une amelioration des performances du modele ? Implementer ces methodes. Une seance sur robot reel est a prevoir, de maniere a developper une intuition des problemes de decalage entre robot simule et reel. C) Rendu Le rendu attendu du projet est un modele de prediction entraine, soutenu par des metriques d'evaluation des performances aussi rigoureuses que possible. Une analyse des choix de conception et d'entrainement est attendu, accompagnee des visualisations qui rendront les resultats interpretables facilement. Une analyse autour de la construction des jeux de donnees est egalement attendue. Le travail doit etre realise en Python. La libraire Pytorch est tres vivement recommandee. D) Encadrement Stephane Doncieux : stephane (point) doncieux [arobase] isir (point) upmc (point) fr Johann Huber : stephane (point) doncieux [arobase] isir (point) upmc (point) fr References : [1] Kleeberger, K., Bormann, R., Kraus, W., & Huber, M. F. (2020). A survey on learning-based robotic grasping. Current Robotics Reports, 1(4), 239-249. [2] Lehman, J., & Stanley, K. O. (2011). Abandoning objectives: Evolution through the search for novelty alone. Evolutionary computation, 19(2), 189-223. [3] Morel, A., Kunimoto, Y., Coninx, A., & Doncieux, S. (2022). Automatic Acquisition of a Repertoire of Diverse Grasping Trajectories through Behavior Shaping and Novelty Search. arXiv preprint arXiv:2205.08189. [4] Huber, J., Sane, O., Coninx, A., Ben Amar, F., Doncieux, S. (2022). E2R: a Hierarchical-Learning inspired Novelty-Search method to generate diverse repertoires of grasping trajectories. arXiv preprint arXiv:2210.07887.