La robotique en essaim s'intéresse aux grandes populations de robots aux capacités de communication et de calcul limitée. Ce projet porte sur la conception automatique de stratégies comportementales pour l'ensemble des robots, la conception à la main de ces stratégies étant rapidement difficiles lorsque les tâches sont complexes. Il s'agit d'un problème d'apprentissage par renforcement pour la recherche directe de politique (i.e. trouver les poids d'un réseaux de neurones contrôlant chaque robot).
Nous intéressons ici à l'influence du type d'apprentissage sur la performance individuelle et collective des robots. En particulier, on étudiera deux axes:
(1) le fait que chaque robot apprenne indépendamment (apprentissage indépendant) ou en échangeant des informations avec ses voisins (apprentissage distribué)
(2) le fait que la mesure de la performance (ie. la récompense) soit donnée au niveau de l'individu ou du groupe
Nous nous intéresserons ensuite à l'écriture de fonction de recompense individuelle prenant en compte les interactions entre robots, que ce soit par un système de marché (un robot peut "voter" pour un autre s'il l'aide) ou de diffusion de l'information (estimation de la distance, en terme de nombre de robots, d'un évènement important, p.ex. récupérer une balle dans une tache de fouragement).
On utilisera pour cette étude une simulation reprenant les travaux décrits dans [1], qui utilise une tâche de collecte d'objets par un groupe d'agents robotiques, et qui nécessite une division du travail entre les individus.
* [1] Ferrante E, Turgut AE, Duéñez-Guzmán E, Dorigo M, Wenseleers T (2015) Evolution of Self-Organized Task Specialization in Robot Swarms. PLoS Comput Biol 11(8): e1004273.
* [2] Waibel, M., Keller, L., & Floreano, D. (2009). Genetic Team Composition and Level of Selection in the Evolution of Cooperation. IEEE Transactions on Evolutionary Computation, 13(3), 648–660.
Ce projet peut-être attribué à un binôme ou un trinôme d'étudiants.