Les algorithmes d'apprentissage par renforcement visent à trouver une politique permettant de déterminer l'action à appliquer dans un état donné pour maximiser une récompense sur un certain horizon. La robotique cumule plusieurs défis pour ces algorithmes. Les espaces d'états comme les espace d'action sont continus, les récompenses sont rares, les fonctions de transition peuvent être bruitées, etc. Une solution à ces défis consiste à définir des politiques paramétrées et à explorer l'espace de ces paramètres en testant les politiques correspondantes et en mesurant la récompense obtenue. Les politiques générées ne sont testées que dans un petit nombre de conditions initiales, voire depuis une seule condition initiale. Leur comportement dans des conditions non évaluées n'est donc pas garanti, c'est le problème de la généralisation.
L'objectif de ce projet est de comparer les capacités de généralisation de différents algorithmes d'apprentissage, en particulier des algorithmes d'apprentissage sans gradient s'appuyant sur des algorithmes évolutionnaires et en particulier novelty search [1], qui est un des algorithmes à l'origine des algorithmes de qualité et diversité [2,3] et qui, en dépit de sa simplicité, est un algorithme d'exploration très efficace [4, 5]. Le projet commencera par une étude comparative et pourra aller jusqu'au test de nouveaux algorithmes.
Références:
[1] Lehman, J., & Stanley, K. O. (2011). Abandoning objectives: Evolution through the search for novelty alone. Evolutionary computation, 19(2), 189-223.
[2] Pugh, J. K., Soros, L. B., & Stanley, K. O. (2016). Quality diversity: A new frontier for evolutionary computation. Frontiers in Robotics and AI, 3, 40.
[3] Cully, A., & Demiris, Y. (2017). Quality and diversity optimization: A unifying modular framework. IEEE Transactions on Evolutionary Computation, 22(2), 245-259.
[4] Doncieux, S., Laflaquière, A., & Coninx, A. (2019, July). Novelty search: a theoretical perspective. In Proceedings of the Genetic and Evolutionary Computation Conference (pp. 99-106).
[5] Doncieux, S., Paolo, G., Laflaquière, A., & Coninx, A. (2020). Novelty search makes evolvability inevitable. In Proceedings of the 2020 Genetic and Evolutionary Computation Conference (pp. 85-93).