Méthodes d'apprentissage par renforcement pour espaces continus : les méthodes à gradient de politique et leurs améliorations (TRPO et PPO). v1.01 - Laboratoire d'Informatique Signal et Image de la Côte d'Opale Accéder directement au contenu
Rapport Année : 2023

Reinforcement learning methods for continuous spaces: policy gradient methods and their improvements (TRPO and PPO).

Méthodes d'apprentissage par renforcement pour espaces continus : les méthodes à gradient de politique et leurs améliorations (TRPO et PPO). v1.01

Résumé

This report deals with reinforcement learning methods for continuous spaces, focusing on policy gradient methods and their improvements TRPO and PPO. These methods solve the difficulties encountered by Q-learning approaches in continuous state or action spaces. The paper explains how these methods work and how they compare with other approaches.
Ce rapport traite des méthodes d'apprentissage par renforcement pour les espaces continus, en se concentrant sur les méthodes à gradient de politique et leurs améliorations TRPO et PPO. Ces méthodes permettent de résoudre les difficultés rencontrées par les approches de type Q-learning dans les espaces d'états ou d'actions continus. Le document fournit des explications sur le fonctionnement de ces méthodes et leur comparaison avec d'autres approches.
Fichier principal
Vignette du fichier
Rapport_RL_Continu_TRPO_PPO.pdf (196.54 Ko) Télécharger le fichier
Origine : Fichiers produits par l'(les) auteur(s)
licence : Domaine public

Dates et versions

hal-04115352 , version 1 (02-06-2023)

Identifiants

  • HAL Id : hal-04115352 , version 1

Citer

Franck Vandewiele, Samuel Delepoulle. Méthodes d'apprentissage par renforcement pour espaces continus : les méthodes à gradient de politique et leurs améliorations (TRPO et PPO). v1.01. Laboratoire d'Informatique Signal et Image de la Côte d'Opale. 2023. ⟨hal-04115352⟩
41 Consultations
119 Téléchargements

Partager

Gmail Facebook X LinkedIn More