Méthodes d'apprentissage par renforcement pour espaces continus : les méthodes à gradient de politique et leurs améliorations (TRPO et PPO). v1.01

Franck Vandewiele; Samuel Delepoulle

Rapport Année : 2023

Reinforcement learning methods for continuous spaces: policy gradient methods and their improvements (TRPO and PPO).

Méthodes d'apprentissage par renforcement pour espaces continus : les méthodes à gradient de politique et leurs améliorations (TRPO et PPO). v1.01

(1) , (1)

Franck Vandewiele

Fonction : Auteur
PersonId : 910359

Laboratoire d'Informatique Signal et Image de la Côte d'Opale

Samuel Delepoulle

Fonction : Auteur
PersonId : 750551
IdHAL : samueldelepoulle
ORCID : 0000-0002-8897-0858
IdRef : 059799900

Laboratoire d'Informatique Signal et Image de la Côte d'Opale

Résumé

This report deals with reinforcement learning methods for continuous spaces, focusing on policy gradient methods and their improvements TRPO and PPO. These methods solve the difficulties encountered by Q-learning approaches in continuous state or action spaces. The paper explains how these methods work and how they compare with other approaches.

Ce rapport traite des méthodes d'apprentissage par renforcement pour les espaces continus, en se concentrant sur les méthodes à gradient de politique et leurs améliorations TRPO et PPO. Ces méthodes permettent de résoudre les difficultés rencontrées par les approches de type Q-learning dans les espaces d'états ou d'actions continus. Le document fournit des explications sur le fonctionnement de ces méthodes et leur comparaison avec d'autres approches.

Mots clés

apprentissage par renforcement IA problèmes de contrôle continus

Domaines

Intelligence artificielle [cs.AI]

Fichier principal

Rapport_RL_Continu_TRPO_PPO.pdf (196.54 Ko)

Origine : Fichiers produits par l'(les) auteur(s)
licence : Domaine public

Samuel Delepoulle : Connectez-vous pour contacter le contributeur

https://hal.science/hal-04115352

Soumis le : vendredi 2 juin 2023-13:43:00

Dernière modification le : jeudi 8 juin 2023-04:01:04

Dates et versions

hal-04115352 , version 1 (02-06-2023)

Identifiants

HAL Id : hal-04115352 , version 1

Citer

Franck Vandewiele, Samuel Delepoulle. Méthodes d'apprentissage par renforcement pour espaces continus : les méthodes à gradient de politique et leurs améliorations (TRPO et PPO). v1.01. Laboratoire d'Informatique Signal et Image de la Côte d'Opale. 2023. ⟨hal-04115352⟩

Exporter

BibTeX XML-TEI Dublin Core DC Terms EndNote DataCite

Collections

UNIV-LITTORAL LARA LISIC

41 Consultations

119 Téléchargements

Reinforcement learning methods for continuous spaces: policy gradient methods and their improvements (TRPO and PPO).

Méthodes d'apprentissage par renforcement pour espaces continus : les méthodes à gradient de politique et leurs améliorations (TRPO et PPO). v1.01

Résumé

Mots clés

Domaines

Dates et versions

Identifiants

Citer

Exporter

Collections

Partager