Reinforcement Learning with Guarantees that Hold for Ever.

Ernst Moritz Hahn Mateo Perez Sven Schewe Fabio Somenzi Ashutosh Trivedi Dominik Wojtczak

Published in: FMICS (2022)

Keyphrases

reinforcement learning
multi agent
function approximation
state space
optimal policy
reinforcement learning algorithms
temporal difference
markov decision processes
real time
robotic control
learning problems
model free
action space
control problems
direct policy search
initial state
optimal control
monte carlo
supervised learning
hidden markov models
learning process
information systems
neural network