Conservative Exploration for Policy Optimization via Off-Policy Policy Evaluation.

Paul Daoudi Mathias Formoso Othman Gaizi Achraf Azize Evrard Garcelon

Published in: CoRR (2023)

Keyphrases

policy evaluation
least squares
temporal difference
policy iteration
monte carlo
reinforcement learning
model free
markov decision processes
function approximation
action selection
optimal policy
variance reduction
optimization algorithm
partially observable markov decision processes
semi parametric
reinforcement learning algorithms
td learning
evaluation function
decision making
constrained optimization
statistical inference
gaussian process
radial basis function
markov chain
markov decision problems
semi supervised