Learning Adversarial MDPs with Stochastic Hard Constraints.

Francesco Emanuele Stradi Matteo Castiglioni Alberto Marchesi Nicola Gatti

Published in: CoRR (2024)

Keyphrases

reinforcement learning
markov decision processes
hard constraints
learning algorithm
state space
worst case
np complete