Optimistic Linear Support and Successor Features as a Basis for Optimal Policy Transfer.

Lucas Nunes Alegre Ana L. C. Bazzan Bruno C. da Silva

Published in: CoRR (2022)

Keyphrases

optimal policy
dynamic programming
finite horizon
reinforcement learning
state space
markov decision processes
long run
infinite horizon
state dependent
decision problems
stochastic demand
policy iteration
average reward
bayesian reinforcement learning