Actor-critic is implicitly biased towards high entropy optimal policies.

Yuzheng Hu Ziwei Ji Matus Telgarsky

Published in: ICLR (2022)

Keyphrases

optimal policy
average reward
actor critic
policy iteration
reinforcement learning
markov decision processes
decision problems
long run
state space
finite horizon
partially observable markov decision processes
infinite horizon
policy gradient
multistage
initial state
dynamic programming
finite state
sufficient conditions
approximate dynamic programming
optimal control
average cost
markov decision process
model free
temporal difference
function approximation
reinforcement learning algorithms
fixed point
search space