Actor-critic is implicitly biased towards high entropy optimal policies.

Yuzheng Hu Ziwei Ji Matus Telgarsky

Published in: CoRR (2021)

Keyphrases

optimal policy
average reward
actor critic
policy iteration
reinforcement learning
markov decision processes
decision problems
reinforcement learning algorithms
state space
multistage
partially observable markov decision processes
long run
dynamic programming
policy gradient
finite state
finite horizon
infinite horizon
average cost
optimal control
function approximation
model free
temporal difference
sufficient conditions
approximate dynamic programming
fixed point
linear programming
initial state
control system
reinforcement learning methods
learning algorithm