Critic-Actor for Average Reward MDPs with Function Approximation: A Finite-Time Analysis.

Prashansa Panda Shalabh Bhatnagar

Published in: CoRR (2024)

Keyphrases

function approximation
reinforcement learning
average reward
markov decision processes
actor critic
model free
policy iteration
optimal policy
policy gradient
reinforcement learning algorithms
state and action spaces
temporal difference
td learning
radial basis function
temporal difference learning
long run
policy evaluation
monte carlo
neural network
semi markov decision processes
approximate dynamic programming
action space
learning tasks
least squares
machine learning