Actor-Critic based Improper Reinforcement Learning.

Mohammadi Zaki Avi Mohan Aditya Gopalan Shie Mannor

Published in: ICML (2022)

Keyphrases

actor critic
reinforcement learning
temporal difference
optimal control
reinforcement learning algorithms
policy gradient
approximate dynamic programming
neuro fuzzy
gradient method
function approximation
policy iteration
state space
model free
average reward
control problems
markov decision processes
multi agent
natural actor critic
rl algorithms
policy gradient methods
learning algorithm
action selection
dynamical systems
machine learning
step size
evaluation function
linear program