Optimal Actor-Critic Policy with Optimized Training Datasets.

Chayan Banerjee Zhiyong Chen Nasimul Noman Mohsen Zamani

Published in: CoRR (2021)

Keyphrases

actor critic
training dataset
optimal control
policy gradient
approximate dynamic programming
reinforcement learning
average reward
dynamic programming
policy gradient methods
temporal difference
training data
neuro fuzzy
optimal policy
policy iteration
gradient method
machine learning
function approximation
finite state
training set
optimal solution
feature selection