Actor-Critic with variable time discretization via sustained actions.

Jakub Lyskawa Pawel Wawrzynski

Published in: CoRR (2023)

Keyphrases

actor critic
reinforcement learning
temporal difference
neuro fuzzy
policy gradient
gradient method
continuous variables
approximate dynamic programming
action selection
optimal control
average reward
function approximation
machine learning
optimal policy
partially observable
situation calculus
decision problems
policy iteration
naive bayes classifier
reward function
radial basis function