Quantum Advantage Actor-Critic for Reinforcement Learning.

Michael Kölle Mohamad Hgog Fabian Ritz Philipp Altmann Maximilian Zorn Jonas Stein Claudia Linnhoff-Popien

Published in: CoRR (2024)

Keyphrases

actor critic
reinforcement learning
temporal difference
policy gradient
approximate dynamic programming
optimal control
reinforcement learning algorithms
neuro fuzzy
function approximation
gradient method
state space
policy iteration
model free
control problems
rl algorithms
markov decision processes
average reward
policy gradient methods
evaluation function
optimal policy
learning algorithm
partially observable
supervised learning
reinforcement learning methods
np hard
multi agent
objective function
machine learning