On-Policy Policy Gradient Reinforcement Learning Without On-Policy Sampling.

Nicholas E. Corrado Josiah P. Hanna

Published in: CoRR (2023)

Keyphrases

policy making
optimal policy
monte carlo
real time
neural network
state dependent
scheduling policies
random sampling
action selection
markov decision process
control policy