An Empirical Analysis of Measure-Valued Derivatives for Policy Gradients.

João Carvalho Davide Tateo Fabio Muratore Jan Peters

Published in: IJCNN (2021)

Keyphrases

information theory
similarity measure
partial derivatives
distance measure
neural network
optimal policy
policy makers