An Empirical Analysis of Measure-Valued Derivatives for Policy Gradients.

João Carvalho Davide Tateo Fabio Muratore Jan Peters

Published in: CoRR (2021)

Keyphrases

similarity measure
machine learning
higher order
information retrieval
distance measure
data sets
case study
pairwise
optimal policy