Do Differentiable Simulators Give Better Policy Gradients?

Hyung Ju Suh Max Simchowitz Kaiqing Zhang Russ Tedrake

Published in: ICML (2022)

Keyphrases

optimal policy
objective function
loss function
database
neural network
data mining
image processing
policy making
website
database systems
reinforcement learning
decision process
revenue management