Reward Shaping with Dynamic Trajectory Aggregation.

Takato Okudo Seiji Yamada

Published in: CoRR (2021)

Keyphrases

reward shaping
dynamic environments
machine learning
reinforcement learning
expert systems
optimal control