Mitigation of Adversarial Policy Imitation via Constrained Randomization of Policy (CRoP).

Nancirose Piazza Vahid Behzadan

Published in: CoRR (2021)

Keyphrases

optimal policy
reinforcement learning
state space
policy making
asymptotically optimal
markov decision process
databases
neural network
machine learning
decision making
decision trees
allocation policy