Formally Verified Approximate Policy Iteration.

Maximilian Schäffeler Mohammad Abdulaziz

Published in: CoRR (2024)

Keyphrases

approximate policy iteration
policy iteration
reinforcement learning
temporal difference
markov decision problems