Task-Agnostic Exploration via Policy Gradient of a Non-Parametric State Entropy Estimate.

Mirco Mutti Lorenzo Pratissoli Marcello Restelli

Published in: AAAI (2021)

Keyphrases

policy gradient
neural network
machine learning
particle filter
reinforcement learning
function approximation