Policy Gradient MaxSAT Solver.

Omar Gutiérrez-De-La-Paz Ricardo Menchaca-Mendez Erik Zamora Gómez Uriel Corona Bermúdez Rolando Menchaca-Méndez Bruno Gutiérrez-De-La-Paz

Published in: Computación y Sistemas (CyS) (2024)

Keyphrases

policy gradient
actor critic
reinforcement learning
gradient method
parametric optimization
upper bound
function approximation
optimal control
sat solvers
approximation methods
reinforcement learning algorithms
partially observable markov decision processes
model free reinforcement learning
variance reduction
machine learning
lower bound
search algorithm