Nash Learning from Human Feedback.

Rémi Munos Michal Valko Daniele Calandriello Mohammad Gheshlaghi Azar Mark Rowland Zhaohan Daniel Guo Yunhao Tang Matthieu Geist Thomas Mesnard Andrea Michi Marco Selvi Sertan Girgin Nikola Momchev Olivier Bachem Daniel J. Mankowitz Doina Precup Bilal Piot

Published in: CoRR (2023)

Keyphrases

human learning
motor skills
inductive inference
learning algorithm
supervised learning
active learning
human behavior
knowledge acquisition
learning process
reinforcement learning
data sets
online learning
mobile learning
machine learning
prior knowledge
genetic algorithm
neural network