Learning Goal-Conditioned Representations for Language Reward Models.

Vaskar Nath Dylan Slack Jeff Da Yuntao Ma Hugh Zhang Spencer Whitehead Sean Hendryx

Published in: CoRR (2024)

Keyphrases

reinforcement learning
learning process
learning systems
learning algorithm
prior knowledge
learning models
supervised learning
e learning
qualitative models
language learning
learning tasks
mobile learning
accurate models
online learning
natural language
feature representations
multiple representations
distributed representations
learned models
pattern languages
complex systems
unsupervised learning
programming language
dynamic programming