Reinforcement Learning with Token-level Feedback for Controllable Text Generation.

Wendi Li Wei Wei Kaihe Xu Wenfeng Xie Dangyang Chen Yu Cheng

Published in: CoRR (2024)

Keyphrases

text generation
reinforcement learning
natural language generation
state space
machine learning
artificial intelligence
natural language
real time
supervised learning
function approximation
model free
feedback mechanisms
reinforcement learning algorithms
theorem prover
markov decision processes
transfer learning
higher level
probability distribution