Aligning as Debiasing: Causality-Aware Alignment via Reinforcement Learning with Interventional Feedback.

Published in: NAACL-HLT (2024)

Keyphrases