Reinforcement learning with human feedback (Q2177): Difference between revisions

Revision as of 10:09, 13 October 2025

Training a model using human preferences

Language	Label	Description	Also known as
English	Reinforcement learning with human feedback	Training a model using human preferences	RLHF