Reinforcement learning with human feedback (Q2177): Difference between revisions

Latest revision as of 13:42, 27 January 2026

Training a model using human preferences

Language	Label	Description	Also known as
English	Reinforcement learning with human feedback	Training a model using human preferences	RLHF

0 references

Revision as of 10:09, 13 October 2025 Leonie (talk \| contribs) (‎Created a new Item)	Latest revision as of 13:42, 27 January 2026 Leonie (talk \| contribs) (‎Changed claim: depends on (P1): Reinforcement learning with human feedback (Q2177))
(One intermediate revision by the same user not shown)
	Property / depends on
		Reinforcement learning with human feedback
	Property / depends on: Reinforcement learning with human feedback / rank
		Normal rank