Reinforcement learning with human feedback (Q2177): Difference between revisions

Latest revision as of 13:42, 27 January 2026

Training a model using human preferences

Language	Label	Description	Also known as
English	Reinforcement learning with human feedback	Training a model using human preferences	RLHF

0 references

Revision as of 12:51, 13 October 2025 Leonie (talk \| contribs) (‎Created claim: depends on (P1): Machine learning (Q2167)) ← Older edit		Latest revision as of 13:42, 27 January 2026 Leonie (talk \| contribs) (‎Changed claim: depends on (P1): Reinforcement learning with human feedback (Q2177))
Property / depends on		Property / depends on
	~~Machine learning~~		Reinforcement learning with human feedback