{"entities":{"Q2177":{"pageid":2781,"ns":120,"title":"Item:Q2177","lastrevid":25192,"modified":"2026-01-27T13:42:47Z","type":"item","id":"Q2177","labels":{"en":{"language":"en","value":"Reinforcement learning with human feedback"},"de":{"language":"de","value":"Reinforcement Learning with Human Feedback"}},"descriptions":{"en":{"language":"en","value":"Training a model using human preferences"}},"aliases":{"en":[{"language":"en","value":"RLHF"}],"de":[{"language":"de","value":"RLHF"}]},"claims":{"P1":[{"mainsnak":{"snaktype":"value","property":"P1","hash":"eeeb93f060942e32c55619d3c566632964ef9a57","datavalue":{"value":{"entity-type":"item","numeric-id":2177,"id":"Q2177"},"type":"wikibase-entityid"},"datatype":"wikibase-item"},"type":"statement","id":"Q2177$be132e92-4ebb-9ebe-0e59-7924e51aa12c","rank":"normal"}]},"sitelinks":{}}}}