Definition
RLHF trainiert ein Modell, um sich an menschlichen Präferenzen auszurichten. Nach SFT bewerten Menschen mehrere Modellausgaben, ein Belohnungsmodell wird trainiert, um diese Präferenzen vorherzusagen, und dann wird das LLM feinabgestimmt, um die Belohnung zu maximieren. RLHF (und seine Alternativen wie DPO) sind, wie Frontier-Modelle ihr Hilfreichkeits- und Sicherheitsverhalten erhalten.
Beispiel
OpenAIs Post-Training-Pipeline für GPT-4 verwendet RLHF intensiv, um das Modell an menschlichen Präferenzen auszurichten.
Wie Vedwix das verwendet
Selten in Kundenarbeit — RLHF braucht Skalierung. Wir verwenden DPO gelegentlich für kleinere Ausrichtungsaufgaben.
Sie arbeiten an einem Projekt rund um RLHF?
RLHF.
Beschreiben Sie Ihr Projekt in drei Sätzen oder weniger.
Projekt starten