Glossar · Deutsch

RLHF

Reinforcement Learning from Human Feedback: Training eines Modells basierend auf menschlichen Präferenz-Rankings von Ausgaben.

Deutsch · German

Definition

RLHF trainiert ein Modell, um sich an menschlichen Präferenzen auszurichten. Nach SFT bewerten Menschen mehrere Modellausgaben, ein Belohnungsmodell wird trainiert, um diese Präferenzen vorherzusagen, und dann wird das LLM feinabgestimmt, um die Belohnung zu maximieren. RLHF (und seine Alternativen wie DPO) sind, wie Frontier-Modelle ihr Hilfreichkeits- und Sicherheitsverhalten erhalten.

Beispiel

OpenAIs Post-Training-Pipeline für GPT-4 verwendet RLHF intensiv, um das Modell an menschlichen Präferenzen auszurichten.

Wie Vedwix das verwendet

Selten in Kundenarbeit — RLHF braucht Skalierung. Wir verwenden DPO gelegentlich für kleinere Ausrichtungsaufgaben.

Sie arbeiten an einem Projekt rund um RLHF?

RLHF.

Beschreiben Sie Ihr Projekt in drei Sätzen oder weniger.

Projekt starten

RLHF

Beschreiben Sie Ihr Projekt in drei Sätzen oder weniger.

Projekt starten