定義
RLHFは、モデルを人間の好みに合わせるように訓練します。SFT後、人間が複数のモデル出力をランク付けし、報酬モデルがこれらの好みを予測するように訓練され、その後LLMが報酬を最大化するようにファインチューニングされます。RLHF(およびDPOのようなその代替)は、フロンティアモデルがその有用性と安全性の動作を獲得する方法です。
例
GPT-4のためのOpenAIのポストトレーニングパイプラインは、モデルを人間の好みに合わせるためにRLHFを広範に使用します。
Vedwixでの使用方法
クライアント作業ではまれです — RLHFは規模を必要とします。小さなアラインメントタスクのためにDPOをたまに使用します。