定義
DPOは、選好ペアでの単一の訓練目的でRLHFの2段階プロセス(報酬モデル+RL)を置き換えます。実装が大幅に簡単で、別の報酬モデルを必要とせず、しばしば同等の品質を生成します。DPOはフロンティアラボの外でデフォルトの選好アラインメント方法になっています。
例
チームは、DPOを使用して数時間の訓練で10kの選好ペア(「応答Aは応答Bより良い」)でLlama 3モデルを整列させます。
Vedwixでの使用方法
SFTだけでは適切なトーンや判断を生み出さない場合に選択的に使用されます。
DPOは、選好ペアでの単一の訓練目的でRLHFの2段階プロセス(報酬モデル+RL)を置き換えます。実装が大幅に簡単で、別の報酬モデルを必要とせず、しばしば同等の品質を生成します。DPOはフロンティアラボの外でデフォルトの選好アラインメント方法になっています。
チームは、DPOを使用して数時間の訓練で10kの選好ペア(「応答Aは応答Bより良い」)でLlama 3モデルを整列させます。
SFTだけでは適切なトーンや判断を生み出さない場合に選択的に使用されます。