用語集 · 日本語

DPO (直接選好最適化)

報酬モデルなしで選好ペアで直接訓練するRLHFのよりシンプルな代替。

日本語 · Japanese

定義

DPOは、選好ペアでの単一の訓練目的でRLHFの2段階プロセス(報酬モデル+RL)を置き換えます。実装が大幅に簡単で、別の報酬モデルを必要とせず、しばしば同等の品質を生成します。DPOはフロンティアラボの外でデフォルトの選好アラインメント方法になっています。

チームは、DPOを使用して数時間の訓練で10kの選好ペア(「応答Aは応答Bより良い」)でLlama 3モデルを整列させます。

Vedwixでの使用方法

SFTだけでは適切なトーンや判断を生み出さない場合に選択的に使用されます。

プロジェクトでお困りですか DPO (直接選好最適化)?

DPO (直接選好最適化).

3つの文章でプロジェクトについてお聞かせください。

プロジェクトを開始

DPO (直接選好最適化)

3つの文章でプロジェクトについてお聞かせください。

プロジェクトを開始