Définition
DPO remplace le processus en deux étapes de RLHF (modèle de récompense + RL) par un objectif d'entraînement unique sur des paires de préférences. Il est significativement plus facile à implémenter, ne nécessite pas de modèle de récompense séparé et produit souvent une qualité comparable. DPO est devenu la méthode d'alignement de préférences par défaut en dehors des labos frontier.
Exemple
Une équipe aligne un modèle Llama 3 sur 10k paires de préférences ("la réponse A est meilleure que la réponse B") en utilisant DPO en quelques heures d'entraînement.
Comment Vedwix utilise ceci
Utilisé sélectivement quand SFT seul ne produit pas le bon ton ou jugement.
Vous travaillez sur un projet de DPO (Direct Preference Optimization)?
DPO (Direct Preference Optimization).
Décrivez votre projet en trois phrases ou moins.
Démarrer un projet