Glossário · Português

DPO (Otimização Direta de Preferências)

Uma alternativa mais simples ao RLHF que treina diretamente em pares de preferência sem um modelo de recompensa.

Português · Portuguese

Definição

DPO substitui o processo de duas etapas do RLHF (modelo de recompensa + RL) por um único objetivo de treinamento em pares de preferência. É significativamente mais fácil de implementar, não requer um modelo de recompensa separado e frequentemente produz qualidade comparável. DPO se tornou o método padrão de alinhamento de preferências fora dos laboratórios de fronteira.

Exemplo

Uma equipe alinha um modelo Llama 3 em 10k pares de preferência ("resposta A é melhor que resposta B") usando DPO em poucas horas de treinamento.

Como a Vedwix usa isto

Usado seletivamente quando SFT sozinho não produz o tom ou julgamento certo.

Trabalhando em um projeto de DPO (Otimização Direta de Preferências)?

DPO (Otimização Direta de Preferências).

Descreva seu projeto em três frases ou menos.

Iniciar um projeto

DPO (Otimização Direta de Preferências)

Descreva seu projeto em três frases ou menos.

Iniciar um projeto