Définition
Les transformers utilisent l'auto-attention pour traiter les séquences en parallèle, capturant les dépendances à longue distance que les anciens RNNs ne pouvaient pas. Introduits par l'article de 2017 "Attention Is All You Need", les transformers alimentent maintenant les modèles de langage, vision, audio et multimodaux. La variante decoder-only (GPT, Llama, Claude) domine les tâches de langage.
Exemple
GPT-4, Claude 3, Llama 3 et Gemini sont tous des transformers decoder-only.
Comment Vedwix utilise ceci
Fondamental. Nous entraînons rarement des transformers depuis zéro — fine-tuner une base solide est presque toujours mieux.
Vous travaillez sur un projet de Transformer?
Transformer.
Décrivez votre projet en trois phrases ou moins.
Démarrer un projet