Definición
Los Transformers usan auto-atención para procesar secuencias en paralelo, capturando dependencias de largo alcance que las antiguas RNNs no podían. Introducidos por el artículo de 2017 "Attention Is All You Need", los transformers ahora impulsan modelos de lenguaje, visión, audio y multimodales. La variante solo decodificador (GPT, Llama, Claude) domina las tareas de lenguaje.
Ejemplo
GPT-4, Claude 3, Llama 3 y Gemini son todos transformers solo decodificador.
Cómo Vedwix usa esto
Fundacional. Rara vez entrenamos transformers desde cero — ajustar finamente una base fuerte es casi siempre mejor.
Trabajando en un proyecto de Transformer?
Transformer.
Cuéntanos sobre tu proyecto en tres frases o menos.
Iniciar un proyecto