Definição
A atenção calcula relações ponderadas entre cada par de tokens em uma sequência. Isso é o que dá aos transformers sua capacidade de raciocínio de longo alcance. A atenção multi-cabeças roda muitos cálculos de atenção em paralelo, cada um aprendendo diferentes padrões relacionais. Variantes modernas (FlashAttention, atenção esparsa) tornam a atenção computacionalmente tratável em sequências longas.
Exemplo
Em "O gato sentou no tapete porque estava cansado", a atenção ajuda o modelo a ligar "estava" a "gato" em vez de "tapete".
Como a Vedwix usa isto
Conceitual; raramente algo que ajustamos diretamente exceto em modelos treinados sob medida.
Trabalhando em um projeto de Mecanismo de atenção?
Mecanismo de atenção.
Descreva seu projeto em três frases ou menos.
Iniciar um projeto