Definição
A inferência é o ato de usar um modelo treinado — distinto do treinamento. Para LLMs, a inferência é o que custa dinheiro em produção: cada chamada de API, cada resposta de chatbot, cada embedding. A otimização de inferência (batching, KV caching, quantização, decodificação especulativa) pode reduzir custos em 10x.
Exemplo
Um app faz 10 milhões de chamadas de inferência LLM por mês a uma média de $0,001 cada — $10k/mês.
Como a Vedwix usa isto
O custo de inferência é uma consideração de primeira classe em nossas decisões de arquitetura.
Trabalhando em um projeto de Inferência?
Inferência.
Descreva seu projeto em três frases ou menos.
Iniciar um projeto