Definición
La inferencia es el acto de usar un modelo entrenado — distinto del entrenamiento. Para LLMs, la inferencia es lo que cuesta dinero en producción: cada llamada API, cada respuesta de chatbot, cada embedding. La optimización de inferencia (batching, KV caching, cuantificación, decodificación especulativa) puede reducir los costos en 10x.
Ejemplo
Una app hace 10 millones de llamadas de inferencia LLM por mes a un promedio de $0.001 cada una — $10k/mes.
Cómo Vedwix usa esto
El costo de inferencia es una consideración de primera clase en nuestras decisiones de arquitectura.
Trabajando en un proyecto de Inferencia?
Inferencia.
Cuéntanos sobre tu proyecto en tres frases o menos.
Iniciar un proyecto