Glossaire · Français

Inférence

Le processus d'exécuter un modèle déjà entraîné pour produire des prédictions ou générations.

Français · French

Définition

L'inférence est l'acte d'utiliser un modèle entraîné — distinct de l'entraînement. Pour les LLMs, l'inférence est ce qui coûte de l'argent en production : chaque appel API, chaque réponse de chatbot, chaque embedding. L'optimisation d'inférence (batching, KV caching, quantification, décodage spéculatif) peut faire chuter les coûts de 10x.

Exemple

Une application fait 10 millions d'appels d'inférence LLM par mois à une moyenne de $0,001 chacun — $10k/mois.

Comment Vedwix utilise ceci

Le coût d'inférence est une considération de premier ordre dans nos décisions d'architecture.

Vous travaillez sur un projet de Inférence?

Inférence.

Décrivez votre projet en trois phrases ou moins.

Démarrer un projet

Inférence

Décrivez votre projet en trois phrases ou moins.

Démarrer un projet