Glossaire · Français

Caching de prompts

Mise en cache au niveau API des préfixes de prompts pour réduire le coût et la latence sur les appels répétés.

Français · French

Définition

Le caching de prompts stocke le préfixe d'un prompt côté serveur. Quand le même préfixe est réutilisé, vous payez une fraction du coût des tokens d'entrée et obtenez des réponses plus rapides. Anthropic et OpenAI offrent tous deux des mécanismes de prompt en cache. Bonne pratique : structurer les prompts avec les instructions système statiques et le grand contexte en premier, l'entrée utilisateur dynamique en dernier.

Exemple

Un chatbot de documentation cache son prompt système de 5 000 tokens ; les appels suivants coûtent ~10% d'un appel non-mis-en-cache.

Comment Vedwix utilise ceci

Toujours actif pour toute application avec un prompt système substantiel. Souvent une économie de coût de 30-70%.

Vous travaillez sur un projet de Caching de prompts?

Caching de prompts.

Décrivez votre projet en trois phrases ou moins.

Démarrer un projet

Caching de prompts

Décrivez votre projet en trois phrases ou moins.

Démarrer un projet