Definição
O cache de prompts armazena o prefixo de um prompt no lado do servidor. Quando o mesmo prefixo é reutilizado, você paga uma fração do custo dos tokens de entrada e obtém respostas mais rápidas. Tanto Anthropic quanto OpenAI oferecem mecanismos de prompt em cache. Melhor prática: estruturar prompts com as instruções estáticas do sistema e o grande contexto primeiro, entrada dinâmica do usuário por último.
Exemplo
Um chatbot de documentação faz cache de seu prompt de sistema de 5.000 tokens; chamadas subsequentes custam ~10% de uma chamada não-cacheada.
Como a Vedwix usa isto
Sempre ativo para qualquer app com um prompt de sistema substancial. Frequentemente uma economia de custo de 30-70%.
Trabalhando em um projeto de Cache de prompts?
Cache de prompts.
Descreva seu projeto em três frases ou menos.
Iniciar um projeto