Glossário · Português

Cache de prompts

Cache em nível de API de prefixos de prompts para reduzir custo e latência em chamadas repetidas.

Português · Portuguese

Definição

O cache de prompts armazena o prefixo de um prompt no lado do servidor. Quando o mesmo prefixo é reutilizado, você paga uma fração do custo dos tokens de entrada e obtém respostas mais rápidas. Tanto Anthropic quanto OpenAI oferecem mecanismos de prompt em cache. Melhor prática: estruturar prompts com as instruções estáticas do sistema e o grande contexto primeiro, entrada dinâmica do usuário por último.

Exemplo

Um chatbot de documentação faz cache de seu prompt de sistema de 5.000 tokens; chamadas subsequentes custam ~10% de uma chamada não-cacheada.

Como a Vedwix usa isto

Sempre ativo para qualquer app com um prompt de sistema substancial. Frequentemente uma economia de custo de 30-70%.

Trabalhando em um projeto de Cache de prompts?

Cache de prompts.

Descreva seu projeto em três frases ou menos.

Iniciar um projeto

Cache de prompts

Descreva seu projeto em três frases ou menos.

Iniciar um projeto