Glossário · Português

Cache de prompts

Cache em nível de API de prefixos de prompts para reduzir custo e latência em chamadas repetidas.

Português · Portuguese

Definição

O cache de prompts armazena o prefixo de um prompt no lado do servidor. Quando o mesmo prefixo é reutilizado, você paga uma fração do custo dos tokens de entrada e obtém respostas mais rápidas. Tanto Anthropic quanto OpenAI oferecem mecanismos de prompt em cache. Melhor prática: estruturar prompts com as instruções estáticas do sistema e o grande contexto primeiro, entrada dinâmica do usuário por último.

Exemplo

Um chatbot de documentação faz cache de seu prompt de sistema de 5.000 tokens; chamadas subsequentes custam ~10% de uma chamada não-cacheada.

Como a Vedwix usa isto

Sempre ativo para qualquer app com um prompt de sistema substancial. Frequentemente uma economia de custo de 30-70%.

Trabalhando em um projeto de Cache de prompts?

Cache de prompts.

Descreva seu projeto em três frases ou menos.

Iniciar um projeto

Mais termos de AI

RAGAI Fine-tuningAI EmbeddingAI Vector DatabaseAI Hybrid SearchAI RerankerAI

Cache de prompts

Descreva seu projeto em três frases ou menos.

Iniciar um projeto