Definição
O red-teaming sondeia um sistema de IA para falhas: injeção de prompt, jailbreaks, saídas enviesadas, conteúdo prejudicial, alucinações. Complementa avaliações automatizadas com geração criativa de ataques humanos (ou orientados por IA). Para aplicações de alto risco, o red-teaming é não negociável antes do lançamento.
Exemplo
Um assistente de saúde é red-teamed com 200 prompts tentando obter conselhos incorretos de dosagem.
Como a Vedwix usa isto
Necessário para qualquer funcionalidade de IA com implicações de segurança. Executamos passagens automatizadas e manuais de red-team.
Trabalhando em um projeto de Red-teaming?
Red-teaming.
Descreva seu projeto em três frases ou menos.
Iniciar um projeto