Definition
Red-Teaming sondiert ein KI-System auf Fehler: Prompt-Injection, Jailbreaks, voreingenommene Ausgaben, schädliche Inhalte, Halluzinationen. Es ergänzt automatisierte Evals mit kreativer menschlicher (oder KI-gesteuerter) Angriffsgenerierung. Für Hochrisikoanwendungen ist Red-Teaming vor dem Launch nicht verhandelbar.
Beispiel
Ein Gesundheitsassistent wird mit 200 Prompts Red-Teamed, die versuchen, falsche Dosierungsempfehlungen zu erhalten.
Wie Vedwix das verwendet
Erforderlich für jede KI-Funktion mit Sicherheitsimplikationen. Wir führen automatisierte und manuelle Red-Team-Durchgänge durch.
Sie arbeiten an einem Projekt rund um Red-Teaming?
Red-Teaming.
Beschreiben Sie Ihr Projekt in drei Sätzen oder weniger.
Projekt starten