Glossar · Deutsch

Inferenz

Der Prozess, ein bereits trainiertes Modell auszuführen, um Vorhersagen oder Generierungen zu produzieren.

Deutsch · German

Definition

Inferenz ist der Akt, ein trainiertes Modell zu verwenden — unterschiedlich vom Training. Für LLMs ist Inferenz das, was in Produktion Geld kostet: jeder API-Aufruf, jede Chatbot-Antwort, jedes Embedding. Inferenzoptimierung (Batching, KV-Caching, Quantisierung, spekulative Dekodierung) kann die Kosten um das 10-fache senken.

Beispiel

Eine App macht 10 Millionen LLM-Inferenzaufrufe pro Monat zu durchschnittlich $0,001 pro Aufruf — $10k/Monat.

Wie Vedwix das verwendet

Inferenzkosten sind eine erstklassige Überlegung in unseren Architekturentscheidungen.

Sie arbeiten an einem Projekt rund um Inferenz?

Inferenz.

Beschreiben Sie Ihr Projekt in drei Sätzen oder weniger.

Projekt starten

Inferenz

Beschreiben Sie Ihr Projekt in drei Sätzen oder weniger.

Projekt starten