Glossar · Deutsch

Quantisierung

Reduzierung der numerischen Präzision von Modellgewichten, um Inferenz billiger und schneller zu machen.

Deutsch · German

Definition

Quantisierung konvertiert Modellgewichte von 32-Bit- oder 16-Bit-Floats zu 8-Bit- oder 4-Bit-Integern. Das Modell wird viel kleiner und schneller, mit einer kleinen Qualitätseinbuße. Gängige Formate sind GGUF, GPTQ, AWQ und bitsandbytes. Quantisierung ist essentiell für die Bereitstellung von LLMs im Maßstab oder auf Geräten.

Beispiel

Ein 7B-Parameter-Modell läuft mit 6 GB in FP16, ~3,5 GB in 4-Bit-Quantisierung — klein genug für ein Laptop.

Wie Vedwix das verwendet

Wir quantisieren feinabgestimmte Modelle für Produktionsbereitstellung — typischerweise Q5 oder Q6 GGUF für Balance.

Sie arbeiten an einem Projekt rund um Quantisierung?

Quantisierung.

Beschreiben Sie Ihr Projekt in drei Sätzen oder weniger.

Projekt starten

Quantisierung

Beschreiben Sie Ihr Projekt in drei Sätzen oder weniger.

Projekt starten