Definition
Quantisierung konvertiert Modellgewichte von 32-Bit- oder 16-Bit-Floats zu 8-Bit- oder 4-Bit-Integern. Das Modell wird viel kleiner und schneller, mit einer kleinen Qualitätseinbuße. Gängige Formate sind GGUF, GPTQ, AWQ und bitsandbytes. Quantisierung ist essentiell für die Bereitstellung von LLMs im Maßstab oder auf Geräten.
Beispiel
Ein 7B-Parameter-Modell läuft mit 6 GB in FP16, ~3,5 GB in 4-Bit-Quantisierung — klein genug für ein Laptop.
Wie Vedwix das verwendet
Wir quantisieren feinabgestimmte Modelle für Produktionsbereitstellung — typischerweise Q5 oder Q6 GGUF für Balance.
Sie arbeiten an einem Projekt rund um Quantisierung?
Quantisierung.
Beschreiben Sie Ihr Projekt in drei Sätzen oder weniger.
Projekt starten