Glossaire · Français

Quantification

Réduire la précision numérique des poids du modèle pour rendre l'inférence moins chère et plus rapide.

Français · French

Définition

La quantification convertit les poids du modèle de flottants 32 bits ou 16 bits en entiers 8 bits ou 4 bits. Le modèle devient beaucoup plus petit et plus rapide, avec une petite pénalité de qualité. Les formats courants incluent GGUF, GPTQ, AWQ et bitsandbytes. La quantification est essentielle pour servir des LLMs à grande échelle ou sur appareil.

Exemple

Un modèle à 7B paramètres tourne à 6 GB en FP16, ~3,5 GB en quantification 4 bits — assez petit pour un laptop.

Comment Vedwix utilise ceci

Nous quantifions les modèles fine-tunés pour le serving en production — typiquement Q5 ou Q6 GGUF pour l'équilibre.

Vous travaillez sur un projet de Quantification?

Quantification.

Décrivez votre projet en trois phrases ou moins.

Démarrer un projet

Quantification

Décrivez votre projet en trois phrases ou moins.

Démarrer un projet