Definición
La cuantificación convierte los pesos del modelo de flotantes de 32 bits o 16 bits a enteros de 8 bits o 4 bits. El modelo se vuelve mucho más pequeño y rápido, con una pequeña penalización de calidad. Los formatos comunes incluyen GGUF, GPTQ, AWQ, y bitsandbytes. La cuantificación es esencial para servir LLMs a escala o en dispositivos.
Ejemplo
Un modelo de 7 mil millones de parámetros se ejecuta en 6 GB en FP16, ~3.5 GB en cuantificación de 4 bits — lo suficientemente pequeño para una laptop.
Cómo Vedwix usa esto
Cuantificamos modelos ajustados finamente para servir en producción — típicamente Q5 o Q6 GGUF para equilibrio.
Trabajando en un proyecto de Cuantificación?
Cuantificación.
Cuéntanos sobre tu proyecto en tres frases o menos.
Iniciar un proyecto