Glosario · Español

Cuantificación

Reducir la precisión numérica de los pesos del modelo para hacer la inferencia más barata y rápida.

Español · Spanish

Definición

La cuantificación convierte los pesos del modelo de flotantes de 32 bits o 16 bits a enteros de 8 bits o 4 bits. El modelo se vuelve mucho más pequeño y rápido, con una pequeña penalización de calidad. Los formatos comunes incluyen GGUF, GPTQ, AWQ, y bitsandbytes. La cuantificación es esencial para servir LLMs a escala o en dispositivos.

Ejemplo

Un modelo de 7 mil millones de parámetros se ejecuta en 6 GB en FP16, ~3.5 GB en cuantificación de 4 bits — lo suficientemente pequeño para una laptop.

Cómo Vedwix usa esto

Cuantificamos modelos ajustados finamente para servir en producción — típicamente Q5 o Q6 GGUF para equilibrio.

Trabajando en un proyecto de Cuantificación?

Cuantificación.

Cuéntanos sobre tu proyecto en tres frases o menos.

Iniciar un proyecto

Cuantificación

Cuéntanos sobre tu proyecto en tres frases o menos.

Iniciar un proyecto