用語集 · 日本語

量子化

推論を安価で高速にするためにモデル重みの数値精度を削減すること。

日本語 · Japanese

定義

量子化は、モデルの重みを32ビットまたは16ビットの浮動小数点から8ビットまたは4ビットの整数に変換します。モデルははるかに小さく高速になりますが、品質のペナルティは小さいです。一般的な形式には、GGUF、GPTQ、AWQ、bitsandbytesがあります。量子化は、規模やデバイス上でLLMを提供するのに不可欠です。

7Bパラメータモデルは、FP16で6 GB、4ビット量子化で約3.5 GBで実行されます — ラップトップに十分小さい。

Vedwixでの使用方法

本番サービングのためにファインチューニングされたモデルを量子化します — バランスのために通常Q5またはQ6 GGUFです。

プロジェクトでお困りですか 量子化?

量子化.

3つの文章でプロジェクトについてお聞かせください。

プロジェクトを開始

量子化

3つの文章でプロジェクトについてお聞かせください。

プロジェクトを開始