GGUF
レガシー
固定ビットレート
- Q4_0
- Q4_1
- Q5_0
- Q5_1
- Q8_0
※ Q の後の数値は量子化ビット数を表している。
K 量子化
可変ビットレート
- Q2_K
- Q3_K_S / Q3_K_M / Q3_K_L
- Q4_K_S / Q4_K_M / Q4_K_L
- Q5_K_S / Q5_K_M / Q5_K_L
- Q6_K
※ Q の後の数値はおよそのビットレートを表しており、同じビットレートランク内では S / M / L の順に実際のビットレートが大きくなり、量子化誤差が小さくなる。
ドキュメント:
参考:
GGUF ファイルの量子化タイプについて | bilzard
Importance Matrix による新しい量子化手法を試す | ローカル LLM 自由帳
複雑化する量子化バリエーションの整理 | ローカル LLM 自由帳
量子化バリエーションを整理する (llama.cpp) | Baku
GGML から GGUF へ/llama.cpp のファイルフォーマット変更 | Baku
Overview of GGUF quantization methods – reddit
解説
参考:
リポジトリ
ggml-org/llama.cpp: LLM Inference in C/C++ -GitHub