量子化 [生成AI] – Site-Builder.wiki

2025-09-27

GGUF

レガシー

固定ビットレート

Q4_0
Q4_1
Q5_0
Q5_1
Q8_0

※ Q の後の数値は量子化ビット数を表している。

K 量子化

可変ビットレート

Q2_K
Q3_K_S / Q3_K_M / Q3_K_L
Q4_K_S / Q4_K_M / Q4_K_L
Q5_K_S / Q5_K_M / Q5_K_L
Q6_K

※ Q の後の数値はおよそのビットレートを表しており、同じビットレートランク内では S / M / L の順に実際のビットレートが大きくなり、量子化誤差が小さくなる。

ドキュメント：

GGUF – ggml-org/ggml – GitHub

GGUF | Hugging Face Docs

参考：

GGUF ファイルの量子化タイプについて | bilzard

Importance Matrix による新しい量子化手法を試す | ローカル LLM 自由帳

複雑化する量子化バリエーションの整理 | ローカル LLM 自由帳

量子化バリエーションを整理する (llama.cpp) | Baku

GGML から GGUF へ／llama.cpp のファイルフォーマット変更 | Baku

Overview of GGUF quantization methods – reddit

解説

参考：

わかる！ LLM の量子化 | NTTPC

リポジトリ

ggml-org/llama.cpp: LLM Inference in C/C++ -GitHub

まとめ

GGML / GGUF / GPTQ の違い | kun432

記事をシェアする：

タグ： AI

コメントを残すコメントをキャンセル

Protected by reCAPTCHA

Privacy - Terms