GGUF

レガシー

固定ビットレート

  • Q4_0
  • Q4_1
  • Q5_0
  • Q5_1
  • Q8_0

※ Q の後の数値は量子化ビット数を表している。

K 量子化

可変ビットレート

  • Q2_K
  • Q3_K_S / Q3_K_M / Q3_K_L
  • Q4_K_S / Q4_K_M / Q4_K_L
  • Q5_K_S / Q5_K_M / Q5_K_L
  • Q6_K

※ Q の後の数値はおよそのビットレートを表しており、同じビットレートランク内では S / M / L の順に実際のビットレートが大きくなり、量子化誤差が小さくなる。

ドキュメント:

GGUF – ggml-org/ggml – GitHub

GGUF | Hugging Face Docs

参考:

GGUF ファイルの量子化タイプについて | bilzard

Importance Matrix による新しい量子化手法を試す | ローカル LLM 自由帳

複雑化する量子化バリエーションの整理 | ローカル LLM 自由帳

 量子化バリエーションを整理する (llama.cpp) | Baku

GGML から GGUF へ/llama.cpp のファイルフォーマット変更 | Baku

Overview of GGUF quantization methods – reddit

解説

参考:

わかる! LLM の量子化 | NTTPC

リポジトリ

ggml-org/llama.cpp: LLM Inference in C/C++ -GitHub

まとめ

GGML / GGUF / GPTQ の違い | kun432

記事をシェアする:
タグ:

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です

Protected by reCAPTCHA