FP8やFP4のネイティブサポートと vLLM をつかった "fp8" 量子化
こんにちは、(株)Qualiteg プロダクト開発部です 最新モデルがリリースされたとき、推論速度を速くするために、いろいろな手法で量子化したり、複数の推論エンジンを使い分けたりしながら、正解をさがしにいくことが多いのですが、今回はそんな中で以下のような事象が発生いたしました。 当社もありとあらゆるGPUを取り揃えているわけではないので、あー、そういうことかぁ、と思ったので、本ブログにいたしました。 発生したエラー vLLM 0.5.1 であるLLMをロードしようとしたときに発生したときに、以下のようなエラーが発生しました ValueError: The quantization method fp8 is not supported for the current GPU. Minimum capability: 89. Current capability: 86 原因は FP8 に対応していないGPU世代 GPUは NVIDIA RTX-A6000 で、以下のように OpenAI 互換サーバーで