FP8やFP4のネイティブサポートと vLLM をつかった "fp8" 量子化

FP8やFP4のネイティブサポートと vLLM をつかった "fp8" 量子化

こんにちは、(株)Qualiteg プロダクト開発部です

最新モデルがリリースされたとき、推論速度を速くするために、いろいろな手法で量子化したり、複数の推論エンジンを使い分けたりしながら、正解をさがしにいくことが多いのですが、今回はそんな中で以下のような事象が発生いたしました。

当社もありとあらゆるGPUを取り揃えているわけではないので、あー、そういうことかぁ、と思ったので、本ブログにいたしました。

発生したエラー

vLLM 0.5.1 であるLLMをロードしようとしたときに発生したときに、以下のようなエラーが発生しました

ValueError: The quantization method fp8 is not supported for the current GPU. Minimum capability: 89. Current capability: 86 

原因は FP8 に対応していないGPU世代

GPUは NVIDIA RTX-A6000 で、以下のように OpenAI 互換サーバーで "fp8" 量子化を指定して起動しようとすると発生します。

python3 -m vllm.entrypoints.openai.api_server --model cyberagent/calm3-22b-chat --max-num-seqs 12 --quantization fp8 --chat-template="~/jinja/calm3_22b_chat.jinja"

原因は、RTX A6000 が FP8 を ネイティブでサポートしていない ため、でした。

つまり、この vLLM の FP8 量子化オプションはハードウェアが FP8演算に対応していたときのみ機能します。

(ちなみに、対応していないときは fp8_merlin という逃げ道もありますが、話がややこしくなるので別稿にて扱いたいと思います)

つまり、今回使用した GPU A6000 の capability levelは 86 (capability一覧)なので、FP8 量子化には対応していなかった、というオチとなります。

FP8 演算精度にネイティブに対応しているGPUたち

FP8(8ビット浮動小数点演算)は Hopper から加わった演算精度ですので、以下のようなGPUから使用することが可能です。

FP4 演算精度にネイティブに対応すると

さらに Capability 100 の Blackwell からは FP4 のネイティブサポートがありますので、おそらく vLLM も ネイティブ FP4 をサポートしてくるのではないでしょうか。

そうなると、そうした最新GPUの場合AWQやGPTQといった従来の専用のハードウェアアクセラレーションを前提としない「古典的」量子化手法とはまた別の「ネイティブ」量子化がでてくるため、どのくらいの差なのか、非常に興味深いところですね!

Read more

(株)Qualiteg、Startup JAPAN EXPO 2026 出展レポート

(株)Qualiteg、Startup JAPAN EXPO 2026 出展レポート

こんにちは! Qualitegビジ開マーケティング部です! 2026年4月15日(水)から16日(木)までの2日間、幕張メッセで開催された「Startup JAPAN EXPO 2026」(主催:Eight / Sansan株式会社)に、 株式会社Qualitegとして出展してまいりました! Startup JAPAN EXPO 2026 出展概要 項目内容会期2026年4月15日(水)〜16日(木) 各日10:00〜17:00会場幕張メッセ 展示ホール7・8ブース16-16主催Eight(Sansan株式会社) 今回の展示テーマは—— 「依頼は並列に、思考は止めず。」 主力プロダクト「Bestllam®」に新搭載されたAIエージェント機能と、AIセキュリティソリューション「LLM-Audit™」の実演デモを、2日間にわたってお届けしました。 ブース番号は 16-16。展示ホール7・8の一角に、今回も気合いを入れて陣を構えました💪 プレスリリース 株式会社Qualiteg、

By Qualiteg ビジネス開発本部 | マーケティング部
【プレスリリース】株式会社Qualiteg、「Startup JAPAN EXPO 2026」に出展-「Bestllam®」に、AIエージェント機能を搭載-

【プレスリリース】株式会社Qualiteg、「Startup JAPAN EXPO 2026」に出展-「Bestllam®」に、AIエージェント機能を搭載-

2026年4月13日 プレスリリース 株式会社Qualiteg、「Startup JAPAN EXPO 2026」に出展株式会社Qualitegのプレスリリース(2026年4月13日 10時00分)株式会社Qualiteg、「Startup JAPAN EXPO 2026」に出展PR TIMES株式会社Qualiteg 「Bestllam®」に、AIエージェント機能を搭載 ― 依頼は並列に、思考は止めず。日本企業の業務システムに溶け込む"働くAI"へ ― 生成AI導入・AIエージェント・業務自動化・コンサルティング 株式会社Qualiteg(本社:東京都千代田区、代表取締役:三澤智則)は、2026年4月15日(水)から16日(木)まで幕張メッセで開催される「Startup JAPAN EXPO 2026」(ブース番号:16-16)に出展いたします。 この度、

By Qualiteg ニュース
Anthropicが「強すぎて出せないモデル "Mythos"」を出した

Anthropicが「強すぎて出せないモデル "Mythos"」を出した

Project Glasswingが映し出す、防御側のパラダイム転換 すごいモデルが出た、らしい 2026年4月7日、AnthropicがClaude Mythos Previewという新しいAIモデルを発表しました。(Anthropic公式発表 / Anthropic技術解説) Anthropicは、ChatGPTで知られるOpenAIと並ぶ米国の大手AI企業のひとつで、Claudeシリーズと呼ばれる生成AIモデルを開発しています。 普段なら、新モデル発表は「より速く、より賢くなりました」というアップデートの話で、誰でも触れるようになるのが通例です。 ところが今回はだいぶ様子が違いました。 一般公開はされません。 アクセスできるのは選ばれた一部のパートナーだけ。 同時に立ち上げられた業界横断プロジェクト「Project Glasswing」の枠組みの中で、防御目的に絞って提供される、という発表でした。 ただ、この話を「危険なAIが出た」の一言で受け止めると、もっと重要なところを取り逃してしまいます。 少し腰を据えて見ていきましょう! どのくらい「とんでも

By Qualiteg コンサルティング, Qualiteg AIセキュリティチーム