FP8やFP4のネイティブサポートと vLLM をつかった "fp8" 量子化

FP8やFP4のネイティブサポートと vLLM をつかった "fp8" 量子化

こんにちは、(株)Qualiteg プロダクト開発部です

最新モデルがリリースされたとき、推論速度を速くするために、いろいろな手法で量子化したり、複数の推論エンジンを使い分けたりしながら、正解をさがしにいくことが多いのですが、今回はそんな中で以下のような事象が発生いたしました。

当社もありとあらゆるGPUを取り揃えているわけではないので、あー、そういうことかぁ、と思ったので、本ブログにいたしました。

発生したエラー

vLLM 0.5.1 であるLLMをロードしようとしたときに発生したときに、以下のようなエラーが発生しました

ValueError: The quantization method fp8 is not supported for the current GPU. Minimum capability: 89. Current capability: 86 

原因は FP8 に対応していないGPU世代

GPUは NVIDIA RTX-A6000 で、以下のように OpenAI 互換サーバーで "fp8" 量子化を指定して起動しようとすると発生します。

python3 -m vllm.entrypoints.openai.api_server --model cyberagent/calm3-22b-chat --max-num-seqs 12 --quantization fp8 --chat-template="~/jinja/calm3_22b_chat.jinja"

原因は、RTX A6000 が FP8 を ネイティブでサポートしていない ため、でした。

つまり、この vLLM の FP8 量子化オプションはハードウェアが FP8演算に対応していたときのみ機能します。

(ちなみに、対応していないときは fp8_merlin という逃げ道もありますが、話がややこしくなるので別稿にて扱いたいと思います)

つまり、今回使用した GPU A6000 の capability levelは 86 (capability一覧)なので、FP8 量子化には対応していなかった、というオチとなります。

FP8 演算精度にネイティブに対応しているGPUたち

FP8(8ビット浮動小数点演算)は Hopper から加わった演算精度ですので、以下のようなGPUから使用することが可能です。

FP4 演算精度にネイティブに対応すると

さらに Capability 100 の Blackwell からは FP4 のネイティブサポートがありますので、おそらく vLLM も ネイティブ FP4 をサポートしてくるのではないでしょうか。

そうなると、そうした最新GPUの場合AWQやGPTQといった従来の専用のハードウェアアクセラレーションを前提としない「古典的」量子化手法とはまた別の「ネイティブ」量子化がでてくるため、どのくらいの差なのか、非常に興味深いところですね!

Read more

【出展報告】ASCII STARTUP TechDay 2025

【出展報告】ASCII STARTUP TechDay 2025

こんにちは! 本日、「ASCII STARTUP TechDay 2025」に出展してまいりましたのでレポートさせていただきます! ASCII STARTUP TechDay 2025 ASCII STARTUP TechDay 2025は、2025年11月17日(月)に東京・浅草橋ヒューリックホール&カンファレンスで開催された、ディープテック・スタートアップのエコシステム構築をテーマにした展示交流・カンファレンスイベントです。 秋の展示会は本当にいいですね 本日はとてもよいお天気で、涼しくて、展示会にはピッタリの気候で朝からルンルンでした。しかも午後からの展示会ということで、気持ちに余裕をもって朝の業務をこなしていたところ、けっこうすぐに昼前になり、あわてて現場へ。 浅草橋は当社からもわりと近いという立地の良さを甘く見ておりましたが💦、なんとか予定時刻前に到着しました。やっぱり、都心開催は本当にありがたいですね。 会場へ急いでいると、おなかが「ぐ~」と鳴り 「そういえば、朝食まだだったわ」 とおもったところに、なんと私の大好きなエッセンさん🍞のトラックがあるで

By Qualiteg ビジネス開発本部 | マーケティング部
サブスクビジネス完全攻略 第1回~『アープがさぁ...』『チャーンがさぁ...』にもう困らない完全ガイド

サブスクビジネス完全攻略 第1回~『アープがさぁ...』『チャーンがさぁ...』にもう困らない完全ガイド

なぜサブスクリプションモデルが世界を変えているのか、でもAI台頭でSaaSは終わってしまうの? こんにちは! Qualitegコンサルティングです! 新規事業戦略コンサルタントとして日々クライアントと向き合う中で、ここ最近特に増えているのがSaaSビジネスに関する相談です。興味深いのは、その背景にある動機の多様性です。純粋に収益モデルを改善したい企業もあれば、 「SaaS化を通じて、うちもデジタルネイティブ企業として見られたい」 という願望を持つ伝統的な大企業も少なくありません。 SaaSという言葉が日本のビジネスシーンに本格的に浸透し始めたのは2010年代前半。それから約15年が経ち、今やSaaSは「先進的な企業の証」のように扱われています。 まず SaaSは「サーズ」と読みます。 (「サース」でも間違ではありません、どっちもアリです) ほかにも、 MRR、ARR、アープ、チャーンレート、NRR、Rule of 40…… こうした横文字が飛び交う経営会議に、戸惑いながらも「乗り遅れてはいけない」と焦る新規事業担当者の姿をよく目にします。 しかし一方で、2024

By Qualiteg コンサルティング
ASCII STARTUP TechDay 2025に出展します!

ASCII STARTUP TechDay 2025に出展します!

株式会社Qualitegは、2025年11月17日(月)に東京・浅草橋ヒューリックホール&カンファレンスで開催される「ASCII STARTUP TechDay 2025」に出展いたします。 イベント概要 「ASCII STARTUP TechDay 2025」は、日本のディープテックエコシステムを次のレベルへ押し上げ、新産業を創出するイノベーションカンファレンスです。ディープテック・スタートアップの成長を支えるエコシステムの構築、そして成長・発展を目的に、学術、産業、行政の垣根を越えて知を結集する場として開催されます。 開催情報 * 日時:2025年11月17日(月)13:00~18:00 * 会場:東京・浅草橋ヒューリックホール&カンファレンス * 住所:〒111-0053 東京都台東区浅草橋1-22-16ヒューリック浅草橋ビル * アクセス:JR総武線「浅草橋駅(西口)」より徒歩1分 出展内容 当社ブースでは、以下の3つの主要サービスをご紹介いたします。 1.

By Qualiteg ニュース
大企業のAIセキュリティを支える基盤技術 - 今こそ理解するActive Directory 第4回 プロキシサーバーと統合Windows認証

大企業のAIセキュリティを支える基盤技術 - 今こそ理解するActive Directory 第4回 プロキシサーバーと統合Windows認証

11月に入り、朝晩の冷え込みが本格的になってきましたね。オフィスでも暖房を入れ始めた方も多いのではないでしょうか。 温かいコーヒーを片手に、シリーズ第4回「プロキシサーバーと統合Windows認証」をお届けします。 さて、前回(第3回)は、クライアントPCやサーバーをドメインに参加させる際の「信頼関係」の確立について深掘りしました。コンピューターアカウントが120文字のパスワードで自動認証される仕組みを理解いただけたことで、今回のプロキシサーバーの話もスムーズに入っていけるはずです。 ChatGPTやClaudeへのアクセスを監視する中間プロキシを構築する際、最も重要なのが「確実なユーザー特定」です。せっかくHTTPS通信をインターセプトして入出力内容を記録できても、アクセス元が「tanaka_t」なのか「yamada_h」なのかが分からなければ、監査ログとしての価値は半減してしまいます。 今回は、プロキシサーバー自体をドメインメンバーとして動作させることで、Kerberosチケットの検証を可能にし、透過的なユーザー認証を実現する方法を詳しく解説します。Windows版Squid

By Qualiteg AIセキュリティチーム