(株)Qualiteg - GPU - Qualiteg Blog (Page 2)

LLM

LLM推論基盤プロビジョニング講座　第4回推論エンジンの選定

こんにちは！前回までの講座では、LLMサービス構築に必要なリクエスト数の見積もりや、使用モデルの推論時消費メモリ計算について詳しく解説してきました。今回は7ステッププロセスの4番目、「推論エンジンの選定」について詳しく掘り下げていきます。 LLM推論基盤プロビジョニング講座シリーズ記事一覧 * 第1回基本概念と推論速度 * 第2回 LLMサービスのリクエスト数を見積もる * 第3回使用モデルの推論時消費メモリ見積もり * 第4回推論エンジンの選定 * 第5回 GPUノード構成から負荷試験までの実践プロセス * 番外編 KVキャッシュのオフロード戦略とGQA 推論エンジンとは何か推論エンジンとは、GPU上でLLMモデルの推論計算（テキスト生成）を効率的に行うために設計された専用のソフトウェアプログラムです。一般的なディープラーニングフレームワーク（PyTorch、TensorFlowなど）でも推論は可能ですが、実運用環境では専用の推論エンジンを使用することで、大幅なパフォーマンス向上とリソース効率化が期待できます。推論エンジンは単なる実行環境ではなく

LLM

LLM推論基盤プロビジョニング講座　第3回使用モデルの推論時消費メモリ見積もり

こんにちは！前回はLLMサービスへのリクエスト数見積もりについて解説しました。今回は7ステッププロセスの3番目、「使用モデルの推論時消費メモリ見積もり」について詳しく掘り下げていきます。 LLM推論基盤プロビジョニング講座シリーズ記事一覧 * 第1回基本概念と推論速度 * 第2回 LLMサービスのリクエスト数を見積もる * 第3回使用モデルの推論時消費メモリ見積もり * 第4回推論エンジンの選定 * 第5回 GPUノード構成から負荷試験までの実践プロセス * 番外編 KVキャッシュのオフロード戦略とGQA GPUメモリがリクエスト処理能力を決定する LLMサービス構築において、GPUが同時に処理できるリクエスト数はGPUメモリの消費量によって制約されます。つまり、利用可能なGPUメモリがどれだけあるかによって、同時に何件のリクエストを処理できるかがほぼ決まります。では、その具体例として、Llama3 8B（80億パラメータ）モデルをNVIDIA RTX A5000（24GB）にロードするケースを考えてみましょう。このGPUには24GBのGPU

LLM

LLM推論基盤プロビジョニング講座　第2回 LLMサービスのリクエスト数を見積もる

こんにちは！今回はLLM推論基盤プロビジョニング講座　第2回です！ LLM推論基盤プロビジョニング講座シリーズ記事一覧 * 第1回基本概念と推論速度 * 第2回 LLMサービスのリクエスト数を見積もる * 第3回使用モデルの推論時消費メモリ見積もり * 第4回推論エンジンの選定 * 第5回 GPUノード構成から負荷試験までの実践プロセス * 番外編 KVキャッシュのオフロード戦略とGQA STEP2 LLMサービスへのリクエスト数見積もりそれでは、早速、LLM推論基盤プロビジョニングの第2ステップである「リクエスト数見積もり」の重要性と方法を解説いたします。 LLMサービスを構築する際に必要となるGPUノード数を適切に見積もるためには、まずサービスに対して想定されるリクエスト数を正確に予測する必要があります。リクエスト数見積もりの基本的な考え方 LLMサービスへの想定リクエスト数から必要なGPUノード数を算出するプロセスは、サービス設計において非常に重要です。過小評価すればサービス品質が低下し、過大評価すれば無駄なコストが発生します。こ

LLM

LLM推論基盤プロビジョニング講座　第1回基本概念と推論速度

こんにちは！本日は LLMサービスの自社構築する際の推論基盤プロビジョニング、GPUプロビジョニングについて数回にわけて解説いたします。はじめに LLMの進化に伴い、ChatGPTやClaudeといったパブリックなLLMの活用は企業においても急速に広がってきました。しかし先進的な企業はこれらの汎用LLMに加えて、「領域特化型」「ドメイン特化型」といった専用LLMの構築へと歩みを進めています。こうした動きの背景には、企業固有の専門知識への対応力強化と情報セキュリティの確保という二つの重要なニーズがあります。一般的なパブリックLLMでは対応できない企業固有の専門知識や機密情報の取り扱いが必要なケースが増えているため、自社LLMの構築や自社サーバーでの運用を検討する企業が急増しています。特に金融、医療、製造、法務といった専門性の高い領域では、業界特化型の独自LLMが競争優位性をもたらすと認識されています。しかし、業界特化型のLLMを自社で運用することは簡単ではありません。自社運用を決断した場合、まず最初に取り組むべきは適切な推論環境の整備です。オンプレミス環境を構築するに

NumPy/PyTorch

GPUサービスで「Segmentation Fault 」に出会ったら～分析から解決までの実践アプローチ～

こんにちは！今日は仮想環境＋GPUなサービスにおける「Segmentation Fault」について、分析と対処法について書いてみたいと思います。 Segmentation Faultの本質と特徴 Segmentation Faultは、プログラムが保護されたメモリ領域にアクセスしようとした際にOSが発生させる例外です。今回は複数のGPUサービス（つまりＧＰＵを使うプロセス）が動作していて、そのうちの１つを再起動したときに発生しました。毎回発生するわけではありません。むしろ数百回の起動に1回程度ですが、1回でも発生すると絶望的な結果につながります。というのも、1つのGPUサービスの停止が SPOF となってサービス全体に影響が発生します。かつ、1回でも「Segmentation Fault」が発生してしまうと、その原因となったプロセスが二度と起動しなくなる、というやっかいな現象でした。このように「普段は正常に動作しているのに突然動かなくなる」というのがデバッグを非常に難しくします。とくにGPU＋仮想化の組み合わせで従来のC++アプリよりも発生確率がぐっとあがる印象

IT & AIテクノロジー

GPUサーバーの最適容量計算: キューイング理論と実践的モデル

最大ユーザーサポート数計算ツール同時に1件のみ処理できるGPU変換サーバーの最大ユーザーサポート数を計算します処理時間 (t_p) 分/件 1件の変換処理にかかる時間目標システム利用率 (ρ) 0 〜 1 安定稼働のための目標稼働率（推奨: 0.7〜0.8）ピーク係数 (P_c) 倍最も混雑する時間帯の平均アクセス倍率稼働時間 (H) 時間/日システムが1日に稼働している総時間アクセス確率 (P_a) 0 〜 1 1人のユーザーが1日にシステムを利用する確率 1ユーザーあたりの変換回数 (F) 回/日利用する日の平均変換処理回数計算過程を表示計算結果サポート可能な総ユーザー数: 人計算式: N = (ρ × μ × H) ÷ (P_a

NumPy/PyTorch

PyTorch 2.6 のセキュリティ: モデルチェックポイントロードの安全対策

こんにちは！今日は、魅力的なPyTorchチェックポイントが配られているからと言って無邪気に使っちゃうと、超ヤバイよ、というお話になります。みなさまモデルチェックポイントをロードする際のセキュリティリスクについて考えたことはありますでしょうか。実はモデルの重みファイルだとばかり思っていたチェックポイントが、思わぬセキュリティホールになる可能性があります。本記事では、PyTorchのtorch.load関数の安全性と、モデルチェックポイントを適切に扱うための実践的なガイドラインを紹介します。モデルチェックポイントの隠れた危険性 PyTorchのtorch.load関数は非常に便利な一方で、セキュリティ上の重大なリスクを含んでいます。その理由は、 * チェックポイント単なるパラメータだけではないよ！チェックポイントファイルには、モデルの重み（weights）だけでなく、クラスや関数など任意のPythonコードを含めることが可能です。 * 実行可能なコードが入ってるよ！これは、チェックポイントが単なる「データファイル」ではなく、Pytho

NumPy/PyTorch

本番運用におけるPyTorch+CUDAサーバーでの「Unknown Error」問題とその対策

こんにちは！Qualitegプロダクト開発部です。今日は、GPUをつかった商用サービスにて悩ましい、テストは全部通るけど、長時間運用をしていると急に起こる「CUDA error: unknown error」についての内容です。これ、出会うと残念な気持ちになりますが、けっこうGPU商用サービス界隈では「あるある」なんです。原因を真面目に探るには CUDAバージョン、PyTorchバージョンの調合具合、実際のアプリケーションコードまですべてソースまで追う必要があるのですが、多くの場合、運用でカバーします。なぜなら仮に１つ原因をみつけて対処できたとしても、CUDAバージョンはしょっちゅうあがりますし、PyTorchもそれに追従して頻繁に更新されます。さらにやっかいなことに、１日、２日、いや1週間くらいは安定的に動作しているようにみえて、数週間後にとつぜんエラーが出るといった具合なので、修正確認の難易度が高いんです。そこで本日は「開発環境や実験環境」ではなく「本番環境」で発生しがちなこのCUDA Unknown Error について問題の原因と実践的な対策につい

GPUマシン自作

2025年 NVIDIA GPU 一発検索ツール(2025/8/5更新)

NVIDIA GPU 一覧検索シリーズすべて SM_100 (Blackwell) SM_90 (Hopper) SM_89 (Ada Lovelace) SM_86/SM_87 (Ampere) SM_75 (Turing) SM_70/SM_72 (Volta) SM_60/SM_61/SM_62 (Pascal) SM_50/SM_52/SM_53 (Maxwell) SM_35/SM_37 (Kepler) SM_20 (Fermi)

LLM

[vLLM] To use CUDA with multiprocessing, you must use the 'spawn' start method の対処法

WSLで vLLM を使用するとき、 tensor parallel を使って複数枚のGPUで1つのLLMをサーブしようとしたとき以下のようなエラーが発生しがちです RuntimeError: Cannot re-initialize CUDA in forked subprocess. To use CUDA with multiprocessing, you must use the 'spawn' start method 遭遇するシーンとしてはvLLMの起動オプションに以下のようにテンソル並列化オプションを指定したときです。 --tensor-parallel-size 2 つまり、マルチプロセッシングでCUDA使うときは、 "fork"じゃなくて"spawn" 使ってね、というエラーです。これを vLLM に教えるために、以下の2行目のように環境変数を設定してあげるとvLLMが "spawn" を使ってくれるようになります。 export

GPUマシン自作

2025年版 NVIDIA GPU まとめ

最新のGPU一覧をまとめました関連エントリー：https://blog.qualiteg.com/nvidia-gpu-capability-level/ SM_120 (Balckwell) GeForce 製品名 CUDAコア数 VRAM 発売年 PCIeバージョン冷却方式消費電力（最大/TDP） GeForce RTX 5090 21,760基 32GB GDDR7 2025年 PCIe Gen5 2スロット (内排気) - GeForce RTX 5080 10,752基 16GB GDDR7 2025年 PCIe Gen5 2スロット (内排気) - GeForce RTX 5070 -基

AI数理

ディープラーニングにおけるEMA（Exponential Moving Average）

こんにちは！本日は、画像生成、動画生成モデルなどで重要な役割を果たしている EMA ※について解説してみたいとおもいます！当社のAIアバター動画生成サービス「MotionVox™」でも役立っています！といっても、画像生成のための専用技術というわけではなく、学習と推論（生成系も含む）というディープラーニングの運用の中で昨今かなり重宝されるテクニックとなっておりますので、基礎から実装までみていきたいとおもいます。 ※EMAの読み方は私はエマと呼んでますが、イーエムエーって言ってる人もいます。どっちでもいいでしょう。 EMA の基礎知識 EMA（Exponential Moving Average=指数移動平均）は、ざっくりいえばモデルの重みを平均化する手法です。実は株価分析などでも使われている古くからある概念なのですが、ディープラーニングでは比較的最近になって「あ、これ結構使えるんじゃね？」と重要性が認識されるようになりました。（”EMA”に限らず、理論の積み上げではなく「やってみたら、使えんじゃん」っていうのがかなり多いのがディープラーニング界隈のもはや常識でし

AI数理

DPO(直接選好最適化）の基礎から画像・動画AIへの応用まで

こんにちは Qualiteg研究部です！本日は、2023年、AnthropicのRafael Rafailov、Archit Sharmaらの研究チームによって提案された「直接選好最適化（Direct Preference Optimization: DPO）」について、基礎から応用までを解説します。この手法は、論文「Direct Preference Optimization: Your Language Model is Secretly a Reward Model」で発表され、AIの学習手法に大きな影響を与えています。この論文では、言語モデル（LM）の動作を人間の好みに調整する新しい手法「Direct Preference Optimization（DPO）」を提案していますが、最近では、VLMなど言語モデルに限らず応用が広がっています。しかも、理論は比較的シンプルなので、じわりと人気があがっていますね！ DPOが生まれた背景言語モデルは大規模データで事前学習されるため、幅広い知識と能力を持つが、その動作を制御するのは困難でした。そのため、従来の言語モデ

NumPy/PyTorch

PyTorchモデルの最適化～TorchScriptの仕組みと活用法～

こんにちは！本日は PyTorch で開発したAIアプリケーションの本番化に欠かせない、「最適化」についての内容です。具体的には「 TorchScript」を使用した各種学習モデルの最適化についてみていきたいとおもいます。 TorchScriptの基礎 1 TorchScriptとは TorchScriptは、PyTorchモデルを最適化された中間表現（IR）に変換する技術です。、、といってもちょっと難しく聞こえるかもしれません。平易な言葉で言い換えますと、要するに、PyTorchで作った機械学習モデルを高速かつ多種多様な環境で動作させることをするための技術です。例えば、、・Pythonがインストールされていない環境でも動かせるようにする・スマホはじめ、各種組み込み機器でも使えるようにする・動かすときの速度を段違いに上げる・複数の処理を同時に効率よく実行するなどを目論むときは TorchScript がおすすめです。つまり、TorchScriptは「本番サービス」で使うときにすごく役立ちます。 2 Torc

NumPy/PyTorch

ディープラーニングモデルの安全な並列推論とパフォーマンス最適化

こんにちは！今日は、よく聞かれる質問の1つである「単一のモデルインスタンスで安全に並列推論を行えるか？」に関する内容です！ evalモードでの並列推論の安全性 PyTorchモデルがmodel.eval()を使用してevalモードに設定されている場合、一般的に並列推論に対して安全になります。（ここでいう「並列」はマルチスレッドによる処理ととらえてください。バッチ推論については後述します。）その理由は、 1. パラメータの不変性 evalモードでは、順伝播（forward pass）中にモデルのパラメータが更新されません。 2. 学習特有レイヤーの非活性化 BatchNormなどのレイヤーは、バッチ統計の計算ではなく、実行時統計（running statistics）を使用するモードに切り替わります。 3. 入力データの独立性各スレッドやプロセスは独自の入力データで動作し、それぞれ別のメモリ領域に存在します。以下は、evalモードでの安全な並列推論の基本的な例です： import torch import th

NumPy/PyTorch

GPUメモリ最適化の深層：初回と最終バッチの特殊性を踏まえた効率的なAI画像処理

はじめにこんにちは！Qualitegプロダクト開発部です。当社では、LLMテクノロジーをベースとしたAIキャラクター、AIヒューマンの研究開発を行っています。そんな中、表情、仕草のように「人間らしさ」をもったバーチャルヒューマンを再現するときには画像生成、画像編集といったAIを活用した画像処理が必要となります。人と対話するAIヒューマンやバーチャルヒューマンはタイムリーに表情や仕草を生成する必要があるため、複数の画像をフレーム連結してつくるモーション（シンプルにいうと動画）を短時間に生成する必要があります。このようなとき、AIトレーニングやシンプルな推論とは異なり、いかにGPUの能力を引き出してやるか「GPUの使いこなし術」がミソとなります。 GPUの使いこなし術というと、以前のブログにも連続バッチやダイナミックバッチについてLLM推論のコンテクストで語りましたが、本日は画像処理におけるGPUメモリ最適化、とくに、推論時バッチにおける「初回と最終回」のお作法という少しマニアックな話題について語ってみようとおもいます。画像処理とGPU GPUを用いた画像

LLM推論基盤プロビジョニング講座 第4回 推論エンジンの選定

LLM推論基盤プロビジョニング講座 第3回 使用モデルの推論時消費メモリ見積もり

LLM推論基盤プロビジョニング講座 第2回 LLMサービスのリクエスト数を見積もる

LLM推論基盤プロビジョニング講座 第1回 基本概念と推論速度

GPUサービスで「Segmentation Fault 」に出会ったら～分析から解決までの実践アプローチ～

GPUサーバーの最適容量計算: キューイング理論と実践的モデル

PyTorch 2.6 のセキュリティ: モデルチェックポイントロードの安全対策

本番運用におけるPyTorch+CUDAサーバーでの「Unknown Error」問題とその対策

2025年 NVIDIA GPU 一発検索ツール(2025/8/5更新)

[vLLM] To use CUDA with multiprocessing, you must use the 'spawn' start method の対処法

2025年版 NVIDIA GPU まとめ

ディープラーニングにおけるEMA（Exponential Moving Average）

DPO(直接選好最適化）の基礎から画像・動画AIへの応用まで

PyTorchモデルの最適化～TorchScriptの仕組みと活用法～

ディープラーニングモデルの安全な並列推論とパフォーマンス最適化

GPUメモリ最適化の深層：初回と最終バッチの特殊性を踏まえた効率的なAI画像処理

LLM推論基盤プロビジョニング講座　第4回推論エンジンの選定

LLM推論基盤プロビジョニング講座　第3回使用モデルの推論時消費メモリ見積もり

LLM推論基盤プロビジョニング講座　第2回 LLMサービスのリクエスト数を見積もる

LLM推論基盤プロビジョニング講座　第1回基本概念と推論速度