NVIDIA GPU と Capability Level

NVIDIA GPU と Capability Level
Photo by Andrey Matveev / Unsplash

NVIDIA GPU の Capability Level の一覧です。

推論エンジンがサポートする各種アクセラレーション機能は Capability Level により搭載されるハードウェアアクセラレータや専用機能が異なります。

データセンター/プロ向けGPU GeForce GPU Capability Level 世代名
NVIDIA B200 - 100 Blackwell
NVIDIA B100 - 100 Blackwell
NVIDIA H200 - 90 Hopper
NVIDIA H100 - 90 Hopper
NVIDIA L4 - 89 Ada Lovelace
NVIDIA L40 - 89 Ada Lovelace
RTX 6000 Ada Generation - 89 Ada Lovelace
RTX 5000 Ada Generation - 89 Ada Lovelace
RTX 4000 Ada Generation - 89 Ada Lovelace
RTX 3000 Ada Generation - 89 Ada Lovelace
- GeForce RTX 4090 89 Ada Lovelace
- GeForce RTX 4080 89 Ada Lovelace
- GeForce RTX 4070 Ti / 4070 89 Ada Lovelace
- GeForce RTX 4060 Ti / 4060 89 Ada Lovelace
- GeForce RTX 4050 89 Ada Lovelace
NVIDIA A40 - 86 Ampere
NVIDIA A10 - 86 Ampere
NVIDIA A16 - 86 Ampere
NVIDIA A2 - 86 Ampere
RTX A6000 - 86 Ampere
RTX A5000 - 86 Ampere
RTX A4000 - 86 Ampere
RTX A3000 - 86 Ampere
RTX A2000 - 86 Ampere
RTX A1000 - 86 Ampere
- GeForce RTX 3090 Ti / 3090 86 Ampere
- GeForce RTX 3080 Ti / 3080 86 Ampere
- GeForce RTX 3070 Ti / 3070 86 Ampere
- GeForce RTX 3060 Ti / 3060 86 Ampere
- GeForce RTX 3050 Ti / 3050 86 Ampere
NVIDIA A100 - 80 Ampere
NVIDIA A30 - 80 Ampere
NVIDIA T4 - 75 Turing
T400 - 75 Turing
Quadro RTX 8000 - 75 Turing
Quadro RTX 6000 - 75 Turing
Quadro RTX 5000 - 75 Turing
Quadro RTX 4000 - 75 Turing
RTX 5000 - 75 Turing
RTX 4000 - 75 Turing
RTX 3000 - 75 Turing
T2000 - 75 Turing
T1200 - 75 Turing
T1000 - 75 Turing
T600 - 75 Turing
T500 - 75 Turing
NVIDIA TITAN RTX - 75 Turing
- GeForce RTX 2080 Ti / 2080 Super / 2080 75 Turing
- GeForce RTX 2070 Super / 2070 75 Turing
- GeForce RTX 2060 Super / 2060 75 Turing
- GeForce GTX 1660 Ti / 1660 Super / 1660 75 Turing
- GeForce GTX 1650 Super / 1650 Ti / 1650 75 Turing
NVIDIA V100 - 70 Volta
Quadro GV100 - 70 Volta
NVIDIA TITAN V - 70 Volta

Read more

LLM推論基盤プロビジョニング講座 第3回 使用モデルの推論時消費メモリ見積もり

LLM推論基盤プロビジョニング講座 第3回 使用モデルの推論時消費メモリ見積もり

こんにちは!前回はLLMサービスへのリクエスト数見積もりについて解説しました。今回は7ステッププロセスの3番目、「使用モデルの推論時消費メモリ見積もり」について詳しく掘り下げていきます。 GPUメモリがリクエスト処理能力を決定する LLMサービス構築において、GPUが同時に処理できるリクエスト数はGPUメモリの消費量によって制約されます。 つまり、利用可能なGPUメモリがどれだけあるかによって、同時に何件のリクエストを処理できるかがほぼ決まります。 では、その具体例として、Llama3 8B(80億パラメータ)モデルをNVIDIA RTX A5000(24GB)にロードするケースを考えてみましょう。 このGPUには24GBのGPUメモリがありますが、すべてをリクエスト処理に使えるわけではありません。最初にモデル自体が一定量のメモリを消費し、残りの領域で実際のリクエスト処理を行います。 GPUメモリ消費の二大要素 GPUの消費メモリ量は主に以下の2つの要素によって決まります 1. モデルのフットプリント LLMをGPUに読み込んだときに最初に消費されるメモリ

By Qualiteg コンサルティング
システムとcondaのC++標準ライブラリ(libstdc++)のバージョン違い問題による事象と対処法解説

システムとcondaのC++標準ライブラリ(libstdc++)のバージョン違い問題による事象と対処法解説

こんにちは! 先日、dlibをつかったPythonアプリケーション(conda環境で動作する)作っていたところ、以下のようなエラーに遭遇しました。 ImportError: /home/mlu/anaconda3/envs/example_env/bin/../lib/libstdc++.so.6: version `GLIBCXX_3.4.32' not found (required by /home/mlu/anaconda3/envs/example_env/lib/python3.10/site-packages/_dlib_pybind11.cpython-310-x86_64-linux-gnu.so) 「dlib_pybind11モジュールがGLIBCXX_3.4.32を要求してるけど、みつからない!」という感じのエラーですね。

By Qualiteg プロダクト開発部
LLM推論基盤プロビジョニング講座 第2回 LLMサービスのリクエスト数を見積もる

LLM推論基盤プロビジョニング講座 第2回 LLMサービスのリクエスト数を見積もる

こんにちは! 今回はLLM推論基盤プロビジョニング講座 第2回です! STEP2 LLMサービスへのリクエスト数見積もり それでは、早速、LLM推論基盤プロビジョニングの第2ステップである「リクエスト数見積もり」の重要性と方法を解説いたします。 LLMサービスを構築する際に必要となるGPUノード数を適切に見積もるためには、まずサービスに対して想定されるリクエスト数を正確に予測する必要があります。 リクエスト数見積もりの基本的な考え方 LLMサービスへの想定リクエスト数から必要なGPUノード数を算出するプロセスは、サービス設計において非常に重要です。過小評価すればサービス品質が低下し、過大評価すれば無駄なコストが発生します。このバランスを適切に取るための基礎となるのがリクエスト数の見積もりです。 想定リクエスト数の諸元 リクエスト数を見積もるための5つの重要な要素(諸元)をみてみましょう。 1. DAU(Daily Active Users): 1日あたりの実際にサービスを利用するユーザー数です。これはサービスの規模を示す最も基本的な指標となります。 2. 1日

By Qualiteg コンサルティング
Zoom会議で肩が踊る?自動フレーミング映像安定化とAIによる性能向上の可能性

Zoom会議で肩が踊る?自動フレーミング映像安定化とAIによる性能向上の可能性

こんにちは! 本日は、自動フレーミング映像の安定化に関するアルゴリズム・ノウハウを解説いたします 第1章 問題の背景と目的 バストアップ映像を撮影する際、特にオンラインミーティングやYouTubeなどのトーク映像では、人物がうなずく、首を振るなどの自然な動作をした際に「首まわりや肩がフレーム内で上下に移動してしまう」という現象がしばしば起こります。これは、多くの場合カメラや撮影ソフトウェアが人物の「目や顔を画面中央に保とう」とする自動フレーミング機能の働きに起因します。 撮影対象の人物が頭を下げた際に、映像のフレーム全体が相対的に上方向へシフトし、その結果、本来動いていないはずの肩の部分が映像内で持ち上がっているように見えてしまう現象です。 本稿では、この問題を撮影後の後処理(ポストプロセッシング)のみを用いて、高速、高い精度かつロバストに解決する手法をご紹介します。 前半では、従来のCV(コンピュータービジョン)の手法を使い高速に処理する方法をご紹介します。後半では、AIを使用してより安定性の高い性能を実現する方法について考察します。 第2章 古典手法による肩の上下

By Qualiteg 研究部