[自作日記7] AI用GPUの選定

[自作日記7] AI用GPUの選定

今回は、AIに適したグラフィックボード(GPU)の選定をします。

本編に行く前に、グラフィックボードとGPUの違いについて整理しておきましょう

グラフィックボードは、コンピューターで画像処理やAIの計算を担当する重要なハードウェアで パソコンのPCI Express のスロットに挿入して使用するのが一般的です。

一方 GPU はグラフィックボードの主要な構成要素の1つで、グラフィックボードは以下のようなコンポーネントで構成されています。

  1. GPUチップ - グラフィック処理の中心で、複雑な数学的計算を高速に実行します。
  2. VRAM(ビデオRAM) - GPUが直接アクセスする専用メモリで、ディープラーニングでは、パラメータ(重みやバイアス)や計算過程を保持する役割があり非常に高速に動作します。
  3. 冷却システム - GPUが生成する熱を効果的に放散するためのファンやヒートシンク。

グラフィックボードとGPUを同一視して書いている記事も多く、私たちもあまり厳密に分けて書いていないですが、実体としては↑のような感じですね。

さて、それでは Jun さんの買い物の続きをみていきましょう。


肉の万世本店はやっぱり最高でした。

2階でハンバーグを食べてきましたが、出世したら3階、4階のレストランも行ってみたい。あと、1階のパーコー麵にもチャレンジしてみたいです。麵が上下してるあのオブジェ?も楽しいですね。
(なぜか、いつも2階ばかり行ってしまうんですよね。)

おなかもいっぱいになったので、これから今日の目玉のGPUを買いに行きたいと思います。

とその前に、今まで買ったものを整理しておきます

だいたい12.5万円を使ったので、のこり32.5万円くらいあります。GPUは良いものを買えそうです!

GPUを買いにお店へ!

AIをやるなら、間違いなく NVIDIA の GPU です。

どれにしようかなー、と探し始めましたが、拍子抜けするくらい簡単に決まりました。

その理由は簡単。

ディープラーニング、とりわけLLMをやる場合に一番重要なのは VRAM の量つまりGPUのメモリ容量です。

そして、ここ秋葉原で売っているGPUは通常コンシューマー向けのGPUなので、VRAMの上限は決まっています。

そうです、 NVIDIA の GeForce 3090 か GeForce 4090 を搭載したグラフィックボードが VRAM 24 GBytes で最大なのです。つまりこのどちらかしか選択肢にないといってもいいでしょう。

この下のモデルになるといきなり VRAM が 16GBytes になってしまいます。

もともと、コンシューマ向けGPUというのは、3Dゲーム用途がほとんどであるため、24GBytes もVRAMがあれば十分ということなのでしょう。

ということで、もう3090か4090のどちらかで決めることにしました。

さて、この2つからの選択もほぼ迷いませんでした。

なぜなら、残りの資金が30万円弱だったのですが、4090のほうはのきなみ30万円以上の価格設定。残り資金を全部つかってしまったら電源など残りのパーツが買えません。

ということで、コンシューマ向けでメモリが一番多く、お値段も手が出るものという現実的な条件で、 GeForce 3090 搭載の以下のグラフィックボードを購入しました。

MSI SUPRIM X GeForce RTX 3090 Ti

約20万円で購入しました。今日一番高い買い物です。

買い出し用にコストコの巨大袋をもってきましたが、マザーボードの箱とグラボの箱ですでに、だいぶキツキツです。

三ツ矢サイダーの缶とくらべてわかるとおり箱がかなりでかく、高価なモノを買った感があります。

袋にはいってるのは、ざっとこんなかんじ。

コストコの袋に入ってるもの

胃袋に入ってるもの

万世コンボ+和食セット 約2千円

残金は 45-12.5-20 = 12.5 万円です。

いったん荷物を置きに会社に戻り、
残金で、残りのパーツである 電源、SSD、ケース を購入したいとおもいます。


今回はいかがでしたでしょうか。Jun さんは無事GPUをゲットできました。

次回は電源、SSD、ケースの購入をする予定です!お楽しみに!


navigation

Read more

発話音声からリアルなリップシンクを生成する技術 第3回:wav2vec特徴量から口形パラメータへの学習

発話音声からリアルなリップシンクを生成する技術 第3回:wav2vec特徴量から口形パラメータへの学習

こんにちは! 前回までの記事では、 * wav2vecを用いた音声特徴量抽出の仕組み(第1回)と、 * リップシンク制作における累積ドリフトの補正技術(第2回) について解説してきました。今回はいよいよ、これらの技術を統合して実際に音声から口の動きを生成する核心部分に踏み込みます。 本記事で扱うのは、wav2vecが抽出した768次元の音響特徴量を、26個の口形制御パラメータの時系列データに変換する学習プロセスです。これは単なる次元削減ではありません。音の物理的特性を表す高次元ベクトルから、人間の口の動きという全く異なるモダリティへの変換なのです。この変換を実現するには、音韻と視覚的な口形の間にある複雑な対応関係を、ニューラルネットワークに学習させる必要があります。 特に重要なのは、この対応関係が静的ではなく動的であるという点です。同じ音素でも前後の文脈によって口の形が変わり、さらに音が聞こえる前から口が動き始めるという時間的なズレも存在します。これらの複雑な現象をどのようにモデル化し、学習させるのか。本記事では、LSTMとTransformerという2つの強力なアプロー

By Qualiteg 研究部
AI時代のデータ漏洩防止の要諦とテクノロジー:第1回 AI DLPとPROXY

AI時代のデータ漏洩防止の要諦とテクノロジー:第1回 AI DLPとPROXY

こんにちは!本日はAI時代のデータ漏洩防止について、とくにその通信技術面に焦点をあてつつ、AIセキュリティにどのように取り組んでいくべきか、解説いたします。 1. はじめに 生成AIの急速な普及により、企業のデータガバナンスは新たな局面を迎えています。ChatGPTやClaudeといった大規模言語モデル(LLM)は、業務効率を飛躍的に向上させる一方で、意図しない機密情報の漏洩という深刻なリスクをもたらしています。 従業員が何気なく入力した顧客情報や営業秘密が、AIサービスの学習データとして使用される可能性があることを、多くの組織はまだ十分に認識していません。従来のDLP(Data Loss Prevention)ソリューションは、メールやファイル転送を監視することには長けていましたが、リアルタイムで行われるWebベースのAIチャットやAIエージェントとの対話で発生しうる新しい脅威には対応できていないのが現状です。 本記事では、AI時代のデータ漏洩防止において中核となる技術、特にHTTPS通信のインターセプトとその限界について、技術的な観点から詳しく解説します。プロキシサーバー

By Qualiteg プロダクト開発部, Qualiteg コンサルティング
LLM推論基盤プロビジョニング講座 第5回 GPUノード構成から負荷試験までの実践プロセス

LLM推論基盤プロビジョニング講座 第5回 GPUノード構成から負荷試験までの実践プロセス

こんにちは!これまでのLLM推論基盤プロビジョニング講座では、推論速度の定義、リクエスト数見積もり、メモリ消費量計算、推論エンジン選定について詳しく解説してきました。 今回は、残りのステップである「GPUノード構成見積もり」「負荷試験」「トレードオフ検討」について一気に解説し、最後に実際のサーバー構成例をご紹介します。 STEP5:GPUノード構成見積もり GPUメモリから考える同時リクエスト処理能力 LLMサービスを構築する際、どのGPUを何台選ぶかは非常に重要な決断です。今回はLlama 8Bモデルを例に、GPUメモリ容量と同時リクエスト処理能力の関係を見ていきましょう。 GPUメモリの使われ方を理解する ここは復習となりますが、 LLM推論においてGPUメモリは主に2つの用途で消費されます 1. モデル重みデータ: LLMモデル自体を格納するためのメモリ 2. KVキャッシュ: ユーザーとの対話コンテキストを保持するための一時メモリ Llama 8Bを16ビット精度で実行する場合、モデル重みデータは約16GBのメモリを占めます。これは固定的なメモリ消

By Qualiteg コンサルティング
発話音声からリアルなリップシンクを生成する技術 第2回:AIを使ったドリフト補正

発話音声からリアルなリップシンクを生成する技術 第2回:AIを使ったドリフト補正

こんにちは! 前回の記事では、当社のMotionVoxで使用している「リップシンク」技術について、wav2vecを用いた音声特徴量抽出の仕組みを解説しました。音声から正確な口の動きを予測するための基礎技術について理解いただけたかと思います。 今回は、その続編として、リップシンク制作における重要な技術的課題である「累積ドリフト」に焦点を当てます。wav2vecで高精度な音素認識ができても、実際の動画制作では複数の音声セグメントを時系列に配置する際、わずかなタイミング誤差が蓄積して最終的に大きなずれとなる現象が発生します。 本記事では、この累積ドリフトのメカニズムと、機械学習を活用した最新の補正技術について、実際の測定データを交えながら詳しく解説していきます。前回のwav2vecによる特徴抽出と今回のドリフト補正技術を組み合わせることで、MotionVoxがどのように高品質なリップシンクを実現しているのか、その全体像が見えてくるはずです。 累積ドリフトとは何か 基本概念 累積ドリフトとは、個々の音声セグメントが持つ微小なタイミング誤差が、時間の経過とともに蓄積していく現象で

By Qualiteg 研究部