[自作日記1] 現代の自作PCアーキテクチャを理解する

[自作日記1] 現代の自作PCアーキテクチャを理解する

PC自作にあたって、まずは、2023年現在のPCアーキというものを学んでおこうとおもいます。

CPUとマザーボードとチップセット

チップセット

マザーボードには、各パーツ間の通信を管理するための「チップセット」という重要なコンポーネントが搭載されています。

あるチップセットは対応できるCPUが決められており、そのチップセットに対応していないCPUはのせることができません。

逆にCPU側からみれば、あるCPUに対して、それに対応できるチップセットが限定されているともいえます。

あるCPUに対してチップセットは1つだけではなく、実装されている機能のレベルに応じて複数のチップセットが対応しています。

チップセットとCPUとCPUソケット形状

チップセットとCPUはお互いに対応関係が決まっていると説明しましたが、CPUをマザーボードにはめ込むときのソケット形状も物理的に一致しています。

例えば Z690 というチップセットは Intel Core i7 12700 という第12世代のCPUに対応しています。

また、 Intel Core i7 12700 のソケット形状は LGA 1700 で、
Z690 チップセットを搭載したマザーボードは当然 LGA 1700 形状のCPUをはめ込めるようになっていることになります。

第12世代CoreシリーズCPU用チップセットはインテル600シリーズと呼ばれるチップセットとなっており「Z690」「H670」「B660」「H610」など複数あり、これらはオーバークロックの対応有無など、機能面で異なります。

また、インテル700シリーズチップセットとして、「Z790」「H770」「B760」 などがあります。

実はインテル600シリーズも700シリーズチップセットともLGA1700ソケットを採用しており、
第12世代インテルCoreシリーズCPU、第13世代インテルCoreシリーズCPUどちらもはめ込むことができますが、すべてが動作するわけではなく、また、マザーボードによっては BIOS の更新が必要なものがあるため、マザーボードごとに対応を確認をする必要があります。


Credit [Jacek Halicki] / Wikimedia Commons / CC-BY-SA-4.0

ノースブリッジとサウスブリッジ

現在はCPUとチップセットにそれぞれの役割分担がありますが、ひと昔のPCではノースブリッジ、サウスブリッジとしてざっくりを役割が分かれている時代がありました。CPUとチップセットの役割分担を学ぶ上で、少しPCアーキの歴史を振り返ってみます。

ノースブリッジはマザーボードの上部に位置し、サウスブリッジは下部に位置するコンポーネントを指していました。ノースが上で、サウスが下という、一般的な地図とおなじような感覚で命名されていますね。

(Java Swing などでもノース、サウスのように指定していたので、このメタファーは昔はそれなりにわかりやすかったのでしょう。)

ノースブリッジ については、CPU、RAM、PCI Expressデバイス(例えばグラフィックカードなど)と直接通信を行うもので、この部分は高性能が求められるため、高速な通信が必要とされる部品と接続される役割を果たしてきました。
しかし、現在では、 ノースブリッジの機能は多くの場合、CPUに統合されており 、チップセットではなくCPUがこれらの高速通信の仕事を担当しています。

サウスブリッジ に関しては、IOデバイス(USB、オーディオ、シリアルデバイスなど)、BIOS、IDE、LANカードなどと通信を行います。これらは比較的低速で、大量のデータ転送を必要としないコンポーネントです。
現在、サウスブリッジの役割は主にチップセット によって担われています。

というわけで、高速通信をする仕事は CPU 、IOデバイスのように低速な仕事はチップセットのように棲み分けていると覚えておけばOKです。

PCI Express と「レーン」

PCI Expressは、グラフィックカードをはじめとする各種拡張カードをマザーボードに接続するためのスロットおよび通信規格です。この規格には「 レーン 」と呼ばれる伝送路が用いられており、データの送受信が行われます。

レーンは、単独で使用されることもありますが、 複数のレーンを束ねることにより、さらに高速な通信が可能 になります。このようにレーンを束ねることで、データ転送の効率を大幅に向上させることができ、高性能な拡張カードが求める大量のデータ転送を効率的に処理することが可能です。このため、PCI Expressは現代のコンピュータシステムにおいて重要な役割を担っています。

PCI Express には レーン という伝送路があり、 複数のレーンを束ねる と速くなる、と覚えておきましょう。


レーンのスピード

レーン1本あたりのスピードは PCI Express の 世代 ごとに規格によって以下のように、定められています。

  • PCI Express は PCIe のように省略して記述することができます
  • PCI Express には世代(バージョン) があり PCI Express version 1.0 を gen1, PCI Express version 2.0 をgen2 のように略記されることがあります。
世代 伝送速度(片方向)
PCIe gen 1 2.5 gbits/s 0.3125 gbytes/s
PCIe gen 2 5 gbits/s 0.625 gbytes/s
PCIe gen 3 8 gbits/s 1 gbytes/s
PCIe gen 4 16 gbits/s 2 gbytes/s
PCIe gen 5 32 gbits/s 4 gbytes/s

表のように第5世代の PCI Expressだと、レーンが1本で 4GByte/s の通信速度となっています。

PCI Expressの 世代があがるごとに2倍の伝送量になっていますね。


複数レーンをたばねたときの伝送速度一覧

たとえば、PCIe gen 5でレーンを16本束ねた伝送路を PCIe gen5 x16 などと書きます。

これは 64GB/s でデータを伝送できる、ということになります

以下に、レーンを束ねた本数と、伝送速度をまとめました。

x4 (4レーン使用時の帯域)
世代 伝送速度(片方向)
PCIe gen 1 10 gbits/s 1.25 gbytes/s
PCIe gen 2 20 gbits/s 2.5 gbytes/s
PCIe gen 3 32 gbits/s 4 gbytes/s
PCIe gen 4 64 gbits/s 8 gbytes/s
PCIe gen 5 128 gbits/s 16 gbytes/s
x8 (8レーン使用時の帯域)
世代 伝送速度(片方向)
PCIe gen 1 20 gbits/s 2.5 gbytes/s
PCIe gen 2 40 gbits/s 5 gbytes/s
PCIe gen 3 64 gbits/s 8 gbytes/s
PCIe gen 4 128 gbits/s 16 gbytes/s
PCIe gen 5 256 gbits/s 32 gbytes/s
x16 (16レーン使用時の帯域)
世代 伝送速度(片方向)
PCIe gen 1 40 gbits/s 5 gbytes/s
PCIe gen 2 80 gbits/s 10 gbytes/s
PCIe gen 3 128 gbits/s 16 gbytes/s
PCIe gen 4 256 gbits/s 32 gbytes/s
PCIe gen 5 512 gbits/s 64 gbytes/s

新しい世代ほど速く、たくさん束ねるほど速くなるということですね。


コラム:1Bytes/s の伝送路で 4k 画像は1秒間で何枚送信できる?

4K画像 1枚は 3,840×2,160 = 8,294,400 ピクセルあり、
各ピクセルでRGB各8ビット(1バイト)だとすると 無圧縮状態で 8294400*3 = 24883200 バイト(24MBytes)となります。

ここで 1GBytes は 1024*1024*1024 = 1073741824 バイトなので、 1073741824 ÷ 24883200 = 43.15

つまり、1GByte の伝送路だと 1秒間に4K 画像を 43 枚伝送できることになります。(理論値では)

PCIe gen 5 x 16 の場合は 64 gbytes/s なので、4K 画像なら 43*64 = 2761 枚ということになる。
画像を送るだけなら、 2761 FPS を出せるということになります。
  

PCI スロットの形状

PCIe スロットの形状には以下のような規格があります。


PCI Express x1 スロット
PCI Express x4 スロット
PCI Express x8 スロット
PCI Express x16 スロット

Credit Erwin Mulialim / Wikimedia Commons / CC BY-SA 3.0

これらは、あくまでスロットの物理的なサイズで分類したもので、
物理的な形状が PCI Express x16スロットでも、
内部では x8 のレーン帯域しか対応していない PCI Express スロットもあります。

また、物理的な形状が x16なPCIe拡張ボードでも、
その拡張ボードが x8レーン帯域しか使わないという場合もあります。

スロットの形状と、内部での使用レーン数は必ずしも一致しないということ覚えておきましょう

PCI スロット数

E-ATX、ATX フォームファクタ(ケース)の場合、PCI expressのスロット数は 7 スロットとなります。

今回はここまでです!
おつきあいありがとうございました!

次回は、実際のチップセットのブロック図をみながら理解を深めていきたいとおもいます。


navigation

Read more

AIエージェント時代の新たな番人「ガーディアンエージェント」とは?

AIエージェント時代の新たな番人「ガーディアンエージェント」とは?

こんにちは!今日は先日ガートナーが発表したガーディアンエージェントについて解説します ガートナーの公式定義 ハイプカーブで有名なガートナーは2025年6月に、ガーディアンエージェントに関する見解を発表しました。ガーディアン・エージェントとは、AIとの安全で信頼できるやりとりを支援するために設計されたAIベースのテクノロジです。 ざっくりいうと、 「AIエージェントが来るよ」と予言したガートナー社は、次は、「ガーディアンエージェントが来るよ」と予言しました。なぜガーディアンエージェントが来るのでしょうか?本稿では、そのあたりを考察していきたいと思います。 なぜ今、AIの「監視役」が必要なのか 2025年、私たちは本格的なAIエージェント時代の入り口に立っています。AIが単なるツールから、自律的に判断し行動する「エージェント」へと進化する中で、新たな課題が浮上しています。 従来のAIとエージェント型AIの違い さて、ガーディアンエージェントが必要になる理由として、生成AI(以後AIと呼びます)の急速な進化があげられます。従来のAIとエージェント型AIの違いを思い出

By Qualiteg コンサルティング
LLM推論基盤プロビジョニング講座 第4回 推論エンジンの選定

LLM推論基盤プロビジョニング講座 第4回 推論エンジンの選定

こんにちは!前回までの講座では、LLMサービス構築に必要なリクエスト数の見積もりや、使用モデルの推論時消費メモリ計算について詳しく解説してきました。今回は7ステッププロセスの4番目、「推論エンジンの選定」について詳しく掘り下げていきます。 推論エンジンとは何か 推論エンジンとは、GPU上でLLMモデルの推論計算(テキスト生成)を効率的に行うために設計された専用のソフトウェアプログラムです。一般的なディープラーニングフレームワーク(PyTorch、TensorFlowなど)でも推論は可能ですが、実運用環境では専用の推論エンジンを使用することで、大幅なパフォーマンス向上とリソース効率化が期待できます。 推論エンジンは単なる実行環境ではなく、様々な最適化技術を実装しています。特定のモデルアーキテクチャに特化した最適化機能を実装したものや、推論速度の高速化に特化したもの、前回解説したKVキャッシュのメモリ効率化機能を備えたものなど、それぞれ特徴が異なります。そのため、自社で採用したLLMモデルや運用環境、要件に合致した推論エンジンを選定することが重要です。 推論エンジン選定のアプロ

By Qualiteg コンサルティング
発話音声からリアルなリップシンクを生成する技術 第1回:音素とwav2vec

発話音声からリアルなリップシンクを生成する技術 第1回:音素とwav2vec

こんにちは! 今日は当社のMotionVox でも実際に使っている「リップシンク」技術について総合的に解説してみたいとおもいます。 音声に合わせて自然な口の動きを生成するリップシンク技術は、AIアバターや3Dアニメーション制作においても重要な技術です。 本記事では、最新のディープラーニング技術を活用したリップシンク学習の基礎から実装まで、技術的な観点から詳しく解説します。 1. リップシンク学習の基礎概念 1.1 問題設定 リップシンク学習とは、音声データから対応する口の動きを予測する回帰問題ととらえることができます f: 音声特徴量(t) → 口の動きパラメータ(t) この問題のコアは 音韻(音の特徴)と視素(視覚的な口の形)の対応関係を学習する ことにあります。 1.2 音韻-視素マッピングの複雑性 ただし! 人間の発話における音と口の形の関係は、単純な1対1マッピングではないんです。 同じ音でも文脈で変化 「あ」の発音でも: - 「か」の後の「あ」→ 口がやや狭めから開く - 「ん」の後の「あ」→ 口が閉じた状態から大きく開く 調音結合

By Qualiteg 研究部, Qualiteg コンサルティング
LLM推論基盤プロビジョニング講座 第3回 使用モデルの推論時消費メモリ見積もり

LLM推論基盤プロビジョニング講座 第3回 使用モデルの推論時消費メモリ見積もり

こんにちは!前回はLLMサービスへのリクエスト数見積もりについて解説しました。今回は7ステッププロセスの3番目、「使用モデルの推論時消費メモリ見積もり」について詳しく掘り下げていきます。 GPUメモリがリクエスト処理能力を決定する LLMサービス構築において、GPUが同時に処理できるリクエスト数はGPUメモリの消費量によって制約されます。 つまり、利用可能なGPUメモリがどれだけあるかによって、同時に何件のリクエストを処理できるかがほぼ決まります。 では、その具体例として、Llama3 8B(80億パラメータ)モデルをNVIDIA RTX A5000(24GB)にロードするケースを考えてみましょう。 このGPUには24GBのGPUメモリがありますが、すべてをリクエスト処理に使えるわけではありません。最初にモデル自体が一定量のメモリを消費し、残りの領域で実際のリクエスト処理を行います。 GPUメモリ消費の二大要素 GPUの消費メモリ量は主に以下の2つの要素によって決まります 1. モデルのフットプリント LLMをGPUに読み込んだときに最初に消費されるメモリ

By Qualiteg コンサルティング