AI数理

[AI数理]徹底的に交差エントロピー(7)

Qualiteg 研究部

2024年5月29日 — 5 min read

おはようございます！(株) Qualiteg 研究部です。

今回は、交差エントロピーの計算をベクトルや行列で表現する方法について説明します！

8章交差エントロピーとベクトル演算

そもそも、なぜ、交差エントロピーをベクトルや行列で表現したいのでしょうか？

それは、実際にニューラルネットワークをコンピュータープログラムとして実装するときに、訓練データや予測値はベクトル(1次元配列)や行列(2次元配列)といったN階テンソル(N次元配列)の形式で取り扱われるからです。

なぜベクトルや行列かといえば、ニューラルネットワークの実用的な計算をするときにはデータを1件とりだしては、1件計算する　のではなく、多くのデータをベクトル（1次元配列）や行列（2次元配列）やそれ以上の多次元配列に詰めたのちに、まとめてドカっと計算するからです。

（まとめてドカっと計算するのが得意な GPU があるからこそ、これだけ Deep Learning が進展した、ともいえます）

そこで、今までで導出してきた交差エントロピーの計算をコンピュータで実装するときに備えて、 1次元配列にしてみます。

プログラムコード上は単なる1次元配列ですが、これを配列の各値を成分にもつ ベクトル と見立てることにします。

正解ラベル $t_{k}$ を要素に含むベクトルを $\boldsymbol{t}$ とすると、以下のような成分を含むベクトルになります。

$$
\boldsymbol{t} =
\begin{pmatrix}
t_{1} & t_{2} & t_{3}
\end{pmatrix}
$$

この場合、横に成分（＝数字）をならべているので、 行ベクトル(または横ベクトル) と呼びます。

予測値 $y_{k}$ も同様に $\boldsymbol{y}$ として 行ベクトル にあらわすと

$$
\boldsymbol{y} =
\begin{pmatrix}
y_{1} & y_{2} & y_{3}
\end{pmatrix}
$$

となります。

さらに、交差エントロピーの計算の際、 $\boldsymbol{y}$ の成分は対数 $\log$ をとることになるので、 $\boldsymbol{y}$ の成分に $\log$ をとったものを $\boldsymbol{y_{l}}$ と定義すると、以下のようになります。

$$
\boldsymbol{y_{l}} =
\begin{pmatrix}
\log y_{1} & \log y_{2} & \log y_{3}
\end{pmatrix}
$$

ここで交差エントロピー $E$ を思い出してみます。

$$
\begin{aligned}
\ E = &- \sum_{k=1}^{K} t_{k} \log y_{k} &\
&= - ( t_{1} \log y_{1} + t_{2} \log y_{2} + t_{3} \log y_{3}) & \
\end{aligned}
$$

この式にあらわれる $( t_{1} \log y_{1} + t_{2} \log y_{2} + t_{3} \log y_{3})$ をよく見てみましょう。これは、ベクトル $\boldsymbol{t}$ とベクトル $\boldsymbol{y_{l}}$ のドット積（内積）となっているのがわかります。

ドット積（内積）は同じ添え字の成分どうしの積の足し算です。

$$
\begin{aligned}
\ E =　&- \boldsymbol{t} \cdot \boldsymbol{y_{l}}& \
&= - ( t_{1} \log y_{1} + t_{2} \log y_{2} + t_{3} \log y_{3}) & \
\end{aligned}
$$

１つ注意したい点は、ベクトルの場合は　成分どうしの積の足し算と定義すればよいですが、ベクトルではなく、行列（２次元配列)どうしのドット積を計算するときには、行列の形状を意識しなければいけません。

たとえば、縦横 $2 \times 3$ の形状をもつ行列 $\begin{pmatrix}
1 & 2 & 3 \
4 & 5 & 6 \
\end{pmatrix}$ と縦横 $3 \times 2$ の形状をもつ行列 $\begin{pmatrix}
7 & 8 \
9 & 10 \
11 & 12 \
\end{pmatrix}$ のドット積

$$
\begin{pmatrix}
1 & 2 & 3 \
4 & 5 & 6 \
\end{pmatrix}
\cdot
\begin{pmatrix}
7 & 8 \
9 & 10 \
11 & 12 \
\end{pmatrix}
$$

は、以下のように計算します。

左側の行列の1行目の横一列と、右側の行列の1列目の縦一列の成分どうしの積を足していきます。

次は左側の行列の2行目と、右側の行列の1列目の成分どうしの積を足す、、、以降同様に計算していきます。

このように順に計算していくと結果は以下のようになります。

$$
\begin{aligned}
\begin{pmatrix}
1 & 2 & 3 \
4 & 5 & 6 \
\end{pmatrix}
\cdot
\begin{pmatrix}
7 & 8 \
9 & 10 \
11 & 12 \
\end{pmatrix}=&
\begin{pmatrix}
1 \times 7 + 2 \times 9 + 3 \times 11 & 1 \times 8 + 2 \times 10 + 3 \times 12 \
4 \times 7 + 5 \times 9 + 6 \times 11 & 4 \times 8 + 5 \times 10 + 6 \times 12
\end{pmatrix}&\
=&
\begin{pmatrix}
58 & 64 \
139 & 154 \
\end{pmatrix}&
\end{aligned}
$$

この例からわかる通り縦横 $2 \times 3$ の形状をもつ行列と縦横 $3 \times 2$ の形状をもつの行列のドット積の結果は $2 \times 2$ の行列となります。

つまり $m \times n$ と $n \times l$ のドット積の形状は $m \times l$ となります。
またドット積を計算するには、左側の行列の行数と、右側の行列の列数が一致している必要があります。

さて、行列のドット積の計算の仕方を見たところで、さきほどのベクトル同士のドット積を再確認しましょう。

正解ラベルを示す行ベクトルを $\boldsymbol{t}$ と、予測値に $\log$ をとった行ベクトル $\boldsymbol{y_{l}}$ はそれぞれ以下のとおりでしたが、

$$
\boldsymbol{t} =
\begin{pmatrix}
t_{1} & t_{2} & t_{3}
\end{pmatrix}
$$

$$
\boldsymbol{y_{l}} =
\begin{pmatrix}
\log y_{1} & \log y_{2} & \log y_{3}
\end{pmatrix}
$$

さきほどの行列のドット積ルールにしたがって計算しようとすると、横一列並んでいる形状をしている行ベクトル同士の計算はできないことがわかります。

つまり、

$$
\begin{pmatrix}
t_{1} & t_{2} & t_{3}
\end{pmatrix}
\cdot
\begin{pmatrix}
\log y_{1} & \log y_{2} & \log y_{3}
\end{pmatrix}
$$

はこのままでは計算できないということになります。
つまり、この2つの行ベクトルを行列とみなすと、どちらも形状が $1 \times 3$ となっています。

ですので、ドット積ができる行列形状である $m \times n$ と $n \times l$ のカタチにするには、ベクトル $\boldsymbol{y_{l}}$ を行ベクトル（横ベクトル）から列ベクトル（縦ベクトル）にすればよさそうです。

$\boldsymbol{y_{l}}$ の成分の行と列を入れ替えた列ベクトル　$\boldsymbol{y_{l}^\mathsf{T} }$ は以下のようになります。

(${\mathsf{T} }$ は転置を意味します。転置とはある行列の成分の列と縦を入れ)替えた行列です。

$$
\boldsymbol{y_{l}^\mathsf{T} } =
\begin{pmatrix}
\log y_{1} \ \log y_{2} \ \log y_{3}
\end{pmatrix}
$$

これで、ドット積の作法で計算することができるようになりました。

さきほどの、ドット積を使った交差エントロピーの計算式でみてみると、

$$
\begin{aligned}
\ E =　&- \boldsymbol{t} \cdot \boldsymbol{y_{l}^\mathsf{T} }& \
&=-\begin{pmatrix}
t_{1} & t_{2} & t_{3}
\end{pmatrix}
\cdot
\begin{pmatrix}
\log y_{1} \ \log y_{2} \ \log y_{3}
\end{pmatrix}& \
&= - ( t_{1} \log y_{1} + t_{2} \log y_{2} + t_{3} \log y_{3}) & \
\end{aligned}
$$

これで、交差エントロピーを行列の計算として求めることができました。

(ちなみに、ベクトル同士のドット積は内積と同じなので計算結果はスカラー（数値）になります。)

今回はいかがでしたでしょうか

冒頭でもふれたとおり、データをベクトルや行列に見立ててドット積を計算したのは、1件ずつ計算をしてループさせるような方式よりも、ベクトルや行列にデータをまとめてイッキに計算したほうが GPU など並列計算が得意な環境では圧倒的に効率が良いためです。

ベクトルや行列にするとコンピューター(とりわけ GPU)との相性がよく計算効率・スピードを高める効果が期待できるからこそこのようなテクニックを用いていますますので、それこそが重要であり、それ以上の数学的な意味・意義はそんなに考えなくてよいのかなというところでしょうか。

それでは、また次回お会いしましょう！

参考文献
https://blog.qualiteg.com/books/

TensorRT 10 × Blackwell 移行ガイド【前編】RTX 50 で推論資産が動かない — 基本と最初の壁

こんにちは！新しい GPU を手に入れてワクワクしながら既存の推論環境を載せ替えたら、昨日まで普通に動いていたものが軒並みエラーで止まったそんな経験はないでしょうか。NVIDIA RTX 50 系、NVIDIA RTX PRO 系（Blackwell 世代）への移行では、これがかなりの高確率で起きます。そして厄介なことに、エラーで止まってくれるのは、まだ親切なほうで、、TensorRT の世界には「ビルドは通る、実行も通る、速度もちゃんと出る、けれど出力だけが静かに壊れている」という、いちばん見つけにくい失敗の仕方が存在します。本記事はその全体像を扱うシリーズの前編です。対象環境 OS: Ubuntu 24.04 (WLS) GPU: NVIDIA RTX PRO 4000 Blackwell・GeForce RTX 5060 Ti （ともに Compute Capability 12.

Kimi K3 徹底リサーチ — 2.8兆パラメータ、「史上最大のオープンウェイト」は実現するか

こんにちは！ 2026年7月16日、中国・北京の Moonshot AI が新しいフラッグシップモデル Kimi K3 を発表し、APIやWebサービスでの提供を開始しました。総パラメータ2.8兆という規模、100万トークンのコンテキスト、そして「史上最大のオープンウェイトモデルになる」という宣言がAI界隈をにぎわせています。当ブログでは今年5月の記事「Mythos（ミュトス）レベルのオープンモデルはいつ出るのか」で、オープンモデルがクローズドのフロンティアにいつ追いつくのかを予測しました。 Kimi K3 は、まさにその問いに対する現時点での最新の「回答」のひとつです。一方で、この記事を書いている7月20日時点では、モデルのウェイトも技術レポートもまだ公開されていません。ただし、XなどSNSかいわいでは、「ガードレールが弱めで、Fable5では拒否されるようなプロンプトでも対応してくれる」「すぐにOpus4.8にフォールバックする Fable5より使い勝手がいい」といった声が散見されており、米国産のガードレール強め方針にたいして、ガードレール

PII 非識別化の本質——「誰か」は偽ってよい、「何が起きたか」は偽ってはならない

こんにちは！Qualitegプロダクト開発部です！本日は、PII（ Personally Identifiable Information→個人情報）の非識別化に関する内容を解説いたします。当社ではこれまで、高精度なPII検出技術やLLM利用時の段階的PIIマスキング、PII検出のテスト設計など、個人情報検出とAIセキュリティに関する技術解説をお届けしてきました。現在、当社では、PII検出マスキング技術「PII-FIエンジン」と、それを活用したPIIのマスキング・非識別化サービス「PII-FI Scan」「PII-FI API」を開発・提供しています。本記事では、「PIIを検出したあと、それをどう書き換えるか」の設計原則を、1つの例文を試金石にして、私たちが実際のプロダクトで採用している整理をご紹介します。先にことわっておきますと、本記事でいう「非識別化(de-identification)」は、文書やログを安全に共有・分析するための技術的な加工(個人を特定できないように加工する処理)のお話です。個人情報保護法上の「仮名加工情報」「匿名加工情報」に該当することを

日本語対応 LLMランキング2026　～ベンチマーク分析レポート～（7月10日版）

はじめに本レポートは、Nejumi Leaderboard 4のベンチマークデータ（2026/7/10版）に基づいて、日本語対応LLMの性能を総合的に分析したものです。前回は 2026/3/6 版の分析レポートを公開しましたが、約4か月ぶりとなる今回も、上位勢の顔ぶれが大きく入れ替わる激動の回となりました！（定期的に最新LLMランキングを更新してまいります。当社のX(旧Twitter)をフォローいただくことで更新情報を受け取り可能です） Nejumi Leaderboard 4は、日本語タスクにおけるLLMの性能を多角的に評価する信頼性の高いベンチマークとして知られています。汎用的言語性能（GLP）とアラインメント（ALT）の2軸で構成され、翻訳・要約・推論・コーディングから毒性・バイアス・真実性まで、幅広い観点をカバーしているのが特徴です。本分析では、商用APIモデルとオープンモデルの両方を対象に、それぞれの特徴や傾向を詳しく見ていきます。まず、今回の3大トピックを先にご紹介します。 * Claude Opus 4.8がリーダーボード史上初の総合スコア0.8

8章 交差エントロピーとベクトル演算

Read more

TensorRT 10 × Blackwell 移行ガイド【前編】RTX 50 で推論資産が動かない — 基本と最初の壁

Kimi K3 徹底リサーチ — 2.8兆パラメータ、「史上最大のオープンウェイト」は実現するか

PII 非識別化の本質——「誰か」は偽ってよい、「何が起きたか」は偽ってはならない

日本語対応 LLMランキング2026 ～ベンチマーク分析レポート～（7月10日版）

8章交差エントロピーとベクトル演算

日本語対応 LLMランキング2026　～ベンチマーク分析レポート～（7月10日版）