AI数理

[AI数理]徹底的に交差エントロピー(7)

Qualiteg 研究部

2024年5月29日 — 5 min read

おはようございます！(株) Qualiteg 研究部です。

今回は、交差エントロピーの計算をベクトルや行列で表現する方法について説明します！

8章交差エントロピーとベクトル演算

そもそも、なぜ、交差エントロピーをベクトルや行列で表現したいのでしょうか？

それは、実際にニューラルネットワークをコンピュータープログラムとして実装するときに、訓練データや予測値はベクトル(1次元配列)や行列(2次元配列)といったN階テンソル(N次元配列)の形式で取り扱われるからです。

なぜベクトルや行列かといえば、ニューラルネットワークの実用的な計算をするときにはデータを1件とりだしては、1件計算する　のではなく、多くのデータをベクトル（1次元配列）や行列（2次元配列）やそれ以上の多次元配列に詰めたのちに、まとめてドカっと計算するからです。

（まとめてドカっと計算するのが得意な GPU があるからこそ、これだけ Deep Learning が進展した、ともいえます）

そこで、今までで導出してきた交差エントロピーの計算をコンピュータで実装するときに備えて、 1次元配列にしてみます。

プログラムコード上は単なる1次元配列ですが、これを配列の各値を成分にもつ ベクトル と見立てることにします。

正解ラベル $t_{k}$ を要素に含むベクトルを $\boldsymbol{t}$ とすると、以下のような成分を含むベクトルになります。

$$
\boldsymbol{t} =
\begin{pmatrix}
t_{1} & t_{2} & t_{3}
\end{pmatrix}
$$

この場合、横に成分（＝数字）をならべているので、 行ベクトル(または横ベクトル) と呼びます。

予測値 $y_{k}$ も同様に $\boldsymbol{y}$ として 行ベクトル にあらわすと

$$
\boldsymbol{y} =
\begin{pmatrix}
y_{1} & y_{2} & y_{3}
\end{pmatrix}
$$

となります。

さらに、交差エントロピーの計算の際、 $\boldsymbol{y}$ の成分は対数 $\log$ をとることになるので、 $\boldsymbol{y}$ の成分に $\log$ をとったものを $\boldsymbol{y_{l}}$ と定義すると、以下のようになります。

$$
\boldsymbol{y_{l}} =
\begin{pmatrix}
\log y_{1} & \log y_{2} & \log y_{3}
\end{pmatrix}
$$

ここで交差エントロピー $E$ を思い出してみます。

$$
\begin{aligned}
\ E = &- \sum_{k=1}^{K} t_{k} \log y_{k} &\
&= - ( t_{1} \log y_{1} + t_{2} \log y_{2} + t_{3} \log y_{3}) & \
\end{aligned}
$$

この式にあらわれる $( t_{1} \log y_{1} + t_{2} \log y_{2} + t_{3} \log y_{3})$ をよく見てみましょう。これは、ベクトル $\boldsymbol{t}$ とベクトル $\boldsymbol{y_{l}}$ のドット積（内積）となっているのがわかります。

ドット積（内積）は同じ添え字の成分どうしの積の足し算です。

$$
\begin{aligned}
\ E =　&- \boldsymbol{t} \cdot \boldsymbol{y_{l}}& \
&= - ( t_{1} \log y_{1} + t_{2} \log y_{2} + t_{3} \log y_{3}) & \
\end{aligned}
$$

１つ注意したい点は、ベクトルの場合は　成分どうしの積の足し算と定義すればよいですが、ベクトルではなく、行列（２次元配列)どうしのドット積を計算するときには、行列の形状を意識しなければいけません。

たとえば、縦横 $2 \times 3$ の形状をもつ行列 $\begin{pmatrix}
1 & 2 & 3 \
4 & 5 & 6 \
\end{pmatrix}$ と縦横 $3 \times 2$ の形状をもつ行列 $\begin{pmatrix}
7 & 8 \
9 & 10 \
11 & 12 \
\end{pmatrix}$ のドット積

$$
\begin{pmatrix}
1 & 2 & 3 \
4 & 5 & 6 \
\end{pmatrix}
\cdot
\begin{pmatrix}
7 & 8 \
9 & 10 \
11 & 12 \
\end{pmatrix}
$$

は、以下のように計算します。

左側の行列の1行目の横一列と、右側の行列の1列目の縦一列の成分どうしの積を足していきます。

次は左側の行列の2行目と、右側の行列の1列目の成分どうしの積を足す、、、以降同様に計算していきます。

このように順に計算していくと結果は以下のようになります。

$$
\begin{aligned}
\begin{pmatrix}
1 & 2 & 3 \
4 & 5 & 6 \
\end{pmatrix}
\cdot
\begin{pmatrix}
7 & 8 \
9 & 10 \
11 & 12 \
\end{pmatrix}=&
\begin{pmatrix}
1 \times 7 + 2 \times 9 + 3 \times 11 & 1 \times 8 + 2 \times 10 + 3 \times 12 \
4 \times 7 + 5 \times 9 + 6 \times 11 & 4 \times 8 + 5 \times 10 + 6 \times 12
\end{pmatrix}&\
=&
\begin{pmatrix}
58 & 64 \
139 & 154 \
\end{pmatrix}&
\end{aligned}
$$

この例からわかる通り縦横 $2 \times 3$ の形状をもつ行列と縦横 $3 \times 2$ の形状をもつの行列のドット積の結果は $2 \times 2$ の行列となります。

つまり $m \times n$ と $n \times l$ のドット積の形状は $m \times l$ となります。
またドット積を計算するには、左側の行列の行数と、右側の行列の列数が一致している必要があります。

さて、行列のドット積の計算の仕方を見たところで、さきほどのベクトル同士のドット積を再確認しましょう。

正解ラベルを示す行ベクトルを $\boldsymbol{t}$ と、予測値に $\log$ をとった行ベクトル $\boldsymbol{y_{l}}$ はそれぞれ以下のとおりでしたが、

$$
\boldsymbol{t} =
\begin{pmatrix}
t_{1} & t_{2} & t_{3}
\end{pmatrix}
$$

$$
\boldsymbol{y_{l}} =
\begin{pmatrix}
\log y_{1} & \log y_{2} & \log y_{3}
\end{pmatrix}
$$

さきほどの行列のドット積ルールにしたがって計算しようとすると、横一列並んでいる形状をしている行ベクトル同士の計算はできないことがわかります。

つまり、

$$
\begin{pmatrix}
t_{1} & t_{2} & t_{3}
\end{pmatrix}
\cdot
\begin{pmatrix}
\log y_{1} & \log y_{2} & \log y_{3}
\end{pmatrix}
$$

はこのままでは計算できないということになります。
つまり、この2つの行ベクトルを行列とみなすと、どちらも形状が $1 \times 3$ となっています。

ですので、ドット積ができる行列形状である $m \times n$ と $n \times l$ のカタチにするには、ベクトル $\boldsymbol{y_{l}}$ を行ベクトル（横ベクトル）から列ベクトル（縦ベクトル）にすればよさそうです。

$\boldsymbol{y_{l}}$ の成分の行と列を入れ替えた列ベクトル　$\boldsymbol{y_{l}^\mathsf{T} }$ は以下のようになります。

(${\mathsf{T} }$ は転置を意味します。転置とはある行列の成分の列と縦を入れ)替えた行列です。

$$
\boldsymbol{y_{l}^\mathsf{T} } =
\begin{pmatrix}
\log y_{1} \ \log y_{2} \ \log y_{3}
\end{pmatrix}
$$

これで、ドット積の作法で計算することができるようになりました。

さきほどの、ドット積を使った交差エントロピーの計算式でみてみると、

$$
\begin{aligned}
\ E =　&- \boldsymbol{t} \cdot \boldsymbol{y_{l}^\mathsf{T} }& \
&=-\begin{pmatrix}
t_{1} & t_{2} & t_{3}
\end{pmatrix}
\cdot
\begin{pmatrix}
\log y_{1} \ \log y_{2} \ \log y_{3}
\end{pmatrix}& \
&= - ( t_{1} \log y_{1} + t_{2} \log y_{2} + t_{3} \log y_{3}) & \
\end{aligned}
$$

これで、交差エントロピーを行列の計算として求めることができました。

(ちなみに、ベクトル同士のドット積は内積と同じなので計算結果はスカラー（数値）になります。)

今回はいかがでしたでしょうか

冒頭でもふれたとおり、データをベクトルや行列に見立ててドット積を計算したのは、1件ずつ計算をしてループさせるような方式よりも、ベクトルや行列にデータをまとめてイッキに計算したほうが GPU など並列計算が得意な環境では圧倒的に効率が良いためです。

ベクトルや行列にするとコンピューター(とりわけ GPU)との相性がよく計算効率・スピードを高める効果が期待できるからこそこのようなテクニックを用いていますますので、それこそが重要であり、それ以上の数学的な意味・意義はそんなに考えなくてよいのかなというところでしょうか。

それでは、また次回お会いしましょう！

参考文献
https://blog.qualiteg.com/books/

AIがよく間違える「クロージャ問題」の本質と対策

こんにちは！本日は「クロージャ問題」に関する話題となります。 Pythonでループ内に関数を定義したことはありますか？もしあるなら、あれれ？な挙動に遭遇したことがあるかもしれません。本稿では、Pythonプログラマーなら一度は経験する「クロージャ問題」について、初心者にもわかりやすく解説してみたいとおもいますクロージャとは何か？そもそも　”クロージャ”　とは何でしょうか。クロージャ（closure）とは、関数が自分の定義されたスコープの変数を覚えて持ち運ぶ仕組みのことです。もう少し分解すると、次の2つがポイントとなります 1. 内側の関数が、外側の関数の変数を使える 2. 外側の関数が終了しても、その変数は生き続ける普通の関数とクロージャ―を使った関数を比較してみましょう普通の関数との比較まずは普通の関数から、 def add(x, y): return x + y print(add(3, 5)) # 8 print(add(3, 7)

フリーランスHub様にQualiteg Blogをご紹介いただきました

この度、フリーランス向け案件検索サービス「フリーランスHub」様の特集記事「トレンドをキャッチアップ！AIに関する情報が得られるメディア・ブログまとめ」にて、弊社が運営する「Qualiteg Blog」をご紹介いただきました。掲載記事についてフリーランスHub様の記事では、AI技術の最前線で活躍するエンジニアや開発者の方々に向けて、価値ある情報源となるメディア・ブログが厳選して紹介されています。その中で、Qualiteg Blogを「AI技術の専門知識を実践的なビジネス活用につなげる貴重な情報源」として取り上げていただきました。特に以下の点を評価いただいております * 実践的なビジネス活用事例の提供 AI新規事業創出や事業選定方法など、経営者やビジネスリーダーが直面する課題への具体的な解決策 * 技術的な深掘りコンテンツリップシンク技術など、実際のサービスで使用されている技術の開発現場目線での詳細な解説 * 多様な情報発信代表執筆記事、AIトピックス、講演会動画など、幅広いフォーマットでの情報提供今後も価値ある情報発

PyTorchの重いCUDA処理を非同期化したらメモリリークした話と、その解決策

こんにちは！Qualitegプロダクト開発部です！今回は同期メソッドを非同期メソッド(async)化しただけなのに、思わぬメモリリーク※に見舞われたお話です。深層学習モデルを使った動画処理システムを開発していた時のことです。「処理の進捗をリアルタイムでWebSocketで通知したい」という要件があり、「単にasync/awaitを使えばいいだけでしょ？」と軽く考えていたら、思わぬ落とし穴にはまりました。プロ仕様のGPUを使っていたにも関わらず、メモリ不足でクラッシュしてしまいました。この記事では、その原因と解決策、そして学んだ教訓を詳しく共有したいと思います。同じような問題に直面している方の参考になれば幸いです。 ※ 厳密には「メモリリーク」ではなく「メモリの解放遅延」ですが、実用上の影響は同じなので、この記事では便宜上「メモリリーク」と表現します。背景：なぜ進捗通知は非同期である必要があるのかモダンなWebアプリケーションの要求最近のWebアプリケーション開発では、ユーザー体験を向上させるため、長時間かかる処理の進捗をリアルタイムで表示することが

ゼロトラスト時代のLLMセキュリティ完全ガイド：ガーディアンエージェントへの進化を見据えて

こんにちは！今日はセキュリティの新たな考え方「ゼロトラスト」とLLMを中心としたAIセキュリティについて解説いたします！はじめに 3つのパラダイムシフトが同時に起きているいま、企業のIT環境では3つの大きな変革が起ころうとしています。 1つ目は「境界防御からゼロトラストへ」というセキュリティモデルの転換。 2つ目は「LLMの爆発的普及」による新たなリスクの出現。そして3つ目は「AIエージェント時代の到来」とそれに伴う「ガーディアンエージェント」という新概念の登場です。これらは別々の出来事のように見えて、実は密接に関連しています。本記事では、この3つの変革がどのように結びつき、企業がどのような対策を取るべきかを解説いたします目次 1. はじめに：3つのパラダイムシフトが同時に起きている 2. 第1の変革：ゼロトラストという新しいセキュリティ思想 3. 第2の変革：LLM時代の到来とその影響 4. 第3の変革：AIエージェントとガーディアンエージェント 5. 3つの変革を統合する：実践的なアプローチ 6. 実装のベストプラクティス 7. 日本

8章 交差エントロピーとベクトル演算

Read more

AIがよく間違える「クロージャ問題」の本質と対策

フリーランスHub様にQualiteg Blogをご紹介いただきました

PyTorchの重いCUDA処理を非同期化したらメモリリークした話と、その解決策

ゼロトラスト時代のLLMセキュリティ完全ガイド：ガーディアンエージェントへの進化を見据えて

8章交差エントロピーとベクトル演算