AI数理

[AI数理]徹底的に交差エントロピー(1)

Qualiteg 研究部

2024年1月24日 — 4 min read

おはようございます！(株) Qualiteg 研究部です。

今日からは交差エントロピーについて、徹底的に学んでいきたいとおもいます。

交差エントロピー関数の式は２つあるの？

本シリーズではは、機械学習で分類問題の損失関数としてよく使用される交差エントロピー関数をとりあげます。

実はこれまで学んできた　指数関数や対数関数の微分法は、この交差エントロピー関数を深く理解するためのものでした。

交差エントロピーがどのような性質をもっていて、どのように導かれていくのかを理解するのは今後のLLMの仕組み解明でも大いに役立つのでしっかりみていきたいとおもいます！

さて、さっそくですが、

下の $(1)$ は 交差エントロピー関数 です

$$
\ - \frac{1}{N} \sum_{i}^{N} \sum_{k}^{K} t_{ik} \log y_{ik} \tag{1}
$$

下の $(2)$ も、 交差エントロピー関数　です。

$$
\ - \frac{1}{N} \sum_{i}^{N} \lbrack t_{i} \log y_{i} + (1- t_{i}) \log (1- y_{i}) \rbrack \tag{2}
$$

「交差エントロピー関数」で検索すると、だいたい上の2式が紹介されています。

「え？定義が2つあるの？」と素朴な疑問も浮かびますが、実はどちらも同じところから導き出すことができます。

式の単なる暗記よりもどういう素性のものなのか脳ミソに染み込ませたいので、式の導出過程を省略せずに一歩ずつ展開していって、しっかりと概念を理解したいとおもいます。

そのため同じようなことをクドクド、しつこく、繰り返し見て考えていきます！

なお、先にネタバレすると、 $(1)$ 式は 多値分類向け交差エントロピー (多値分類＝入力データを複数のクラスのどれかに分類するタスク）に使えるもので、 $(2)$ 式は 二値分類用の交差エントロピー で二値分類用（入力を２つのクラスに分類するタスク）に使えるものです。

$(2)$ 式の二値交差エントロピー関数は、 $(1)$ 式の多クラス分類用の交差エントロピーを二値分類という特殊ケース用に式展開したもので $(1)$ 式から簡単に導出することができます。
その展開方法も、のちほど詳しく説明します。

本シリーズで理解したいこと

交差エントロピー関数って２つあるみたいけど、どっちが正解なの？　という素朴な疑問が解決する
交差エントロピー(Cross Entropy)と多値用交差エントロピー(Categorical Cross Entropy)と二値用交差エントロピー(Binary Cross Entropy)の違いと使いどころが理解できる
そもそも交差エントロピーって一体何者？　どこから導き出されたものなの？が理解できる

1章分類問題で使う交差エントロピー

ニューラルネットワークで使用する損失関数は多種多様にありますが、分類問題でのド定番は 交差エントロピー誤差関数 だとおもいます。

各種フレームワークにも必ず実装されており、「まず Deep Learning をやってみよう」というシーンでは必ずお世話になります。

分類問題はおおきく２つに分けられます。

二値分類 (2クラス分類)
- 入力データを2つのクラスのどちらに所属するのかを予測します。
  2クラス分類 ともよびます。
  二値分類は結果が「YES」なのか「No」なのかを予測することができます。
  データサイエンスのチュートリアルで有名な　「タイタニック号の乗客が生存できたか、できなかったか」 も二値分類の問題です。

【二値分類の例】

「このメールはスパムなのかスパムじゃないのか」
「このお客は買うのか買わないのか」
「この生徒は合格するのか、しないのか」
「映画レビューの感想が肯定的か否定的か」

多値分類（多クラス分類)
- 入力データが複数あるクラスのどのクラスに所属してるのかを予測します。二値分類とは違い、クラスは複数あってかまいませんが、何個のクラスに分類するかは事前に決めておきます。
  たとえば、入力した画像データが
  「イヌ」「キツネ」「オオカミ」「ネコ」「タヌキ」の5個のクラスのうちどのクラスに所属するのかを予測する、といった具合になります。

この二値分類と多値分類の学習で使う 損失関数 が 交差エントロピー誤差関数 (cross entropy loss function) です。

多値分類（多クラス分類）と二値分類(2クラス分類)を分けていますが、論理的に考えてみれば、多値分類はその名の通り入力データが複数のクラスのうち、どのクラスに所属するかを予測するものなので、二値分類は多値分類の中に入ります。仮に分類したいクラスの数を $k$ 個　とおけば、 $k=2$ のときが二値分類になるということになります。そして、 $k>2$ がいわゆる多クラス分類になります。

このように論理的には二値分類は多値分類の特殊ケースと考えられますが、一見すると以下のように別の交差エントロピー誤差関数が使われます。

これはなぜでしょうか？・・・

ということも含めて交差エントロピーが最終的にクリアになるように数式を丁寧にひもときつつみていきます。

二値分類用の交差エントロピー誤差関数 は Binary Cross Entropy （バイナリクロスエントロピー）という呼称がつかわれ Deep Learning のフレームワーク等では $BCE$ の略語で実装されています。
（binary は　バイナリ　と読み、二値とか、二成分とか、二元みたいな意味になります。入力データを「AかAじゃないか」の２通りに見分けるのでその通りな名前ですね）

$$
\ - \frac{1}{N} \sum_{i}^{N} \lbrack t_{i} \log y_{i} + (1- t_{i}) \log (1- y_{i}) \rbrack \tag{2、再掲}
$$

多値分類用の交差エントロピー誤差関数 は Categorical Cross Entropy や Multi-Class Cross Entropy という呼称がつかわれます。

$$
\ - \frac{1}{N} \sum_{i}^{N} \sum_{k}^{K} t_{ik} \log y_{ik} \tag{1、再掲}
$$

さて、今回は、交差エントロピー誤差関数がどのような問題で活躍しているか概観してまいりました。

次回は、分類問題の本質と尤度関数についてみていきたいとおもいます。

それでは、また次回お会いしましょう！

参考文献
https://blog.qualiteg.com/books/

navigation

AI時代のデータ漏洩防止の要諦とテクノロジー：第2回従来型DLPを超えて、AI-DLPが解決すべき本質的課題

こんにちは！前回の記事では、AI時代のデータ漏洩防止における技術的な基礎として、HTTPSインターセプトの仕組みと限界について詳しく解説しました。プロキシサーバーによるSSL/TLS通信の復号化、中間CA証明書の運用、そして証明書ピンニングという技術的制約まで、企業がWeb通信を監視する際の技術的な現実を明らかにしました。しかし、これらのプロキシ技術は、実は既存のDLP製品でも広く採用されている一般的な手法です。メール監視、ファイル転送の制御、Webアクセスの監査など、従来型のデータ漏洩防止においても、HTTPSインターセプトは中核的な役割を果たしてきました。では、なぜAI時代において新たにDLPを考え直す必要があるのでしょうか。前回にひきつづき、従来型DLPでは対応できないAI固有の課題と、AI-DLPとして新たに考慮すべき要素に焦点を当て、より本質的な議論を展開していきます。 1. AI時代が要求する新たなDLP要件従来のDLP製品は、クレジットカード番号や社会保障番号といった定型的なパターンの検出において優れた実績を持っています。これらの技術は今後も重要な

Claude Fable 5はこれからどうなる？経緯・コスト・今後の見通しをファクトベースで整理する

こんにちは！ 2026年7月2日(日本時間)、日本からもClaude Fable 5が再び利用できるようになりました。 2026年6月に大きな注目を集めて登場し、わずか3日で米政府の指令により停止、そして7月1日(米国時間)に復活したAnthropicの最上位モデル「Claude Fable 5」。復活と同時に「サブスクで使えるのは7月7日まで」という条件が付いたことで、利用者の間ではコストへの懸念の声も見られます。本記事では、憶測と事実を切り分けながら、 (1)これまでの経緯、 (2)確定している料金体系、 (3)実際のコスト試算、 (4)今後の見通し、の4点を整理します。確定情報(ファクト)と筆者の推測は明確に区別して書きます。 ※本記事の日付は、特記のない限りAnthropicの発表に基づく米国時間を基準としています。なお当ブログでは、Fable 5 / Mythos 5についてリリース直後の技術解説、米政府指令による停止が示した可用性リスクの考察、Fable 5の安全分類器がClaude Code上で実際にどう振る舞ったかの体験記を公開してきました。

モデルを「壊さずに」ドメインを広げる ― XLM-RoBERTa 継続学習の設計ノート

こんにちは、Qualiteg研究部です。今日は「すでに完成している強いモデルを、壊さずに広げる」という、地味だけど実務でとても大事なテーマを取り上げたいと思います。機械学習に取り組んでいると、「一度しっかり仕上げたモデルを、新しい用途やデータに合わせてもう少し広げたい」そんな場面はよく出てきます。今回ご紹介するNER（固有表現抽出）のシーンに限らず、いろいろなタスクで共通する悩みではないでしょうか。ところが、ここで素朴に追加学習をかけると、せっかくの強みがあっさり崩れてしまう。私たちは、PII（個人特定情報や要配慮情報）を検出・マスキングするエンジン(PII-FI)を構築する際、実際にそれを経験しました。 Precision（適合率）が 0.83 から 0.17 まで転げ落ちる、なんてことも本当に起きるんです。 PII検出では、ドメイン（分野）ごとに検出したいPII型の種類や求められる精度が異なる場合があります。そこで1つのエンジンといっても、対応ドメインを広げていくたびに（そのドメインに適応させるための）追加学習が求められることがあります。本稿は、そう

Claude Codeで出てくる「court」って何？ “XML露出” 現象とツール呼び出し未実行事故の対策

こんにちは！ Qualitegプロダクト開発部です。 Claude Code を使っていると、ツール呼び出しの XML（<invoke> や <parameter>）が画面にそのまま表示されたり、実際にはコマンドや PR 作成が実行されていないのに「完了しました」と報告されたりして、動作がおかしくなることがあります。そして、その呼び水となる文字列 court や course や count が出現します本稿では、この現象（本稿では「XML露出」と呼びます）を実ログから解説し、検知と対策をまとめました。 ● ● ● claude-code — bash➜ ~/qualiteg-project claude> プロジェクト配下のストレージ使用量を調査します。court<invoke name="Bash">

交差エントロピー関数の式は２つあるの？

本シリーズで理解したいこと

1章 分類問題で使う交差エントロピー

Read more

AI時代のデータ漏洩防止の要諦とテクノロジー：第2回 従来型DLPを超えて、AI-DLPが解決すべき本質的課題

Claude Fable 5はこれからどうなる？ 経緯・コスト・今後の見通しをファクトベースで整理する

モデルを「壊さずに」ドメインを広げる ― XLM-RoBERTa 継続学習の設計ノート

Claude Codeで出てくる「court」って何？ “XML露出” 現象とツール呼び出し未実行事故の対策

1章分類問題で使う交差エントロピー

AI時代のデータ漏洩防止の要諦とテクノロジー：第2回従来型DLPを超えて、AI-DLPが解決すべき本質的課題

Claude Fable 5はこれからどうなる？経緯・コスト・今後の見通しをファクトベースで整理する