(株)Qualiteg - Qualiteg 研究部 - Qualiteg Blog (Page 2)

AI数理

[AI数理]徹底的に交差エントロピー(4)

おはようございます！(株) Qualiteg 研究部です。今回は、多値分類用の交差エントロピーを計算していきたいと思います！ 5章多値分類用交差エントロピーの計算 (データ1件対応版) まず交差エントロピー関数（標本データ１件ぶんバージョン)　を再掲します。 $$ \ - \log L=\sum_{k=1}^{K} t_{k} \log y_{k} \tag{4.3、再掲} $$ $$ t_{k} :頻度, y_{k}:確率 $$ 式 $(4.3)$ の交差エントロピーは 1件の標本データに $K$ 個の事象（が起こったか、起こらなかったか）が含まれていました。

AI数理

[AI数理]徹底的に交差エントロピー(3)

おはようございます！(株) Qualiteg 研究部です。今回は、尤度関数から交差エントロピーを導いていきたいとおもいます！ 4章尤度関数から交差エントロピーを導くさて、今までは 20回ぶんサイコロを投げて、起こった事象（出た目が1なのか、2なのか、・・・、6なのか) を数えた結果を以下の表のようにまとめました。では、こんどは、1回ぶんサイコロを投げたときどうのようになるかみてみます。 1回サイコロをなげた結果が 1の目だった場合は、以下のように書くことができます。（でた目のところに✔マークをいれただけです）さて、?だと計算にもっていきづらいので、出た目のところを $1$ にして、出なかった目は $0$　と置き換えることにします。 ( $1$ が記載されている目は　その目にとっては頻度＝確率＝ $1$　と考え、 $0$ が記載されている目は、その試行では出なかったので、頻度 = 確率 = $0$ と考えると理解しやすいかもしれません。) すると、結果列は以下のように

AI数理

[AI数理]徹底的に交差エントロピー(2)

おはようございます！(株) Qualiteg 研究部です。早速、前回の続きをやっていきましょう！ 2章分類問題は「確率」の予測として解釈する Deep Learning やロジスティック回帰などで解きたい分類問題では、入力データがどのクラスに分類されるのかを予測します。まず入力データが何かに分類されるとはどういうことなのかを考えてみます。たとえば、ある動物の画像を入力データとしたとき、その画像がイヌ、キツネ、オオカミの3つのうちどれなのかを予測する分類器を考えます。（分類器は入力と処理と出力があり、入力は画像データで、処理としてニューラルネットワークやロジスティック回帰などの計算処理をおこない、分類結果を出力するプログラムコードと考えます）この分類器にたとえば　「イヌ」の画像を入力し、分類させた結果は「イヌ」とダイレクトに判定されるわけではありません。ではどのように分類するか

LLM セキュリティ

【LLMセキュリティ】Llama Guard :AI安全性の第一歩

こんにちは、Qualiteg研究部です。本日は昨年末(2023年12月)に発表された Llama Guard について解説いたします。近年、AI技術の進化は目覚ましく、その応用範囲は広がっています。しかし、その一方で、AIシステムが生成するコンテンツの安全性に対する懸念も高まっています。そこで登場したのが、Meta社によって開発されたLlama GuardというAIモデル(LLMです）です。このモデルは、AIが生成するコンテンツの安全性を評価し、不適切な内容を防ぐための重要なツールとなっています。本記事では、Llama Guardの特徴やその効果について詳しく解説いたします。 Llama Guardの概要 Llama Guardは、大規模言語モデル（LLM）に対する入力プロンプト　および　出力レスポンス　の両方にたいしてセーフガードを導入するツールであり、LLMシステムが生成するコンテンツを安全に保つための仕組みを提供しています。具体的には、LLMシステムへの入力および出力情報が不適切でないかを判断するための「安全リスク分類法」により、「安全」か「安全でないか

AI数理

[AI数理]徹底的に交差エントロピー(1)

おはようございます！(株) Qualiteg 研究部です。今日からは交差エントロピーについて、徹底的に学んでいきたいとおもいます。交差エントロピー関数の式は２つあるの？本シリーズではは、機械学習で分類問題の損失関数としてよく使用される交差エントロピー関数をとりあげます。実はこれまで学んできた　指数関数や対数関数の微分法は、この交差エントロピー関数を深く理解するためのものでした。交差エントロピーがどのような性質をもっていて、どのように導かれていくのかを理解するのは今後のLLMの仕組み解明でも大いに役立つのでしっかりみていきたいとおもいます！さて、さっそくですが、下の $(1)$ は交差エントロピー関数です $$ \ - \frac{1}{N} \sum_{i}^{N} \sum_{k}^{K} t_{ik} \log y_{ik} \tag{1} $$ 下の $(2)$ も、交差エントロピー関数　です。 $$ \ - \frac{1}{N} \sum_{i}

AI数理

[AI数理]対数関数の微分法・後編

おはようございます！(株) Qualiteg 研究部です。本日は対数関数の微分法の後編です！今回で、対数関数の微分法をマスターしましょう！ 2. 対数関数の公式まず、対数関数の公式をおさえておきます。あとで対数関数の微分法の導出で使用します $a^{0} = 1$ 、つまり $a$ を $0$ 乗すると $1$ となるため $$ \log_a 1 = 0 \tag{2.1} $$ $a^{1} = a$ 、つまり $a$ を $1$ 乗すると $a$ となるため $$ \log_a a = 1 \tag{2.2} $$ 積の対数 $$ \log_a (X

LLM セキュリティ

【LLMセキュリティ】ゼロリソースブラックボックスでの幻覚(ハルシネーション)検出

こんにちは、Qualiteg研究部です。今回は、データベースなど外部の情報を使用しない「ゼロリソース」状態での幻覚（ハルシネーション）検出の手法である以下論文について解説いたします。 SelfCheckGPT: Zero-Resource Black-Box Hallucination Detection for Generative Large Language Models https://arxiv.org/abs/2303.08896 背景 LLMが出力する「幻覚」の問題近年、生成型大規模言語モデル（LLMs）は、多様なユーザープロンプトに対して非常に流暢な応答を生成する能力を持っています。しかし、これらのモデルは事実を幻覚させたり、非事実的な発言をすることが知られており、出力への信頼性を損なう可能性があります。この問題に対処するための既存のファクトチェック手法は、出力確率分布へのアクセスが必要だったり、外部データベースを使用した複雑なモジュールを必要としたりします。本論文では、SelfCheckGPTと呼ばれる新しいアプローチを提案しています。このア

AI数理

[AI数理]対数関数の微分法・前編

おはようございます！(株) Qualiteg 研究部です。本日から２回にわたって対数関数について学んでいきましょう。正確にいうと、対数関数の微分法を学びます。対数関数って何だっけ？まず、対数関数というのは、「ある数 $ x $ が別の数 $ b $ を何回かけると $ x $ になるか」を調べる方法です。例えば、$ b $ が 2 で $ x $ が 8 の場合、2 を 3 回かけると 8 になります。この場合、数学的には「$ b $ の $ x $ に対する対数」と言います。これを数式で表すと、次のようになります： $$ \log_b(x) = y $$ ここで $ b $ は底（

AI数理

[AI数理] 指数関数

おはようございます！(株) Qualiteg 研究部です。本日は指数関数を学びましょう。対数関数の微分公式の導出でお役立ちなので、今回の出番となりました。指数関数とは指数関数は、繰り返しの掛け算を表す数学の式です。例えば、「2を3回掛ける」を考えると、これは $2 \times 2 \times 2$ となり、結果は $8$ です。数学的には、これを $2^3 = 8$ と表現します。ここで $2^3$ の形が指数関数であり、「 $2$ 」が底、「$3$」が指数です。指数関数は多くの自然現象や科学技術で見られる現象を表すのに非常に重要です。例えば、銀行の複利計算や細菌の増殖など、時間とともに増加する速度が速くなるような現象です。指数関数はまた、数学において他の多くの概念や公式の基礎ともなっています。特に、対数関数の微分公式の導出には指数関数が不可欠です。対数関数の微分は、対数関数のグラフの傾きを求める計算方法です。この微分公式を理解するためには、指数関数の性質が重要です。指数関数の重要な性質の一つに、

AI数理

AI数理は Minecraftの夢を見る?

みなさまこんにちは、(株) Qualiteg 研究部です。 LLM関連の論文を読んでいると、なぞの数式、なぞの記号がたくさんでてきて、めまいがすることはないでしょうか？私も学生時代ニューラルネットを研究していましたが、それを理解するための数学的背景がミルフィーユのように多層になっており、面食らった記憶があります。現代のLLMは、パーセプトロンや初期のニューラルネットの研究にくらべると、いや、分析系のディープラーニングベースAIの頃からみてもミルフィーユの層が10倍くらい厚く、LLMの仕組みを数学的に理解するには、その何重、何百という数学的理論基盤を理解しなければいけません。（LLMを利用するだけなら、ミルフィーユをまるごと食べて「おいし～」って言っている状態ですが、じゃあ、その多層（の数理）になったミルフィーユを１層ずつ理解しながら作っていくのは食べるのにくらべてどれだけ大変か、ですね。）このように、LLMの実現には、機械学習の基礎編としての確率統計の話や、クラシックな機械学習の理論から、ディープラーニングで使う微分や離散化、RNN,LSTMなどを経てそこからトラ