(株)Qualiteg - AI数理

AI数理

スライドパズルを解くAIから学ぶ、「考える」の正体

こんにちは！「このパズル、AIの教科書に載ってるらしいよ」子供の頃に遊んだスライドパズル。いや、大人が遊んでも楽しいです。数字のタイルをカチャカチャ動かして揃えるあれです。実はこのシンプルなパズルが、AI研究の出発点のひとつだったって知ってました？今回は、このパズルを題材に「AIがどうやって考えているのか」を解き明かしていきます。しかも、ここで使われている手法は、Google Mapsの経路探索からChatGPTまで、現代の様々な技術のベースになっているんです。まず遊んでみよう理屈の前に、まずは感覚を思い出してみてください。最初に shuffle をクリックすると、配置がシャッフルされゲームを開始できます。ちなみに必ず解くことができるようになっていますが、慣れていないとそれなりに難しいかもしれません。どうでしょう？何手でクリアできましたか？クリアできなくても大丈夫です。記事後半で、実際にAIが解いてくれる機能つきゲームも掲載しています＾＾以下は動画です。本ブログで紹介するアルゴリズムで実際にパズルを解く様子をご覧いただけます

AI数理

発話音声からリアルなリップシンクを生成する技術第5回(前編)：Transformerの実装と実践的な技術選択

こんにちは！リップシンク技術シリーズもいよいよ終盤となりました。前回（第4回）では、LSTMの学習プロセスと限界について詳しく解説しました。限られたデータでも効果的に学習できるLSTMの強みを理解する一方で、長距離依存の処理に限界があることも明らかになりました。そして、この問題を解決する革新的なアプローチとして、すべての位置の情報を同時に参照できるTransformerのSelf-Attention機構を紹介しました。第５回の今回は、 Transformerの具体的なネットワーク設計から始め、その実装上の課題を明らかにします。（前編※）そして、LSTMとTransformerの長所を組み合わせたハイブリッドアプローチを紹介し、実際の製品開発における技術選択の指針を示します。最後に、感情表現への拡張という次なる挑戦についても触れていきます。（後編※） ※Transformerの仕組みは複雑であるため、第５回は前編と後編に分けて解説させていただく予定です。 1. Transformerベースのネットワーク設計 1.1 全体アーキテクチャ図では、さっそく、Tran

AI数理

発話音声からリアルなリップシンクを生成する技術第4回：LSTMの学習と限界、そしてTransformerへ

1. 位置損失 (L_position) - 口の形の正確さ時間口の開き正解予測 L_position = Σᵢ wᵢ × ||y_pred - y_true||² 各時点での予測値と正解値の差を計算。重要なパラメータ（顎の開き、口の開き）には大きな重みを付けます。 jaw_open: ×2.0 mouth_open: ×2.0 その他: ×1.0 2. 速度損失 (L_velocity) - 動きの速さ時間速度 t→t+1 v = y[t] -

AI数理

発話音声からリアルなリップシンクを生成する技術第3回：wav2vec特徴量から口形パラメータへの学習

こんにちは！前回までの記事では、 * wav2vecを用いた音声特徴量抽出の仕組み（第1回）と、 * リップシンク制作における累積ドリフトの補正技術（第2回）について解説してきました。今回はいよいよ、これらの技術を統合して実際に音声から口の動きを生成する核心部分に踏み込みます。本記事で扱うのは、wav2vecが抽出した768次元の音響特徴量を、26個の口形制御パラメータの時系列データに変換する学習プロセスです。これは単なる次元削減ではありません。音の物理的特性を表す高次元ベクトルから、人間の口の動きという全く異なるモダリティへの変換なのです。この変換を実現するには、音韻と視覚的な口形の間にある複雑な対応関係を、ニューラルネットワークに学習させる必要があります。特に重要なのは、この対応関係が静的ではなく動的であるという点です。同じ音素でも前後の文脈によって口の形が変わり、さらに音が聞こえる前から口が動き始めるという時間的なズレも存在します。これらの複雑な現象をどのようにモデル化し、学習させるのか。本記事では、LSTMとTransformerという2つの強力なアプロー

AI数理

発話音声からリアルなリップシンクを生成する技術第2回：AIを使ったドリフト補正

こんにちは！前回の記事では、当社のMotionVoxで使用している「リップシンク」技術について、wav2vecを用いた音声特徴量抽出の仕組みを解説しました。音声から正確な口の動きを予測するための基礎技術について理解いただけたかと思います。今回は、その続編として、リップシンク制作における重要な技術的課題である「累積ドリフト」に焦点を当てます。wav2vecで高精度な音素認識ができても、実際の動画制作では複数の音声セグメントを時系列に配置する際、わずかなタイミング誤差が蓄積して最終的に大きなずれとなる現象が発生します。本記事では、この累積ドリフトのメカニズムと、機械学習を活用した最新の補正技術について、実際の測定データを交えながら詳しく解説していきます。前回のwav2vecによる特徴抽出と今回のドリフト補正技術を組み合わせることで、MotionVoxがどのように高品質なリップシンクを実現しているのか、その全体像が見えてくるはずです。累積ドリフトとは何か基本概念累積ドリフトとは、個々の音声セグメントが持つ微小なタイミング誤差が、時間の経過とともに蓄積していく現象で

AI数理

発話音声からリアルなリップシンクを生成する技術第1回：音素とwav2vec

こんにちは！今日は当社のMotionVox でも実際に使っている「リップシンク」技術について総合的に解説してみたいとおもいます。音声に合わせて自然な口の動きを生成するリップシンク技術は、AIアバターや3Dアニメーション制作においても重要な技術です。本記事では、最新のディープラーニング技術を活用したリップシンク学習の基礎から実装まで、技術的な観点から詳しく解説します。 1. リップシンク学習の基礎概念 1.1 問題設定リップシンク学習とは、音声データから対応する口の動きを予測する回帰問題ととらえることができます f: 音声特徴量(t) → 口の動きパラメータ(t) この問題のコアは音韻（音の特徴）と視素（視覚的な口の形）の対応関係を学習することにあります。 1.2 音韻-視素マッピングの複雑性ただし！人間の発話における音と口の形の関係は、単純な1対1マッピングではないんです。同じ音でも文脈で変化「あ」の発音でも： - 「か」の後の「あ」→ 口がやや狭めから開く - 「ん」の後の「あ」→ 口が閉じた状態から大きく開く調音結合

AI数理

Zoom会議で肩が踊る？自動フレーミング映像安定化とAIによる性能向上の可能性

こんにちは！本日は、自動フレーミング映像の安定化に関するアルゴリズム・ノウハウを解説いたします第1章問題の背景と目的バストアップ映像を撮影する際、特にオンラインミーティングやYouTubeなどのトーク映像では、人物がうなずく、首を振るなどの自然な動作をした際に「首まわりや肩がフレーム内で上下に移動してしまう」という現象がしばしば起こります。これは、多くの場合カメラや撮影ソフトウェアが人物の「目や顔を画面中央に保とう」とする自動フレーミング機能の働きに起因します。撮影対象の人物が頭を下げた際に、映像のフレーム全体が相対的に上方向へシフトし、その結果、本来動いていないはずの肩の部分が映像内で持ち上がっているように見えてしまう現象です。本稿では、この問題を撮影後の後処理（ポストプロセッシング）のみを用いて、高速、高い精度かつロバストに解決する手法をご紹介します。前半では、従来のCV（コンピュータービジョン）の手法を使い高速に処理する方法をご紹介します。後半では、AIを使用してより安定性の高い性能を実現する方法について考察します。第2章古典手法による肩の上下

AI数理

GPUサーバーの最適容量計算: キューイング理論と実践的モデル

最大ユーザーサポート数計算ツール同時に1件のみ処理できるGPU変換サーバーの最大ユーザーサポート数を計算します処理時間 (t_p) 分/件 1件の変換処理にかかる時間目標システム利用率 (ρ) 0 〜 1 安定稼働のための目標稼働率（推奨: 0.7〜0.8）ピーク係数 (P_c) 倍最も混雑する時間帯の平均アクセス倍率稼働時間 (H) 時間/日システムが1日に稼働している総時間アクセス確率 (P_a) 0 〜 1 1人のユーザーが1日にシステムを利用する確率 1ユーザーあたりの変換回数 (F) 回/日利用する日の平均変換処理回数計算過程を表示計算結果サポート可能な総ユーザー数: 人計算式: N = (ρ × μ × H) ÷ (P_a

AI数理

ディープラーニングにおけるEMA（Exponential Moving Average）

こんにちは！本日は、画像生成、動画生成モデルなどで重要な役割を果たしている EMA ※について解説してみたいとおもいます！当社のAIアバター動画生成サービス「MotionVox™」でも役立っています！といっても、画像生成のための専用技術というわけではなく、学習と推論（生成系も含む）というディープラーニングの運用の中で昨今かなり重宝されるテクニックとなっておりますので、基礎から実装までみていきたいとおもいます。 ※EMAの読み方は私はエマと呼んでますが、イーエムエーって言ってる人もいます。どっちでもいいでしょう。 EMA の基礎知識 EMA（Exponential Moving Average=指数移動平均）は、ざっくりいえばモデルの重みを平均化する手法です。実は株価分析などでも使われている古くからある概念なのですが、ディープラーニングでは比較的最近になって「あ、これ結構使えるんじゃね？」と重要性が認識されるようになりました。（”EMA”に限らず、理論の積み上げではなく「やってみたら、使えんじゃん」っていうのがかなり多いのがディープラーニング界隈のもはや常識でし

AI数理

DPO(直接選好最適化）の基礎から画像・動画AIへの応用まで

こんにちは Qualiteg研究部です！本日は、2023年、AnthropicのRafael Rafailov、Archit Sharmaらの研究チームによって提案された「直接選好最適化（Direct Preference Optimization: DPO）」について、基礎から応用までを解説します。この手法は、論文「Direct Preference Optimization: Your Language Model is Secretly a Reward Model」で発表され、AIの学習手法に大きな影響を与えています。この論文では、言語モデル（LM）の動作を人間の好みに調整する新しい手法「Direct Preference Optimization（DPO）」を提案していますが、最近では、VLMなど言語モデルに限らず応用が広がっています。しかも、理論は比較的シンプルなので、じわりと人気があがっていますね！ DPOが生まれた背景言語モデルは大規模データで事前学習されるため、幅広い知識と能力を持つが、その動作を制御するのは困難でした。そのため、従来の言語モデ

IT & AIテクノロジー

画像生成技術の進化　～GANからディフフュージョンモデルまで～

こんにちは！株式会社Qualiteg研究部です！今日は画像生成技術について投稿いたします。みなさまご存じの通り人工知能による画像生成技術は、過去10年間で急速な進化を遂げました。今年は2024年。ちょうど2014年に「GAN」がでて10年です。テキスト系生成AIの勢いがすごい昨今ですが、画像生成AI、超解像AIからの動画生成AIなどコンピュータビジョンかいわいも大きく進化を遂げていますね。本記事では、主にGenerative Adversarial Networks (GAN)とディフフュージョンモデルに焦点を当て、画像生成技術の歴史的な発展を振り返ります。特に、これらの技術が画像生成と超解像の分野でどのように応用されてきたかを詳しく見ていこうとおもいます。ブログ本編の前に！　ダイジェスト動画あります！本ブログのダイジェストを以下の動画で語っておりますので、よろしかったらこちらもご覧くださいませ！ GANとディフュージョンモデル GANとは GAN（Generative Adversarial Network）は、2014年にIan Goodf

IT & AIテクノロジー

推論速度を向上させる Speculative Decoding(投機的デコーディング)とは

こんにちは Qualiteg 研究部です。投機的デコーディングとは何か？投機的デコーディングは、大規模言語モデル（LLM）の推論速度を向上させる技術です。たいていのモデルを1.4～2.0倍程度、高速化できることが報告されています。このアプローチでは、小さなモデル（ドラフトモデル）を使用して初期の予測を行い、その結果を大きなモデル（ターゲットモデル）が検証することで、全体の推論プロセスを高速化します。ざっくりいうと、大きなモデルは計算負荷も高く計算速度も遅いので、まず、小さなモデルで高速に計算したあとで、その計算結果をうまくつかって大きなモデルでの計算負荷をさげ、スピードを向上させようというアイデアです。基本的に大きなモデルと、小さなモデルはサイズ以外は基本的にまったく同じネットワーク構造をしていることが前提となります。たとえば 70Bの Llama3 と 8B の Llama3 を組み合わせてつかうイメージです。当然70B の Llama3 の推論計算のほうが 8B よりも重たくなりますので、小さい8BのLlama3 で先回りして推論計算することで

AI数理

[AI数理]徹底的に交差エントロピー(7)

おはようございます！(株) Qualiteg 研究部です。今回は、交差エントロピーの計算をベクトルや行列で表現する方法について説明します！ 8章交差エントロピーとベクトル演算そもそも、なぜ、交差エントロピーをベクトルや行列で表現したいのでしょうか？それは、実際にニューラルネットワークをコンピュータープログラムとして実装するときに、訓練データや予測値はベクトル(1次元配列)や行列(2次元配列)といったN階テンソル(N次元配列)の形式で取り扱われるからです。なぜベクトルや行列かといえば、ニューラルネットワークの実用的な計算をするときにはデータを1件とりだしては、1件計算する　のではなく、多くのデータをベクトル（1次元配列）や行列（2次元配列）やそれ以上の多次元配列に詰めたのちに、まとめてドカっと計算するからです。（まとめてドカっと計算するのが得意な GPU があるからこそ、これだけ Deep Learning が進展した、ともいえます）そこで、今までで導出してきた交差エントロピーの計算をコンピュータで実装するときに備えて、 1次元配列にしてみます。

ChatStream Guide

LLMサンプリングにおける3つのペナルティ

[付録]ペナルティの比較ペナルティタイプ目的適用方法ペナルティの例 Repetition Penalty 特定のトークンやフレーズが繰り返されるのを防ぐ。過去に生成されたすべてのトークンのログ確率（logits）に対してペナルティを適用する。例えば、あるトークンがすでに生成された場合、そのトークンのログ確率をペナルティ値で割る（乗算）か、ペナルティ値を引く（減算）。 Frequency Penalty 生成されたトークンの出現頻度に基づいてペナルティを適用し、頻繁に出現するトークンを抑制する。各トークンが生成された回数に基づいてペナルティを適用する。トークンが出現するたびに、そのトークンの出現確率を低減させる。トークンが出現するたびに、そのトークンのログ確率をペナルティ値で累積的に割る（乗算）か、ペナルティ値を累積的に引く（減算）。 Presence Penalty すでに生成されたトークンが再度出現するのを防ぐ。トークンが一度でも生成されたかどうかに基づいてペナルティを適用する。一度生成されたトークンには再出現の際にペナルティが適用さ

AI数理

[AI数理]徹底的に交差エントロピー(6)

おはようございます！(株) Qualiteg 研究部です。今回は、二値分類用の交差エントロピーについてみていきましょう！ 7章二値分類用交差エントロピー 7-1. 二値分類用交差エントロピー (データ1件対応版) さて、ここから、二値分類用の交差エントロピーを導きたいとおもいます。二値分類は入力されたデータが 2 つのうちどちらか、を予測するものです。まず話をシンプルにするために、バッチ版ではなく、式 $(5.2)$ に示した 1件版の交差エントロピーの式を思い出します。 $$ E = - \sum_{k=1}^{K} t_{k} \log y_{k} \tag{5.2、再掲} $$ $$ \begin{aligned} &K:分類の数,　t_{k}

スライドパズルを解くAIから学ぶ、「考える」の正体

発話音声からリアルなリップシンクを生成する技術 第5回(前編)：Transformerの実装と実践的な技術選択

発話音声からリアルなリップシンクを生成する技術 第4回：LSTMの学習と限界、そしてTransformerへ

発話音声からリアルなリップシンクを生成する技術 第3回：wav2vec特徴量から口形パラメータへの学習

発話音声からリアルなリップシンクを生成する技術 第2回：AIを使ったドリフト補正

発話音声からリアルなリップシンクを生成する技術 第1回：音素とwav2vec

Zoom会議で肩が踊る？自動フレーミング映像安定化とAIによる性能向上の可能性

人気ゲーム「ヒット&ブロー」で学ぶ情報理論

GPUサーバーの最適容量計算: キューイング理論と実践的モデル

ディープラーニングにおけるEMA（Exponential Moving Average）

DPO(直接選好最適化）の基礎から画像・動画AIへの応用まで

画像生成技術の進化 ～GANからディフフュージョンモデルまで～

推論速度を向上させる Speculative Decoding(投機的デコーディング)とは

[AI数理]徹底的に交差エントロピー(7)

LLMサンプリングにおける3つのペナルティ

[AI数理]徹底的に交差エントロピー(6)

発話音声からリアルなリップシンクを生成する技術第5回(前編)：Transformerの実装と実践的な技術選択

発話音声からリアルなリップシンクを生成する技術第4回：LSTMの学習と限界、そしてTransformerへ

発話音声からリアルなリップシンクを生成する技術第3回：wav2vec特徴量から口形パラメータへの学習

発話音声からリアルなリップシンクを生成する技術第2回：AIを使ったドリフト補正

発話音声からリアルなリップシンクを生成する技術第1回：音素とwav2vec

画像生成技術の進化　～GANからディフフュージョンモデルまで～