(株)Qualiteg - Qualiteg 研究部

AI数理

発話音声からリアルなリップシンクを生成する技術第4回：LSTMの学習と限界、そしてTransformerへ

1. 位置損失 (L_position) - 口の形の正確さ時間口の開き正解予測 L_position = Σᵢ wᵢ × ||y_pred - y_true||² 各時点での予測値と正解値の差を計算。重要なパラメータ（顎の開き、口の開き）には大きな重みを付けます。 jaw_open: ×2.0 mouth_open: ×2.0 その他: ×1.0 2. 速度損失 (L_velocity) - 動きの速さ時間速度 t→t+1 v = y[t] -

AI数理

発話音声からリアルなリップシンクを生成する技術第3回：wav2vec特徴量から口形パラメータへの学習

こんにちは！前回までの記事では、 * wav2vecを用いた音声特徴量抽出の仕組み（第1回）と、 * リップシンク制作における累積ドリフトの補正技術（第2回）について解説してきました。今回はいよいよ、これらの技術を統合して実際に音声から口の動きを生成する核心部分に踏み込みます。本記事で扱うのは、wav2vecが抽出した768次元の音響特徴量を、26個の口形制御パラメータの時系列データに変換する学習プロセスです。これは単なる次元削減ではありません。音の物理的特性を表す高次元ベクトルから、人間の口の動きという全く異なるモダリティへの変換なのです。この変換を実現するには、音韻と視覚的な口形の間にある複雑な対応関係を、ニューラルネットワークに学習させる必要があります。特に重要なのは、この対応関係が静的ではなく動的であるという点です。同じ音素でも前後の文脈によって口の形が変わり、さらに音が聞こえる前から口が動き始めるという時間的なズレも存在します。これらの複雑な現象をどのようにモデル化し、学習させるのか。本記事では、LSTMとTransformerという2つの強力なアプロー

AI数理

発話音声からリアルなリップシンクを生成する技術第2回：AIを使ったドリフト補正

こんにちは！前回の記事では、当社のMotionVoxで使用している「リップシンク」技術について、wav2vecを用いた音声特徴量抽出の仕組みを解説しました。音声から正確な口の動きを予測するための基礎技術について理解いただけたかと思います。今回は、その続編として、リップシンク制作における重要な技術的課題である「累積ドリフト」に焦点を当てます。wav2vecで高精度な音素認識ができても、実際の動画制作では複数の音声セグメントを時系列に配置する際、わずかなタイミング誤差が蓄積して最終的に大きなずれとなる現象が発生します。本記事では、この累積ドリフトのメカニズムと、機械学習を活用した最新の補正技術について、実際の測定データを交えながら詳しく解説していきます。前回のwav2vecによる特徴抽出と今回のドリフト補正技術を組み合わせることで、MotionVoxがどのように高品質なリップシンクを実現しているのか、その全体像が見えてくるはずです。累積ドリフトとは何か基本概念累積ドリフトとは、個々の音声セグメントが持つ微小なタイミング誤差が、時間の経過とともに蓄積していく現象で

AI数理

発話音声からリアルなリップシンクを生成する技術第1回：音素とwav2vec

こんにちは！今日は当社のMotionVox でも実際に使っている「リップシンク」技術について総合的に解説してみたいとおもいます。音声に合わせて自然な口の動きを生成するリップシンク技術は、AIアバターや3Dアニメーション制作においても重要な技術です。本記事では、最新のディープラーニング技術を活用したリップシンク学習の基礎から実装まで、技術的な観点から詳しく解説します。 1. リップシンク学習の基礎概念 1.1 問題設定リップシンク学習とは、音声データから対応する口の動きを予測する回帰問題ととらえることができます f: 音声特徴量(t) → 口の動きパラメータ(t) この問題のコアは音韻（音の特徴）と視素（視覚的な口の形）の対応関係を学習することにあります。 1.2 音韻-視素マッピングの複雑性ただし！人間の発話における音と口の形の関係は、単純な1対1マッピングではないんです。同じ音でも文脈で変化「あ」の発音でも： - 「か」の後の「あ」→ 口がやや狭めから開く - 「ん」の後の「あ」→ 口が閉じた状態から大きく開く調音結合

AI数理

Zoom会議で肩が踊る？自動フレーミング映像安定化とAIによる性能向上の可能性

こんにちは！本日は、自動フレーミング映像の安定化に関するアルゴリズム・ノウハウを解説いたします第1章問題の背景と目的バストアップ映像を撮影する際、特にオンラインミーティングやYouTubeなどのトーク映像では、人物がうなずく、首を振るなどの自然な動作をした際に「首まわりや肩がフレーム内で上下に移動してしまう」という現象がしばしば起こります。これは、多くの場合カメラや撮影ソフトウェアが人物の「目や顔を画面中央に保とう」とする自動フレーミング機能の働きに起因します。撮影対象の人物が頭を下げた際に、映像のフレーム全体が相対的に上方向へシフトし、その結果、本来動いていないはずの肩の部分が映像内で持ち上がっているように見えてしまう現象です。本稿では、この問題を撮影後の後処理（ポストプロセッシング）のみを用いて、高速、高い精度かつロバストに解決する手法をご紹介します。前半では、従来のCV（コンピュータービジョン）の手法を使い高速に処理する方法をご紹介します。後半では、AIを使用してより安定性の高い性能を実現する方法について考察します。第2章古典手法による肩の上下

AI数理

ディープラーニングにおけるEMA（Exponential Moving Average）

こんにちは！本日は、画像生成、動画生成モデルなどで重要な役割を果たしている EMA ※について解説してみたいとおもいます！当社のAIアバター動画生成サービス「MotionVox™」でも役立っています！といっても、画像生成のための専用技術というわけではなく、学習と推論（生成系も含む）というディープラーニングの運用の中で昨今かなり重宝されるテクニックとなっておりますので、基礎から実装までみていきたいとおもいます。 ※EMAの読み方は私はエマと呼んでますが、イーエムエーって言ってる人もいます。どっちでもいいでしょう。 EMA の基礎知識 EMA（Exponential Moving Average=指数移動平均）は、ざっくりいえばモデルの重みを平均化する手法です。実は株価分析などでも使われている古くからある概念なのですが、ディープラーニングでは比較的最近になって「あ、これ結構使えるんじゃね？」と重要性が認識されるようになりました。（”EMA”に限らず、理論の積み上げではなく「やってみたら、使えんじゃん」っていうのがかなり多いのがディープラーニング界隈のもはや常識でし

LLM-Audit

PIIの高精度検出を支える技術～日本語という言語の奥深さに寄り添う～

こんにちは、Qualiteg研究部です！本日はPII（個人識別情報）検出技術について解説いたします。グローバルツールと日本語特化ツールの共存個人情報保護は世界共通の課題です。 GDPR、CCPA、そして日本の改正個人情報保護法など、世界中で規制が強化される中、多くの優れたPII（個人識別情報）検出ツールが研究・開発されていますが、日本語を中心としたビジネスシーンで利用しようとすると「おや？」っとなることが多く割と無視できない規模の追加開発、特別対応による追加工数が発生することがあります。なぜなら、それらツールは英語（および英語文化圏）を中心に設計されており、スペック上は日本語も対応言語の１つとして挙げられておりますがきめ細やかな対応が後手にまわることが多いです。当然ですが言語には固有の文化と構造があり日本語は、その独特な文字体系と文化的背景により、特別なアプローチが必要となるシーンが存在しています。私たちが開発している日本語特化型PII検出技術は、グローバルに採用されている優れた基盤技術も活かし共存ながら、日本語の特性に深く寄り添うことで、日本企業により実用的なソリュ

AI数理

DPO(直接選好最適化）の基礎から画像・動画AIへの応用まで

こんにちは Qualiteg研究部です！本日は、2023年、AnthropicのRafael Rafailov、Archit Sharmaらの研究チームによって提案された「直接選好最適化（Direct Preference Optimization: DPO）」について、基礎から応用までを解説します。この手法は、論文「Direct Preference Optimization: Your Language Model is Secretly a Reward Model」で発表され、AIの学習手法に大きな影響を与えています。この論文では、言語モデル（LM）の動作を人間の好みに調整する新しい手法「Direct Preference Optimization（DPO）」を提案していますが、最近では、VLMなど言語モデルに限らず応用が広がっています。しかも、理論は比較的シンプルなので、じわりと人気があがっていますね！ DPOが生まれた背景言語モデルは大規模データで事前学習されるため、幅広い知識と能力を持つが、その動作を制御するのは困難でした。そのため、従来の言語モデ

IT & AIテクノロジー

画像生成技術の進化　～GANからディフフュージョンモデルまで～

こんにちは！株式会社Qualiteg研究部です！今日は画像生成技術について投稿いたします。みなさまご存じの通り人工知能による画像生成技術は、過去10年間で急速な進化を遂げました。今年は2024年。ちょうど2014年に「GAN」がでて10年です。テキスト系生成AIの勢いがすごい昨今ですが、画像生成AI、超解像AIからの動画生成AIなどコンピュータビジョンかいわいも大きく進化を遂げていますね。本記事では、主にGenerative Adversarial Networks (GAN)とディフフュージョンモデルに焦点を当て、画像生成技術の歴史的な発展を振り返ります。特に、これらの技術が画像生成と超解像の分野でどのように応用されてきたかを詳しく見ていこうとおもいます。ブログ本編の前に！　ダイジェスト動画あります！本ブログのダイジェストを以下の動画で語っておりますので、よろしかったらこちらもご覧くださいませ！ GANとディフュージョンモデル GANとは GAN（Generative Adversarial Network）は、2014年にIan Goodf

LLM セキュリティ

【LLMセキュリティ】ハルシネーションの検出方法

こんにちは、Qualiteg研究部です。本日は、RAGにおけるハルシネーション検出に関する、こちらの論文について解説をしつつ、ハルシネーション検出をおこなうLLMについて考察をしてみたいと思います。 "Lynx: An Open Source Hallucination Evaluation Model" https://arxiv.org/pdf/2407.08488 概要 LYNXという、RAG(Retrieval Augmented Generation) システムにおいて参照なしで高品質なハルシネーション検出が可能なオープンソースのLLMの構築方法、仕組みに関する論文です。 RAGシーンにおいて、LLMが生成する回答が、質問やコンテキストに対して「忠実」であるかどうかを判定することで、ハルシネーションを検出することができます。研究の成果である、ハルシネーション判定のために llama3ファインチューニングがほどこされたモデルは以下に公開されています。 https://huggingface.co/PatronusAI/Llama-3-Patronus-Lynx

IT & AIテクノロジー

推論速度を向上させる Speculative Decoding(投機的デコーディング)とは

こんにちは Qualiteg 研究部です。投機的デコーディングとは何か？投機的デコーディングは、大規模言語モデル（LLM）の推論速度を向上させる技術です。たいていのモデルを1.4～2.0倍程度、高速化できることが報告されています。このアプローチでは、小さなモデル（ドラフトモデル）を使用して初期の予測を行い、その結果を大きなモデル（ターゲットモデル）が検証することで、全体の推論プロセスを高速化します。ざっくりいうと、大きなモデルは計算負荷も高く計算速度も遅いので、まず、小さなモデルで高速に計算したあとで、その計算結果をうまくつかって大きなモデルでの計算負荷をさげ、スピードを向上させようというアイデアです。基本的に大きなモデルと、小さなモデルはサイズ以外は基本的にまったく同じネットワーク構造をしていることが前提となります。たとえば 70Bの Llama3 と 8B の Llama3 を組み合わせてつかうイメージです。当然70B の Llama3 の推論計算のほうが 8B よりも重たくなりますので、小さい8BのLlama3 で先回りして推論計算することで

AI数理

[AI数理]徹底的に交差エントロピー(7)

おはようございます！(株) Qualiteg 研究部です。今回は、交差エントロピーの計算をベクトルや行列で表現する方法について説明します！ 8章交差エントロピーとベクトル演算そもそも、なぜ、交差エントロピーをベクトルや行列で表現したいのでしょうか？それは、実際にニューラルネットワークをコンピュータープログラムとして実装するときに、訓練データや予測値はベクトル(1次元配列)や行列(2次元配列)といったN階テンソル(N次元配列)の形式で取り扱われるからです。なぜベクトルや行列かといえば、ニューラルネットワークの実用的な計算をするときにはデータを1件とりだしては、1件計算する　のではなく、多くのデータをベクトル（1次元配列）や行列（2次元配列）やそれ以上の多次元配列に詰めたのちに、まとめてドカっと計算するからです。（まとめてドカっと計算するのが得意な GPU があるからこそ、これだけ Deep Learning が進展した、ともいえます）そこで、今までで導出してきた交差エントロピーの計算をコンピュータで実装するときに備えて、 1次元配列にしてみます。

IT & AIテクノロジー

Google Gemini 1.5 API の機能、特徴、価格と使い方

こんにちは！(株)Qualiteg テックブログです！【2024年7月2日更新版】本日は Google Gemini 1.5 Pro/ Gemini 1.5 Flash モデルの特徴、価格、Pythonをつかったテキスト生成について解説いたします。 Google Gemini とは Google Geminiは、Googleが提供する生成AIプラットフォームです。高品質なテキスト生成を行うためのAPIを提供し、さまざまなアプリケーションで自然な言語生成を利用できます。Geminiは多くの業界で使用されており、コンテンツ作成、カスタマーサポート、チャットボット、マーケティング、教育など、幅広い用途に対応しています。 APIキーの取得方法 Google Geminiを利用するためには、APIキーが必要です。以下の手順でAPIキーを取得できます。 Google AI Studio にアクセスして、手順にしたがい、Get API key でAPIキーを作成します。 https://aistudio.google.

AI数理

[AI数理]徹底的に交差エントロピー(6)

おはようございます！(株) Qualiteg 研究部です。今回は、二値分類用の交差エントロピーについてみていきましょう！ 7章二値分類用交差エントロピー 7-1. 二値分類用交差エントロピー (データ1件対応版) さて、ここから、二値分類用の交差エントロピーを導きたいとおもいます。二値分類は入力されたデータが 2 つのうちどちらか、を予測するものです。まず話をシンプルにするために、バッチ版ではなく、式 $(5.2)$ に示した 1件版の交差エントロピーの式を思い出します。 $$ E = - \sum_{k=1}^{K} t_{k} \log y_{k} \tag{5.2、再掲} $$ $$ \begin{aligned} &K:分類の数,　t_{k}

AI数理

[AI数理]徹底的に交差エントロピー(5)

おはようございます！(株) Qualiteg 研究部です。今回は、前回から拡張してデータN件対応版の多値分類用交差エントロピーを実際のデータをみながら導いていきたいとおもいます！ 6章多値分類用交差エントロピー (データN件対応版) 実際の学習では、いちどに複数件の訓練データを入力して得られた複数の結果をまとめて評価するバッチ学習を行うため、複数の訓練データから得られた結果を同時に計算できるバージョンの交差エントロピーも考えておきます。以下のような複数の訓練データの場合を考えます。複数の訓練データなので、1件ずつの訓練データを見分けられるように番号をふったデータ番号列を導入しました。みやすくするため正解のデータに背景色をつけています。この4件のデータを順番にモデルに入れたときの出力を計算すると以下のようになりました。予測値列を右に追加しています。さて、この4件の交差エントロピーを求めてみます。これらのデータから1つずつ交差エントロピーを計算して、その値を合計すれば、4件ぶんの交差エントロピーの合計値を求めることができるので、特に

Qualiteg 研究部

発話音声からリアルなリップシンクを生成する技術 第4回：LSTMの学習と限界、そしてTransformerへ

発話音声からリアルなリップシンクを生成する技術 第3回：wav2vec特徴量から口形パラメータへの学習

発話音声からリアルなリップシンクを生成する技術 第2回：AIを使ったドリフト補正

発話音声からリアルなリップシンクを生成する技術 第1回：音素とwav2vec

Zoom会議で肩が踊る？自動フレーミング映像安定化とAIによる性能向上の可能性

人気ゲーム「ヒット&ブロー」で学ぶ情報理論

ディープラーニングにおけるEMA（Exponential Moving Average）

PIIの高精度検出を支える技術～日本語という言語の奥深さに寄り添う～

DPO(直接選好最適化）の基礎から画像・動画AIへの応用まで

画像生成技術の進化 ～GANからディフフュージョンモデルまで～

【LLMセキュリティ】ハルシネーションの検出方法

推論速度を向上させる Speculative Decoding(投機的デコーディング)とは

[AI数理]徹底的に交差エントロピー(7)

Google Gemini 1.5 API の機能、特徴、価格と使い方

[AI数理]徹底的に交差エントロピー(6)

[AI数理]徹底的に交差エントロピー(5)

発話音声からリアルなリップシンクを生成する技術第4回：LSTMの学習と限界、そしてTransformerへ

発話音声からリアルなリップシンクを生成する技術第3回：wav2vec特徴量から口形パラメータへの学習

発話音声からリアルなリップシンクを生成する技術第2回：AIを使ったドリフト補正

発話音声からリアルなリップシンクを生成する技術第1回：音素とwav2vec

画像生成技術の進化　～GANからディフフュージョンモデルまで～