(株)Qualiteg - Qualiteg Blog (Page 3)

AI数理

発話音声からリアルなリップシンクを生成する技術第2回：AIを使ったドリフト補正

こんにちは！前回の記事では、当社のMotionVoxで使用している「リップシンク」技術について、wav2vecを用いた音声特徴量抽出の仕組みを解説しました。音声から正確な口の動きを予測するための基礎技術について理解いただけたかと思います。今回は、その続編として、リップシンク制作における重要な技術的課題である「累積ドリフト」に焦点を当てます。wav2vecで高精度な音素認識ができても、実際の動画制作では複数の音声セグメントを時系列に配置する際、わずかなタイミング誤差が蓄積して最終的に大きなずれとなる現象が発生します。本記事では、この累積ドリフトのメカニズムと、機械学習を活用した最新の補正技術について、実際の測定データを交えながら詳しく解説していきます。前回のwav2vecによる特徴抽出と今回のドリフト補正技術を組み合わせることで、MotionVoxがどのように高品質なリップシンクを実現しているのか、その全体像が見えてくるはずです。累積ドリフトとは何か基本概念累積ドリフトとは、個々の音声セグメントが持つ微小なタイミング誤差が、時間の経過とともに蓄積していく現象で

生成AI最前線

AIエージェント時代の新たな番人「ガーディアンエージェント」とは？

こんにちは！今日は先日ガートナーが発表したガーディアンエージェントについて解説しますガートナーの公式定義ハイプカーブで有名なガートナーは2025年6月に、ガーディアンエージェントに関する見解を発表しました。ガーディアン・エージェントとは、AIとの安全で信頼できるやりとりを支援するために設計されたAIベースのテクノロジです。ざっくりいうと、「AIエージェントが来るよ」と予言したガートナー社は、次は、「ガーディアンエージェントが来るよ」と予言しました。なぜガーディアンエージェントが来るのでしょうか？本稿では、そのあたりを考察していきたいと思います。なぜ今、AIの「監視役」が必要なのか 2025年、私たちは本格的なAIエージェント時代の入り口に立っています。AIが単なるツールから、自律的に判断し行動する「エージェント」へと進化する中で、新たな課題が浮上しています。従来のAIとエージェント型AIの違いさて、ガーディアンエージェントが必要になる理由として、生成AI（以後AIと呼びます）の急速な進化があげられます。従来のAIとエージェント型AIの違いを思い出

LLM

LLM推論基盤プロビジョニング講座　第4回推論エンジンの選定

こんにちは！前回までの講座では、LLMサービス構築に必要なリクエスト数の見積もりや、使用モデルの推論時消費メモリ計算について詳しく解説してきました。今回は7ステッププロセスの4番目、「推論エンジンの選定」について詳しく掘り下げていきます。推論エンジンとは何か推論エンジンとは、GPU上でLLMモデルの推論計算（テキスト生成）を効率的に行うために設計された専用のソフトウェアプログラムです。一般的なディープラーニングフレームワーク（PyTorch、TensorFlowなど）でも推論は可能ですが、実運用環境では専用の推論エンジンを使用することで、大幅なパフォーマンス向上とリソース効率化が期待できます。推論エンジンは単なる実行環境ではなく、様々な最適化技術を実装しています。特定のモデルアーキテクチャに特化した最適化機能を実装したものや、推論速度の高速化に特化したもの、前回解説したKVキャッシュのメモリ効率化機能を備えたものなど、それぞれ特徴が異なります。そのため、自社で採用したLLMモデルや運用環境、要件に合致した推論エンジンを選定することが重要です。推論エンジン選定のアプロ

AI数理

発話音声からリアルなリップシンクを生成する技術第1回：音素とwav2vec

こんにちは！今日は当社のMotionVox でも実際に使っている「リップシンク」技術について総合的に解説してみたいとおもいます。音声に合わせて自然な口の動きを生成するリップシンク技術は、AIアバターや3Dアニメーション制作においても重要な技術です。本記事では、最新のディープラーニング技術を活用したリップシンク学習の基礎から実装まで、技術的な観点から詳しく解説します。 1. リップシンク学習の基礎概念 1.1 問題設定リップシンク学習とは、音声データから対応する口の動きを予測する回帰問題ととらえることができます f: 音声特徴量(t) → 口の動きパラメータ(t) この問題のコアは音韻（音の特徴）と視素（視覚的な口の形）の対応関係を学習することにあります。 1.2 音韻-視素マッピングの複雑性ただし！人間の発話における音と口の形の関係は、単純な1対1マッピングではないんです。同じ音でも文脈で変化「あ」の発音でも： - 「か」の後の「あ」→ 口がやや狭めから開く - 「ん」の後の「あ」→ 口が閉じた状態から大きく開く調音結合

LLM

LLM推論基盤プロビジョニング講座　第3回使用モデルの推論時消費メモリ見積もり

こんにちは！前回はLLMサービスへのリクエスト数見積もりについて解説しました。今回は7ステッププロセスの3番目、「使用モデルの推論時消費メモリ見積もり」について詳しく掘り下げていきます。 GPUメモリがリクエスト処理能力を決定する LLMサービス構築において、GPUが同時に処理できるリクエスト数はGPUメモリの消費量によって制約されます。つまり、利用可能なGPUメモリがどれだけあるかによって、同時に何件のリクエストを処理できるかがほぼ決まります。では、その具体例として、Llama3 8B（80億パラメータ）モデルをNVIDIA RTX A5000（24GB）にロードするケースを考えてみましょう。このGPUには24GBのGPUメモリがありますが、すべてをリクエスト処理に使えるわけではありません。最初にモデル自体が一定量のメモリを消費し、残りの領域で実際のリクエスト処理を行います。 GPUメモリ消費の二大要素 GPUの消費メモリ量は主に以下の2つの要素によって決まります 1. モデルのフットプリント LLMをGPUに読み込んだときに最初に消費されるメモリ

日々の開発Tips

システムとcondaのC++標準ライブラリ(libstdc++)のバージョン違い問題による事象と対処法解説

こんにちは！先日、dlibをつかったPythonアプリケーション(conda環境で動作する）作っていたところ、以下のようなエラーに遭遇しました。 ImportError: /home/mlu/anaconda3/envs/example_env/bin/../lib/libstdc++.so.6: version `GLIBCXX_3.4.32' not found (required by /home/mlu/anaconda3/envs/example_env/lib/python3.10/site-packages/_dlib_pybind11.cpython-310-x86_64-linux-gnu.so) 「dlib_pybind11モジュールがGLIBCXX_3.4.32を要求してるけど、みつからない！」という感じのエラーですね。

LLM

LLM推論基盤プロビジョニング講座　第2回 LLMサービスのリクエスト数を見積もる

こんにちは！今回はLLM推論基盤プロビジョニング講座　第2回です！ STEP2 LLMサービスへのリクエスト数見積もりそれでは、早速、LLM推論基盤プロビジョニングの第2ステップである「リクエスト数見積もり」の重要性と方法を解説いたします。 LLMサービスを構築する際に必要となるGPUノード数を適切に見積もるためには、まずサービスに対して想定されるリクエスト数を正確に予測する必要があります。リクエスト数見積もりの基本的な考え方 LLMサービスへの想定リクエスト数から必要なGPUノード数を算出するプロセスは、サービス設計において非常に重要です。過小評価すればサービス品質が低下し、過大評価すれば無駄なコストが発生します。このバランスを適切に取るための基礎となるのがリクエスト数の見積もりです。想定リクエスト数の諸元リクエスト数を見積もるための5つの重要な要素（諸元）をみてみましょう。 1. DAU（Daily Active Users）: 1日あたりの実際にサービスを利用するユーザー数です。これはサービスの規模を示す最も基本的な指標となります。 2. 1日

AI数理

Zoom会議で肩が踊る？自動フレーミング映像安定化とAIによる性能向上の可能性

こんにちは！本日は、自動フレーミング映像の安定化に関するアルゴリズム・ノウハウを解説いたします第1章問題の背景と目的バストアップ映像を撮影する際、特にオンラインミーティングやYouTubeなどのトーク映像では、人物がうなずく、首を振るなどの自然な動作をした際に「首まわりや肩がフレーム内で上下に移動してしまう」という現象がしばしば起こります。これは、多くの場合カメラや撮影ソフトウェアが人物の「目や顔を画面中央に保とう」とする自動フレーミング機能の働きに起因します。撮影対象の人物が頭を下げた際に、映像のフレーム全体が相対的に上方向へシフトし、その結果、本来動いていないはずの肩の部分が映像内で持ち上がっているように見えてしまう現象です。本稿では、この問題を撮影後の後処理（ポストプロセッシング）のみを用いて、高速、高い精度かつロバストに解決する手法をご紹介します。前半では、従来のCV（コンピュータービジョン）の手法を使い高速に処理する方法をご紹介します。後半では、AIを使用してより安定性の高い性能を実現する方法について考察します。第2章古典手法による肩の上下

LLM

LLM推論基盤プロビジョニング講座　第1回基本概念と推論速度

こんにちは！本日は LLMサービスの自社構築する際の推論基盤プロビジョニング、GPUプロビジョニングについて数回にわけて解説いたします。はじめに LLMの進化に伴い、ChatGPTやClaudeといったパブリックなLLMの活用は企業においても急速に広がってきました。しかし先進的な企業はこれらの汎用LLMに加えて、「領域特化型」「ドメイン特化型」といった専用LLMの構築へと歩みを進めています。こうした動きの背景には、企業固有の専門知識への対応力強化と情報セキュリティの確保という二つの重要なニーズがあります。一般的なパブリックLLMでは対応できない企業固有の専門知識や機密情報の取り扱いが必要なケースが増えているため、自社LLMの構築や自社サーバーでの運用を検討する企業が急増しています。特に金融、医療、製造、法務といった専門性の高い領域では、業界特化型の独自LLMが競争優位性をもたらすと認識されています。しかし、業界特化型のLLMを自社で運用することは簡単ではありません。自社運用を決断した場合、まず最初に取り組むべきは適切な推論環境の整備です。オンプレミス環境を構築するに

News

Startup JAPAN 2025 に出展いたしました

こんにちは！ 2025年5月8日(木)-5月9日(金)に東京ビッグサイトで開催された Startup JAPAN 2025 に出展いたしましたので、簡単にレポートいたします😊 開催概要出展概要今回は当社が開発するアバター動画生成AI「MotionVox™」を中心に出展させていただきました！展示会について簡単にふりかえってみたいとおもいます当社ブース当社ブースはこんなかんじです。今回は、ブースというか、このイーゼルのような雰囲気の木枠にポスターをくっつけるというスタイルでの展示方式でした。こういう方式ははじめてなので斬新でした。おそらくこの方式で相当なコストダウンを図れておりスタートアップにはうれしいですね。セットアップも数分で終わりました。会場今回の会場はビッグサイトの南ホールでした。南ホールは、ビッグサイト入口からすぐそこなので駅から会場までたいして歩かず、疲れずに行くことができアクセスがとても良いです。ホールは広めですが、ところせましと４００社の出展会社がひしめきあっておりスタートアップの勢いのある会場となっており

NumPy/PyTorch

GPUサービスで「Segmentation Fault 」に出会ったら～分析から解決までの実践アプローチ～

こんにちは！今日は仮想環境＋GPUなサービスにおける「Segmentation Fault」について、分析と対処法について書いてみたいと思います。 Segmentation Faultの本質と特徴 Segmentation Faultは、プログラムが保護されたメモリ領域にアクセスしようとした際にOSが発生させる例外です。今回は複数のGPUサービス（つまりＧＰＵを使うプロセス）が動作していて、そのうちの１つを再起動したときに発生しました。毎回発生するわけではありません。むしろ数百回の起動に1回程度ですが、1回でも発生すると絶望的な結果につながります。というのも、1つのGPUサービスの停止が SPOF となってサービス全体に影響が発生します。かつ、1回でも「Segmentation Fault」が発生してしまうと、その原因となったプロセスが二度と起動しなくなる、というやっかいな現象でした。このように「普段は正常に動作しているのに突然動かなくなる」というのがデバッグを非常に難しくします。とくにGPU＋仮想化の組み合わせで従来のC++アプリよりも発生確率がぐっとあがる印象

日々の開発Tips

シェルスクリプトからcondaコマンドを活用したいとき

こんにちは！今日はみんな大好きcondaコマンドについてです。 condaコマンドで仮想環境に入って、何らかの処理をして、戻ってくる　ようなシェルスクリプト、バッチタスクをやるときのTipsです。 AI開発において、Anacondaとその中核であるcondaパッケージマネージャーはとっても重宝します。しかし、シェルスクリプトから自動的にcondaを利用しようとすると、意外なハードルがあります。本記事では、シェルスクリプトからcondaコマンドを正しく呼び出す方法について解説します。 condaと非対話モードの課題 AnacondaがインストールされているLinux環境において、condaコマンドは通常、.bashrcや.bash_profileなどの設定ファイルによって初期化されます。なんとなくシェルをつかっていると、このcondaコマンドの初期化を忘れてしまいますが、これらの設定は多くの場合シェルの「対話モード」でのみ有効になるように設計されています。ゆえにシェルスクリプトのような非対話モードでは、condaコマンドが正しく機能してくれません例えば、.b

日々の開発Tips

Node.jsで大容量ファイルを扱う：AIモデルのような大きなデータ保存はストリーム処理使いましょう

こんにちは！今日はAIシステムのフロントサーバーとしてもよく使用するNode.jsについてのお話です。 AIモデルの普及に伴い、大容量のデータファイルを扱う機会が急増しています。LLMなどのモデルファイルやトレーニングデータセットは数GB、場合によっては数十、数百GBにも達することがあります。一方、Node.jsはWebアプリケーションのフロントサーバーとして広く採用されており、データマネジメントやPythonで書かれたAIバックエンドとの橋渡し役としてもかなりお役立ちな存在です。本記事では、Node.js v20LTSで5GB程度のファイルを処理しようとして遭遇した問題と、その解決方法について解説します。 Node.jsのバッファサイズ制限の変遷 Node.jsのバッファサイズ制限は、バージョンによって大きく変化してきました Node.jsバージョンサポート終了日バッファサイズ上限備考 Node.js 0.12.x 2016年12月31日 ~1GB 初期のバッファサイズ制限（smalloc.kMaxLength使用） Node.js 4.

Blog

AGI時代に向けたプログラマーの未来：役割変化とキャリア戦略

はじめに私がはじめてコードを書いたのは1989年です。当時NECのPC88というパソコンを中古でかってもらい N-88 Basic というBASIC言語のコードをみようみまねで書いて動かしたあの日から何年経つのでしょうか。当時、電波新聞社のマイコンBASICマガジンという雑誌があり、ベーマガにはいろんなパソコン向けのプログラムコードが掲載されていました。そんなわけでもう35年以上趣味や仕事でプログラミングに従事していますが、開発環境、情報流通の仕組みには革命といっていいほどの変化、進化がおこりました。しかしながら、そんな中でも、あくまでコードを書くのは「私」という生身の人間でした。そうしたある種の古き良き時代は、いよいよ本格的に終わりを告げようとしています。 2023年ごろからのLLM技術の飛躍的進歩により、プログラミング業界は大きな転換期を迎えています。特に、OpenAI o3,o1やClaude 3.5、Gemini2.0などの大規模言語モデル（LLM）の進化や、その先にある将来的な汎用人工知能（AGI）の出現は、プログラマーやAIエンジニアの役割に根

LLM

Gemini 2.5 Pro/Flashにおけるマルチモーダルトークン(画像のトークン数、動画のトークン数など）計算ガイド

こんにちは！本日は、Gemini 2.5 ProおよびGemini 2.5 Flashを使用する際、料金計算やコンテキストウィンドウの管理において、トークン数の正確な把握は非常に重要です。本記事では、画像、動画、音声といったマルチモーダルコンテンツのトークン計算方法について詳しく解説します。基本概念：トークンとは Gemini 2.5シリーズにおいて、1トークンは約4文字に相当し、100トークンは約60-80語（英語）に相当します。すべての入力と出力はトークン単位で処理され、課金もトークン数に基づいて行われます。 Gemini 2.5シリーズのモデルと料金利用可能なモデル * Gemini 2.5 Pro: 高度な推論能力を持つフラグシップモデル * Gemini 2.5 Flash: コスト効率に優れた高速モデル * Gemini 2.5 Flash Image: 画像生成専用モデルコンテキストウィンドウ両モデルとも1,000,000トークンの大規模なコンテキストウィンドウを提供します。

日々の開発Tips

PythonとWSL開発のトラブルシューティング: PyCharmとCondaの環境不一致問題

こんにちは！今回は、WSL上のConda環境をPyCharmから利用する際に発生した「同じ環境なのにパッケージリストが一致しない」という問題に遭遇したため、その原因と対策について書いてみたいとおもいます問題の状況開発の流れは以下のようなものでした 1. WSL環境でConda仮想環境を作成 2. その環境をPyCharmのプロジェクトインタプリタとして設定 3. 開発を進める中で奇妙な現象に気づく具体的には、次のような不一致が発生していました * PyCharmのプロジェクト設定で表示されるpipパッケージのリスト * WSLでConda環境をアクティベートした後にpip listコマンドで表示されるパッケージのリストこれらが一致せず、「WSL側のシェルから直接インストールしたパッケージがPyCharmで認識されない」という問題が生じていました。この手の問題でよくある原因は、PyCharm側がWSL側の更新を得るのに少し時間がかかったり、 Indexing が遅れているなどなのですが、今回はそれが原因ではありませんでした。危険な「静かな

Latest

発話音声からリアルなリップシンクを生成する技術 第2回：AIを使ったドリフト補正

AIエージェント時代の新たな番人「ガーディアンエージェント」とは？

LLM推論基盤プロビジョニング講座 第4回 推論エンジンの選定

発話音声からリアルなリップシンクを生成する技術 第1回：音素とwav2vec

LLM推論基盤プロビジョニング講座 第3回 使用モデルの推論時消費メモリ見積もり

システムとcondaのC++標準ライブラリ(libstdc++)のバージョン違い問題による事象と対処法解説

LLM推論基盤プロビジョニング講座 第2回 LLMサービスのリクエスト数を見積もる

Zoom会議で肩が踊る？自動フレーミング映像安定化とAIによる性能向上の可能性

LLM推論基盤プロビジョニング講座 第1回 基本概念と推論速度

Startup JAPAN 2025 に出展いたしました

GPUサービスで「Segmentation Fault 」に出会ったら～分析から解決までの実践アプローチ～

シェルスクリプトからcondaコマンドを活用したいとき

Node.jsで大容量ファイルを扱う：AIモデルのような大きなデータ保存はストリーム処理使いましょう

AGI時代に向けたプログラマーの未来：役割変化とキャリア戦略

Gemini 2.5 Pro/Flashにおけるマルチモーダルトークン(画像のトークン数、動画のトークン数など）計算ガイド

PythonとWSL開発のトラブルシューティング: PyCharmとCondaの環境不一致問題

発話音声からリアルなリップシンクを生成する技術第2回：AIを使ったドリフト補正

LLM推論基盤プロビジョニング講座　第4回推論エンジンの選定

発話音声からリアルなリップシンクを生成する技術第1回：音素とwav2vec

LLM推論基盤プロビジョニング講座　第3回使用モデルの推論時消費メモリ見積もり

LLM推論基盤プロビジョニング講座　第2回 LLMサービスのリクエスト数を見積もる

LLM推論基盤プロビジョニング講座　第1回基本概念と推論速度