ChatStream α1(プレビュー)提供のお知らせ

ChatStream α1(プレビュー)提供のお知らせ

株式会社 Qualiteg は LLMアプリケーション開発ツールキット ChatStream™ のαプレビュー版の提供を開始いたしました。

ChatStream™ とは 高品質な商用 LLM アプリケーションを簡単に構築できる Python ライブラリです。

Web フロントエンド(チャットUI) と 推論実行サーバーソフトウェア で構成されており、追加のソフトウェア開発をせずに ChatStream™ だけで LLM アプリケーションを実現することができます。

また、頭脳となる LLM には HuggingFace 等で提供されているオープンソースLLMを使用することができます。(ChatGPT等のAPIをつなぎこむことも可能です)。

2023年9月 現在は、 Pythonのライブラリ として AGPL および 商用ライセンスで提供しています。

以下サイトよりオンラインデモをご体験ください!

https://chatstream.net

このデモのようなアプリケーションをほぼノーコードで作成することができます。

ChatStreamは本格的な商用用途に向けて設計されており、以下のような特長を持っております

ChatStream の特長

  1. 高いUXを実現したチャットUI

    1. ChatGPTライクなユーザーインタフェースで迷わない
    2. マルチモーダルに対応した柔軟なチャットUI設計
  2. 短TATで高性能・高品質なチャットアプリを構築可能

    1. コマンド1つでインストール
    2. ローコード。数行のコードで本格的なLLM対話チャットを構築可能
  3. 高負荷設計

    1. 非同期文章生成処理により多ユーザー同時アクセスにも安定した応答
    2. 多ノード構成によりスケールアウトが容易
  4. 柔軟な動作環境(特定の環境に依存しない)

    1. Llama、RedpajamaIncite、Rinna など主要なLLM対応の動確済
    2. 各種ユーザー認証機構に柔軟に対応できる設計
    3. オンプレおよび各種クラウドプラットフォームに対応
    4. 推論実行はCPUおよびNVIDIA製 GPU (マルチGPUも可)対応
  5. 高UXなアプリ開発を加速化

    1. カスタマイズ可能なUIプリセットを豊富に準備
    2. LLM出力適正化を行う開発支援機能

動作環境は以下のとおりです。
(標準的な Python + NVIDIA GPU 環境で動作いたします)

動作環境

  • Python

    • Python 3.10 ~
    • Pytorch
  • GPU

    • NVIDIA CUDA 11.7 対応 GPU
  • 負荷分散

    • マルチGPUスケールアウト対応
    • マルチノードスケールアウト対応
    • リクエストキューイングによる負荷コントロール
  • OS

    • Linux
    • Windows Server
  • API

    • LLM の API 化に対応
  • 暗号化(TLS/SSL)

    • 対応
  • ユーザー認証

    • OAuthによる認証
    • メール認証
    • (他、独自認証に対応可能)

サポート

  • 豊富な日本語ドキュメント
  • 手厚いサポート
    • フルスクラッチ開発であるため、すみずみまで知り尽くしたエンジニアによるハンズオンサポートを英語・日本語にて提供
    • 時差なく、日本のワーキングタイムにサポート対応

次回以降、ビジネス面、技術面についてより詳しくご紹介してまいります!


株式会社Qualitegでは、 生成AIを活用した貴社課題解決、ChatStream 基盤とした LLM アプリケーション構築、PoCのコンサルティング、ご支援を行っております。

ご相談・ご用命は当社営業担当または以下コンタクトにてお問合せください。

https://qualiteg.com/contact


Read more

LLM推論基盤プロビジョニング講座 第5回 GPUノード構成から負荷試験までの実践プロセス

LLM推論基盤プロビジョニング講座 第5回 GPUノード構成から負荷試験までの実践プロセス

こんにちは!これまでのLLM推論基盤プロビジョニング講座では、推論速度の定義、リクエスト数見積もり、メモリ消費量計算、推論エンジン選定について詳しく解説してきました。 今回は、残りのステップである「GPUノード構成見積もり」「負荷試験」「トレードオフ検討」について一気に解説し、最後に実際のサーバー構成例をご紹介します。 STEP5:GPUノード構成見積もり GPUメモリから考える同時リクエスト処理能力 LLMサービスを構築する際、どのGPUを何台選ぶかは非常に重要な決断です。今回はLlama 8Bモデルを例に、GPUメモリ容量と同時リクエスト処理能力の関係を見ていきましょう。 GPUメモリの使われ方を理解する ここは復習となりますが、 LLM推論においてGPUメモリは主に2つの用途で消費されます 1. モデル重みデータ: LLMモデル自体を格納するためのメモリ 2. KVキャッシュ: ユーザーとの対話コンテキストを保持するための一時メモリ Llama 8Bを16ビット精度で実行する場合、モデル重みデータは約16GBのメモリを占めます。これは固定的なメモリ消

By Qualiteg コンサルティング
発話音声からリアルなリップシンクを生成する技術 第2回:AIを使ったドリフト補正

発話音声からリアルなリップシンクを生成する技術 第2回:AIを使ったドリフト補正

こんにちは! 前回の記事では、当社のMotionVoxで使用している「リップシンク」技術について、wav2vecを用いた音声特徴量抽出の仕組みを解説しました。音声から正確な口の動きを予測するための基礎技術について理解いただけたかと思います。 今回は、その続編として、リップシンク制作における重要な技術的課題である「累積ドリフト」に焦点を当てます。wav2vecで高精度な音素認識ができても、実際の動画制作では複数の音声セグメントを時系列に配置する際、わずかなタイミング誤差が蓄積して最終的に大きなずれとなる現象が発生します。 本記事では、この累積ドリフトのメカニズムと、機械学習を活用した最新の補正技術について、実際の測定データを交えながら詳しく解説していきます。前回のwav2vecによる特徴抽出と今回のドリフト補正技術を組み合わせることで、MotionVoxがどのように高品質なリップシンクを実現しているのか、その全体像が見えてくるはずです。 累積ドリフトとは何か 基本概念 累積ドリフトとは、個々の音声セグメントが持つ微小なタイミング誤差が、時間の経過とともに蓄積していく現象で

By Qualiteg 研究部
AIエージェント時代の新たな番人「ガーディアンエージェント」とは?

AIエージェント時代の新たな番人「ガーディアンエージェント」とは?

こんにちは!今日は先日ガートナーが発表したガーディアンエージェントについて解説します ガートナーの公式定義 ハイプカーブで有名なガートナーは2025年6月に、ガーディアンエージェントに関する見解を発表しました。ガーディアン・エージェントとは、AIとの安全で信頼できるやりとりを支援するために設計されたAIベースのテクノロジです。 ざっくりいうと、 「AIエージェントが来るよ」と予言したガートナー社は、次は、「ガーディアンエージェントが来るよ」と予言しました。なぜガーディアンエージェントが来るのでしょうか?本稿では、そのあたりを考察していきたいと思います。 なぜ今、AIの「監視役」が必要なのか 2025年、私たちは本格的なAIエージェント時代の入り口に立っています。AIが単なるツールから、自律的に判断し行動する「エージェント」へと進化する中で、新たな課題が浮上しています。 従来のAIとエージェント型AIの違い さて、ガーディアンエージェントが必要になる理由として、生成AI(以後AIと呼びます)の急速な進化があげられます。従来のAIとエージェント型AIの違いを思い出

By Qualiteg コンサルティング
LLM推論基盤プロビジョニング講座 第4回 推論エンジンの選定

LLM推論基盤プロビジョニング講座 第4回 推論エンジンの選定

こんにちは!前回までの講座では、LLMサービス構築に必要なリクエスト数の見積もりや、使用モデルの推論時消費メモリ計算について詳しく解説してきました。今回は7ステッププロセスの4番目、「推論エンジンの選定」について詳しく掘り下げていきます。 推論エンジンとは何か 推論エンジンとは、GPU上でLLMモデルの推論計算(テキスト生成)を効率的に行うために設計された専用のソフトウェアプログラムです。一般的なディープラーニングフレームワーク(PyTorch、TensorFlowなど)でも推論は可能ですが、実運用環境では専用の推論エンジンを使用することで、大幅なパフォーマンス向上とリソース効率化が期待できます。 推論エンジンは単なる実行環境ではなく、様々な最適化技術を実装しています。特定のモデルアーキテクチャに特化した最適化機能を実装したものや、推論速度の高速化に特化したもの、前回解説したKVキャッシュのメモリ効率化機能を備えたものなど、それぞれ特徴が異なります。そのため、自社で採用したLLMモデルや運用環境、要件に合致した推論エンジンを選定することが重要です。 推論エンジン選定のアプロ

By Qualiteg コンサルティング