ChatStream α1(プレビュー)提供のお知らせ

ChatStream α1(プレビュー)提供のお知らせ

株式会社 Qualiteg は LLMアプリケーション開発ツールキット ChatStream™ のαプレビュー版の提供を開始いたしました。

ChatStream™ とは 高品質な商用 LLM アプリケーションを簡単に構築できる Python ライブラリです。

Web フロントエンド(チャットUI) と 推論実行サーバーソフトウェア で構成されており、追加のソフトウェア開発をせずに ChatStream™ だけで LLM アプリケーションを実現することができます。

また、頭脳となる LLM には HuggingFace 等で提供されているオープンソースLLMを使用することができます。(ChatGPT等のAPIをつなぎこむことも可能です)。

2023年9月 現在は、 Pythonのライブラリ として AGPL および 商用ライセンスで提供しています。

以下サイトよりオンラインデモをご体験ください!

https://chatstream.net

このデモのようなアプリケーションをほぼノーコードで作成することができます。

ChatStreamは本格的な商用用途に向けて設計されており、以下のような特長を持っております

ChatStream の特長

  1. 高いUXを実現したチャットUI

    1. ChatGPTライクなユーザーインタフェースで迷わない
    2. マルチモーダルに対応した柔軟なチャットUI設計
  2. 短TATで高性能・高品質なチャットアプリを構築可能

    1. コマンド1つでインストール
    2. ローコード。数行のコードで本格的なLLM対話チャットを構築可能
  3. 高負荷設計

    1. 非同期文章生成処理により多ユーザー同時アクセスにも安定した応答
    2. 多ノード構成によりスケールアウトが容易
  4. 柔軟な動作環境(特定の環境に依存しない)

    1. Llama、RedpajamaIncite、Rinna など主要なLLM対応の動確済
    2. 各種ユーザー認証機構に柔軟に対応できる設計
    3. オンプレおよび各種クラウドプラットフォームに対応
    4. 推論実行はCPUおよびNVIDIA製 GPU (マルチGPUも可)対応
  5. 高UXなアプリ開発を加速化

    1. カスタマイズ可能なUIプリセットを豊富に準備
    2. LLM出力適正化を行う開発支援機能

動作環境は以下のとおりです。
(標準的な Python + NVIDIA GPU 環境で動作いたします)

動作環境

  • Python

    • Python 3.10 ~
    • Pytorch
  • GPU

    • NVIDIA CUDA 11.7 対応 GPU
  • 負荷分散

    • マルチGPUスケールアウト対応
    • マルチノードスケールアウト対応
    • リクエストキューイングによる負荷コントロール
  • OS

    • Linux
    • Windows Server
  • API

    • LLM の API 化に対応
  • 暗号化(TLS/SSL)

    • 対応
  • ユーザー認証

    • OAuthによる認証
    • メール認証
    • (他、独自認証に対応可能)

サポート

  • 豊富な日本語ドキュメント
  • 手厚いサポート
    • フルスクラッチ開発であるため、すみずみまで知り尽くしたエンジニアによるハンズオンサポートを英語・日本語にて提供
    • 時差なく、日本のワーキングタイムにサポート対応

次回以降、ビジネス面、技術面についてより詳しくご紹介してまいります!


株式会社Qualitegでは、 生成AIを活用した貴社課題解決、ChatStream 基盤とした LLM アプリケーション構築、PoCのコンサルティング、ご支援を行っております。

ご相談・ご用命は当社営業担当または以下コンタクトにてお問合せください。

https://qualiteg.com/contact


Read more

【解説】Tekken トークナイザーとは何か? 〜 Mistral が採用する新世代トークナイザーの特徴

【解説】Tekken トークナイザーとは何か? 〜 Mistral が採用する新世代トークナイザーの特徴

こんにちは! 本日は、Tekkenについて解説いたします! 皆さま Tekken と聞いて何を思い浮かべますか? 格ゲーの鉄拳でしょうか? 私は、昔プレイした Age of Empires に登場する鉄剣戦士を思い浮かべました🤗 ちょっと古いかもしれませんが、名作です! さてつかみはこのくらいにして、、 LLMはご存じのとおり驚異的なスピードで進化しています。そんな中でひそかに注目されているのが、トークナイザーの改善です。 たとえば、Meta の Llama 系モデルのトークナイザーは Sentence Piece から BPE系へ進化するなど、LLM業界では従来よりも高効率なトークナイズ(テキスト分割)の方法を導入し始めています。 そして Mistral AI もまた、新たに「Tekken トークナイザー」という仕組みを採用し、大規模言語モデルの性能を底上げしています。 本記事では、Tekken トークナイザーの登場背景や技術的特徴、他のトークナイザーとの違い、さらには Mistral との関係などをわかりやすく解説していきます。 1. Tekken トーク

By Qualiteg プロダクト開発部
[AI新規事業創出]Qualitegオリジナル、アイディア評価、事業アイディア選定方法

[AI新規事業創出]Qualitegオリジナル、アイディア評価、事業アイディア選定方法

Qualiteg blogを訪問してくださった皆様、こんにちは。Micheleです。AIを活用した新規事業やマーケティングを手がけている私には、クライアントからよく寄せられる質問があります。AIを用いた事業展開を検討されている方々が共通して直面するであろう課題に対して、このブログを通じて私なりの解答をご提供したいと思います。 はじめに AI技術の急速な発展は、スタートアップから大企業まで、あらゆるビジネスに新たな可能性をもたらしています。クライアントとの会話の中でも、AIを活用した革新的な事業アイディアに関する相談が増えています。 しかし、多くの企業が「素晴らしいアイディアを思いついた!」と興奮しながらも、そのアイディアを具体化し、成功に導くための方法論に悩んでいるのも事実です。特にAIを用いた事業展開においては、従来のビジネスモデルとは異なる視点が必要となるため、その難しさはさらに増します。 本記事では、Qualitegオリジナルのアイディア評価、事業アイディア選定方法について解説します。特に、AIを用いた事業展開を検討されている方々が共通して直面するであろう課題に対して、

By Join us, Michele on Qualiteg's adventure to innovation
日本語対応!Mistral Small v3 解説

日本語対応!Mistral Small v3 解説

こんにちは! Mistral AIは2025年1月30日、新しい言語モデル「Mistral Small v3」を発表しました。このモデルは、24Bという比較的小規模なパラメータ数ながら、70B以上の大規模モデルに匹敵する性能を実現しています。また日本語対応も謳われており期待の高い小型モデルです! https://huggingface.co/mistralai/Mistral-Small-24B-Instruct-2501 動画 こちら本ブログの解説動画もご覧いただけます😊 きわだってるのは、レイテンシー最適化 Mistral Small 3のめだった特徴は、その処理性能とレイテンシーの絶妙なバランスではないでしょうか。 公開されている以下の性能評価のグラフによると、トークンあたり約11ミリ秒という業界最速レベルのレイテンシーを達成しています。これは、Qwen-2.5 32Bの約15ミリ秒やGemma-2 27Bの約14ミリ秒と比較して、明確な優位性を示しています。さらに注目すべきは、GPT-4o Miniと比較しても、より低いレイテンシーで同等以上の性能を実現し

By Qualiteg プロダクト開発部
[vLLM] To use CUDA with multiprocessing, you must use the 'spawn' start method の対処法

[vLLM] To use CUDA with multiprocessing, you must use the 'spawn' start method の対処法

WSLで vLLM を使用するとき、 tensor parallel を使って複数枚のGPUで1つのLLMをサーブしようとしたとき以下のようなエラーが発生しがちです RuntimeError: Cannot re-initialize CUDA in forked subprocess. To use CUDA with multiprocessing, you must use the 'spawn' start method 遭遇するシーンとしてはvLLMの起動オプションに以下のようにテンソル並列化オプションを指定したときです。 --tensor-parallel-size 2 つまり、マルチプロセッシングでCUDA使うときは、 "fork"じゃなくて"spawn" 使ってね、というエラーです。 これを vLLM に教えるために、以下の2行目のように環境変数を設定してあげるとvLLMが "spawn" を使ってくれるようになります。 export

By Qualiteg プロダクト開発部