[ChatStream] HTTP セッションミドルウェアの設定

[ChatStream] HTTP セッションミドルウェアの設定

こんにちは! (株)Qualiteg プロダクト開発部 です!

本稿では、 ChatStream に セッションミドルウェアをセットし、Webアプリケーションをステートフルにする方法についてご説明いたします!

ChatStream では Qualiteg が開発した独自のセッションミドルウェアを使用しており、通常の Starlette 用のセッションミドルウェアよりも高い柔軟性を実現しています。(Java Servlet のセッション管理アプローチに近いです)

セッションミドルウェア

開いたブラウザでWebチャットをするときにマルチラウンドの会話を成立するためには
ChatPrompt(会話履歴) が複数ターンの会話のなかで更新されていく必要があります。

デフォルトでは、 ChatStream は HTTP セッションを使用してWebアプリケーションをステートフルにし、
ChatPrompt をブラウザが開いている間保持することができます。

HTTP セッションを使用するには、以下のように FastAPI のミドルウェアを登録します。

from fastersession import FasterSessionMiddleware, MemoryStore
app.add_middleware(FasterSessionMiddleware,
                   secret_key="your-session-secret-key",
                   store=MemoryStore(),
                   http_only=True,
                   secure=True,
                   )
パラメータ名 説明
secret_key クッキーの署名用キー。
store セッションの保存用ストア。
http_only クッキーがクライアントサイドのスクリプト(JavaScriptなど)からアクセスできないようにするか。デフォルトはTrue。
secure ローカル開発環境のためにFalse。本番環境ではTrue。Httpsが必要。

内部処理

このデフォルトの実装では、セッションID を生成し署名をほどこしたのち、クッキーに保存します。

クッキーの保存期間はブラウザが開いている間のみで、かつ、フロントエンドのJavaScript からアクセスできない状態となっています

会話履歴を永続化するその他の方法

デフォルトの実装では ChatPrompt はセッション上に存在します。 またセッション情報はサーバー側でオンメモリで管理され、セッションの持続期間はブラウザが開いている間でした。

本格的なチャットサーバーを構築する場合は、ユーザーを認証し、ユーザーにひもづいた ChatPrompt をデータベース上に保存(永続化)するのが一般的です。

このような処理を行うためには、カスタムリクエストハンドラの実装 を行い、リクエストハンドラ上で、 ChatPrompt の管理と、永続化を行うことができます。

関連:CORS ミドルウェア

CORS ミドルウェア


Read more

【ChatStream】大容量のLLMの推論に必要なGPUサーバー構成

【ChatStream】大容量のLLMの推論に必要なGPUサーバー構成

大容量のLLM(大規模言語モデル)の推論に必要なGPUサーバー構成とChatStreamとの連携について詳しく動画で解説しています。 特に、Llama3-70Bモデルを例に、そのメモリ要件(140GBのGPUメモリ)と、この要件を満たすために必要なGPUサーバーおよびGPUクラスターの構成について、取り扱いやすい NVIDIA RTX A6000 GPUを使用した例について説明します。 また、モデル並列化技術(テンソル並列化、パイプライン並列化、データ並列化)とその推論エンジンの選択についても触れ、実際に複数のGPUサーバーを使ったクラスター構成がどのように推論処理を効率的に行うかを示します。 最後に、ChatStreamのLLMノードとは何か、そしてそれをどのようにスケーリングして大量の同時リクエストに対応するかについても解説します。こ の動画は、高性能を必要とするLLMのデプロイメントと運用に興味がある方に特に有益です。

By Join us, Michele on Qualiteg's adventure to innovation
ChatStream🄬でLlama-3-Elyza-JP-8B を動かす

ChatStream🄬でLlama-3-Elyza-JP-8B を動かす

こんにちは、本日は Llama-3-Elyza-JP-8B を使ってみました。 昨日 2024年6月26日に発表(https://prtimes.jp/main/html/rd/p/000000046.000047565.html)された Llama-3-Elyza-JP-8B は 70B 版では「GPT-4」を上回る性能の日本語LLMといわれています。 今回、当社でも Playground 環境に Llama-3-Elyza-JP-8B を搭載して試してみましたのでご紹介します。 70B(700億パラメータ)版は GPT-4 を上回るとのことですので、8B(80億パラメータ)版はGPT-3.5 と比較してみることにいたしました。 (性能比較は https://note.com/elyza/n/n360b6084fdbd の記事に詳しく書いてあります。) AWQ量子化版を使用してみる 今回は、A4000

By Qualiteg プロダクト開発部
AttributeError: module 'torch._dynamo' has no attribute 'mark_static_address' が発生したときの対処法

AttributeError: module 'torch._dynamo' has no attribute 'mark_static_address' が発生したときの対処法

以下のようなエラーが出た場合の対処法 File "/venv/Lib/site-packages/torch/utils/_contextlib.py", line 115, in decorate_context return func(*args, **kwargs) ^^^^^^^^^^^^^^^^^^^^^ File "/venv/Lib/site-packages/transformers/generation/utils.py", line 1744, in generate model_kwargs["past_key_values"] = self._get_cache( ^^^^^^^^^^^^^^^^ File "/venv/Lib/site-packages/transformers/

By Qualiteg プロダクト開発部
[AI新規事業創出]Qualitegセレクション:アイディア創造編①Qualiteg式オンラインブレストの活用術

[AI新規事業創出]Qualitegセレクション:アイディア創造編①Qualiteg式オンラインブレストの活用術

Qualiteg blogを訪問してくださった皆様、こんにちは。Micheleです。AIを活用した新規事業やマーケティングを手がけている私には、クライアントからよく寄せられる質問があります。AIを用いた事業展開を検討されている方々が共通して直面するであろう課題に対して、このブログを通じて私なりの解答をご提供したいと思います。 今日は私のお気に入りのブレスト方法である「Qualiteg式オンラインブレスト」の活用術についてお話ししたいと思います。 場所を変えて気分を変えても良いアイディアは生まれない!? よく、「金曜日は1日ブレストしよう!」という上司の掛け声とともに、いつもと違う雰囲気なら良いアイディアも出るかもしれないといってホテルの会議室などを予約されて1日缶詰でブレストしたが、期待する結果が出なかったとおっしゃるクライアントが非常に多いです。 ブレインストーミングは複数の参加者が自由にアイデアを出し合うことで、新しい発想や解決策を見つける手法です。 批判や評価を一時的に排除し、量を重視して多くのアイデアを集めることが目的です。1950年代に広告業界で生まれたこの手法は

By Join us, Michele on Qualiteg's adventure to innovation