ChatStream Guide

[ChatStream] 生成と初期化

Qualiteg プロダクト開発部

2023年11月6日 — 2 min read

こんにちは (株)Qualiteg プロダクト開発本部です！

本稿では、 ChatStream の生成と初期化についてご説明いたします！

ChatStream クラスは ChatStream パッケージのコアとなるクラスで、FastAPI/Starlette の Request を受け取り、
負荷制御をしながらストリーミングレスポンスをクライアントに送出する役割をもっています。

以下のように model,tokenizer,device, 最大同時処理数 num_of_concurrent_executions 、待ち行列の最大数 max_queue_size ,プロンプトクラス ChatPrompt を指定して初期化します

tokenizer = AutoTokenizer.from_pretrained(model_path)
model = AutoModelForCausalLM.from_pretrained(model_path, torch_dtype=torch.float16)
model.to(device)

chat_stream = ChatStream(
    num_of_concurrent_executions=2,
    max_queue_size=5,
    model=model,
    tokenizer=tokenizer,
    device=device,
    chat_prompt_clazz=ChatPrompt,
)

オプション一覧

ChatStream の初期化オプション（コンストラクタ引数）一覧

パラメータ名	説明
model	HuggingFace形式の事前学習済み言語モデル。
tokenizer	HuggingFace形式のトークナイザ。
device	実行デバイス。"cpu" / "cuda" / "mps"から選択。
num_of_concurrent_executions	事前学習済み言語モデルにおける文章生成タスクの同時実行数。デフォルトは2。
max_queue_size	事前学習済み言語モデルにおける文章生成タスクの最大キューサイズ。デフォルトは5。
too_many_request_as_http_error	'Too many requests'の状況が発生した場合、ステータスを429として返すかどうか。デフォルトはFalse。
use_mock_response	テストのための固定フレーズを返すかどうか。モデルを読み込む必要がないため、すぐに起動する。デフォルトはFalse。
mock_params	use_mock_response=Trueの時に返すフレーズのタイプ "round" / "long"。デフォルトは{"type": "round"}。
chat_prompt_clazz	言語モデルに送られるプロンプトを管理するクラス。AbstractChatPromptから継承し、各モデルのエチケットに従ったチャットプロンプトを生成するクラスを実装する。
max_new_tokens	新たに生成されるトークンの最大サイズ。デフォルトは256。
context_len	コンテキストのサイズ（トークン数）。デフォルトは1024。
temperature	予測におけるランダム性の温度値。デフォルトは1.0。
top_k	サンプリングのためのtop Kの値。デフォルトは50。
top_p	サンプリングのためのtop Pの値。デフォルトは1.0。
repetition_penalty	繰り返しのペナルティ。デフォルトはNone。
repetition_penalty_method	繰り返しのペナルティの計算方法。デフォルトは"multiplicative"。
add_special_tokens	トークナイザのオプション。デフォルトはNone。
request_handler	リクエストハンドラ。デフォルトでは、セッションを簡単に保持するハンドラがデフォルト。
logger	ロギングオブジェクト。デフォルトはNone。

例）

chat_stream = ChatStream(
     model=None,  # HuggingFace形式の事前学習済み言語モデル
     tokenizer=None,  # HuggingFace形式のトークナイザ
     device=None,  # 実行デバイス "cpu" / "cuda" / "mps"
     num_of_concurrent_executions: int = 2,     # 事前学習済み言語モデルにおける文章生成タスクの同時実行数
     max_queue_size: int = 5,     # 事前学習済み言語モデルにおける文章生成タスクの最大キューサイズ
     too_many_request_as_http_error=False,     # 'Too many requests'の状況が発生した場合、ステータスを429として返す
     use_mock_response=False,     # テストのための固定フレーズを返す。モデルを読み込む必要がないため、すぐに起動する
     mock_params={type: "round"},     # use_mock_response=Trueの時に返すフレーズのタイプ "round" / "long"
     chat_prompt_clazz=None,     # 言語モデルに送られるプロンプトを管理するクラスを指定。AbstractChatPromptから継承し、各モデルのエチケットに従ったチャットプロンプトを生成するクラスを実装する
     max_new_tokens=256,  # 新たに生成されるトークンの最大サイズ
     context_len=1024,  # コンテキストのサイズ（トークン数）
     temperature=1.0,  # 予測におけるランダム性の温度値
     top_k=50,  # サンプリングのためのtop Kの値
     top_p=1.0,  # サンプリングのためのtop Pの値
     repetition_penalty=None,  # 繰り返しのペナルティ
     repetition_penalty_method="multiplicative",  # 繰り返しのペナルティの計算方法
     # トークン関連の処理
     add_special_tokens=None,  # トークナイザのオプション
     request_handler=SimpleSessionRequestHandler(),
     # リクエストハンドラ。デフォルトでは、セッションを簡単に保持するハンドラがデフォルト
     logger=None,  # ロギングオブジェクト
)

GPUを使った分散処理で見落としがちなCPUボトルネックとtasksetによる解決法

こんにちは！複数枚のGPUをつかった並列処理システムを設計しているときCPUについてはあまり考えないでシステムを設計してしまうことがあります。「機械学習システムの主役はGPUなんだから、CPUなんて、あんまり気にしなくてよいのでは」いいえ、そうでもないんです。推論中のあるタイミングに急に動作が遅くなったりするときCPUが原因であることがけっこうあります。概要（5分で分かる要点）先日GPUを使った並列処理システムで、予期しないCPUボトルネックが発生し、パフォーマンスが大幅に低下する問題に遭遇しました。複数のプロセスが異なるGPUを使用しているにも関わらず、処理が極端に遅くなる現象の原因は、処理パイプラインの一部に含まれるCPU集約的な計算処理でした。問題の症状 * 単一プロセス実行時：正常な速度 * 複数プロセス並列実行時：処理時間が数倍に増加 * GPUリソースに競合なし（nvidia-smiで確認済み）根本原因処理パイプラインにGPUに適さないCPU集約的な計算（データ前処理、統計変換など）が含まれており、複数プロセスが同じCP

Model Context Protocol完全実装ガイド 2025- 仕様変遷から最新Streamable HTTPまでの全て

こんにちは！現在、LLM業界で破竹の勢いでひろまっているMCPについて、本日はとくに実装面について解説していきたいとおもいます。 MCP、MCPとひとくちにいっていますが、実は短期間でけっこう「標準」とよばれる仕様が変化しておりますので、仕様のバリエーションを順を追って解説しつつ、実際に実装をしていきたいとおもいます。さて、MCPですが、2024年後半、Anthropicが発表したModel Context Protocol（MCP）は、AI分野における重要な転換点となりました。従来、各AIベンダーが独自に実装していたツール呼び出し機能(tool useと呼びます）を標準化し、AIモデルと外部システムの連携を統一的に扱える仕組みを提供しました本記事で、MCPの誕生から現在に至るまでの技術的変遷を詳細に追いながら、2025年時点での最適な実装方法を完全なソースコードと共に解説します。特に、仕様の変化に振り回されがちな実装者の視点から、なぜ現在の形に収束したのか、そして今後どのような実装アプローチを取るべきかを明確にしていきます。第1章 MCPが解決しようとした問題

【出展報告】ASCII STARTUP TechDay 2025

こんにちは！本日、「ASCII STARTUP TechDay 2025」に出展してまいりましたのでレポートさせていただきます！ ASCII STARTUP TechDay 2025 ASCII STARTUP TechDay 2025は、2025年11月17日（月）に東京・浅草橋ヒューリックホール&カンファレンスで開催された、ディープテック・スタートアップのエコシステム構築をテーマにした展示交流・カンファレンスイベントです。秋の展示会は本当にいいですね本日はとてもよいお天気で、涼しくて、展示会にはピッタリの気候で朝からルンルンでした。しかも午後からの展示会ということで、気持ちに余裕をもって朝の業務をこなしていたところ、けっこうすぐに昼前になり、あわてて現場へ。浅草橋は当社からもわりと近いという立地の良さを甘く見ておりましたが💦、なんとか予定時刻前に到着しました。やっぱり、都心開催は本当にありがたいですね。会場へ急いでいると、おなかが「ぐ～」と鳴り「そういえば、朝食まだだったわ」とおもったところに、なんと私の大好きなエッセンさん🍞のトラックがあるで

サブスクビジネス完全攻略第1回～『アープがさぁ...』『チャーンがさぁ...』にもう困らない完全ガイド

なぜサブスクリプションモデルが世界を変えているのか、でもAI台頭でSaaSは終わってしまうの？こんにちは！ Qualitegコンサルティングです！新規事業戦略コンサルタントとして日々クライアントと向き合う中で、ここ最近特に増えているのがSaaSビジネスに関する相談です。興味深いのは、その背景にある動機の多様性です。純粋に収益モデルを改善したい企業もあれば、「SaaS化を通じて、うちもデジタルネイティブ企業として見られたい」という願望を持つ伝統的な大企業も少なくありません。 SaaSという言葉が日本のビジネスシーンに本格的に浸透し始めたのは2010年代前半。それから約15年が経ち、今やSaaSは「先進的な企業の証」のように扱われています。まず SaaSは「サーズ」と読みます。（「サース」でも間違ではありません、どっちもアリです）ほかにも、 MRR、ARR、アープ、チャーンレート、NRR、Rule of 40…… こうした横文字が飛び交う経営会議に、戸惑いながらも「乗り遅れてはいけない」と焦る新規事業担当者の姿をよく目にします。しかし一方で、2024

オプション一覧

Read more

GPUを使った分散処理で見落としがちなCPUボトルネックとtasksetによる解決法

Model Context Protocol完全実装ガイド 2025- 仕様変遷から最新Streamable HTTPまでの全て

【出展報告】ASCII STARTUP TechDay 2025

サブスクビジネス完全攻略 第1回～『アープがさぁ...』『チャーンがさぁ...』にもう困らない完全ガイド

サブスクビジネス完全攻略第1回～『アープがさぁ...』『チャーンがさぁ...』にもう困らない完全ガイド