[ChatStream] Transformer応答をモックする Transformer Mock

[ChatStream] Transformer応答をモックする Transformer Mock

こんにちは! (株)Qualiteg プロダクト開発部 です!

本稿では、モックデータの作成方法について説明します! これは正式には「Transformer Mock」と呼ばれている機能のためのもので、実際のLLM出力をレコーディングして再現するためのものです。

なぜこんなことが必要かというと、 LLM アプリのテスト(単体テストなど)で使用します。LLMアプリのテストをするとき、古典的な単体テストでは、入力に対して期待する出力は固定されていることが前提です。

ところがLLMはその特性上、同一の入力に対しても毎回異なる応答を返してきます。そこが生成AIの良いところですが古典的な単体テストをするときには悩んでしまいます。

ここで賢い読者の皆様は、同一の入力に対して、同一の出力を得たいなら、シードを固定すればいいじゃん。とお考えの方もいらっしゃるとおもいますが、シード値を固定して、入力を固定して、各種サンプリングパラメータを固定しても GPUの種類が異なると異なる出力を出してしまう、ということがわかっています。

これでは、GPUを変更したとたんに単体テストが通らなくなって困ってしまうため、それならば、あるGPUに対して入力した値と出力された値をレコーディングしておき、単体テストのときにはそのレコーディングした結果を「再現」することで疑似的にGPUの計算入力と計算結果を模すことができる、というのが本機能の発想となっております。

これにより、単体テストにおいても ChatStream 内コードの多くの部分を通る(1回のテストでのカバレッジがあがる)ため単体テストの信頼性を向上させることができます。

また、大型のモデルの読み込みには何十分もかかることもあり、nightly ビルドでCIしたとしても、本質的じゃない(そこはカバーしなくてよい)部分のために多くの時間をとられてしまうという課題もあり、そういった課題についても本機能によるエミュレーションで大幅に時間短縮することができます。

モックデータの作成方法

モデルを読み込まなくても、モデルと同じ応答を行わせることができる Mock モード(モックモード)について説明します。

Transformer Mockモードとは

事前に Model,Tokenizer への入力と出力のペアを記録し、それを再生することで
実際には Model,Tokenizer が無くても あたかも Model,Tokenizer があるかのように振る舞わせることができます。

このように Model,Tokenizer をエミュレーションするのが Mockモードです

Transformer Mockモードのメリット

  • モデルデータの読み込み時間が無い。
  • 再現性のある出力(AIアシスタントの応答)を得ることができる

ことで、モデルそのもの以外の評価やテストを手軽に用意に行うことができます

Generator Mockとの違い

類似の機能に Generator Mock があります。

Transfromer Mock モードは 実際のModel,Tokenizerの挙動を記録して再現するのにたいして Generator Mock は
入力を受け取った後、ダミーの文章で応答します。 Transformer Mock モードは決められた入力しか受け付けられませんが、Generator Mockはどのような入力でもダミーの文章で応答します。

Generator MockはAPIの挙動確認などで活用できますが、テストコード実行時のカバレッジは Transformer Mockモードに比べるとだいぶ低くなりますので、カバレッジを重視される場合は、Transformer Mockモードの使用がオススメです。

記録と再現

Transformer Mock モードのための記録 ~ Probeモード ~

厳密には Mock,Tokenizer の挙動を再現することを Transformer Mock モードと呼びます。
Mock,Tokenizer の挙動を記録するモードのことを Probe モードと呼びます。

以下のように probe_mode_enabled=True とすることで、 Probeモードが有効になります


chat_stream = ChatStream(
    num_of_concurrent_executions=2,
    max_queue_size=5,
    model=model,
    tokenizer=tokenizer,
    num_gpus=num_gpus,
    device=device,
    chat_prompt_clazz=ChatPrompt,
    add_special_tokens=False,
    max_new_tokens=128,
    context_len=1024,
    temperature=0.7,
    top_k=10,
    client_roles=client_role_free_access,
    locale='ja',
    token_sampler=TokenSamplerIsok(),
    seed=42,
    probe_mode_enabled=True,
)

probe_mode_enabled=True な状態で ChatStreamサーバーを起動し、UIからテキストの入力を行い
応答を生成します。このように普通にチャットを行うだけでその入力、応答が自動的に記録されます。

記録されたデータは以下ディレクトリに保存されます

 [home_dir]/.cache/chatstream/probe_data 

Transformer Mock モードで Model,Tokenizer をエミュレーション

MockTransformer をつかうと、記録されたデータをつかって Model,Tokenizer をエミュレーションすることができます

MockTransformer(parent_dir_path=[親ディレクトリ], dirname=[記録されたデータの保存されたディレクトリ名],
                wait_sec=[1トークン生成するたびに設定するウェイト(秒)])

[親ディレクトリ]を省略した場合は

 [home_dir]/.cache/chatstream/probe_data 

がディレクトリとして適用されます。

サンプルコード


mock_transformer = MockTransformer(parent_dir_path=mock_data_dir, dirname=mock_data_name, wait_sec=0)

model = mock_transformer.get_model() # model
tokenizer = mock_transformer.get_tokenizer() # tokenizer
token_sampler = mock_transformer.get_token_sampler() # サンプリングクラス

if device.type == 'cuda' and num_gpus == 1:
    model.to(device)

chat_stream = ChatStream(
    num_of_concurrent_executions=2,
    max_queue_size=5,
    model=model,
    tokenizer=tokenizer,
    num_gpus=num_gpus,
    device=device,
    chat_prompt_clazz=ChatPrompt,
    add_special_tokens=False,
    max_new_tokens=128,  # The maximum size of the newly generated tokens
    context_len=1024,  # The size of the context (in terms of the number of tokens)
    temperature=0.7,  # The temperature value for randomness in prediction
    top_k=10,  # Value of top K for sampling
    top_p=0.9,  # Value of top P for sampling,
    # repetition_penalty=1.05,
    client_roles=client_role_free_access,
    locale='ja',
    token_sampler=token_sampler,

)

これでChatStreamサーバーを起動するとTransformer Mockモードで動作します

注意

入力できるテキストや順序は、記録したときと同じテキストと順序となります

Read more

個人情報検出の精度を、どう正しく語るか ― Recall、信頼区間、代表性から考える評価設計

個人情報検出の精度を、どう正しく語るか ― Recall、信頼区間、代表性から考える評価設計

こんにちは。Qualiteg研究部です。 私たちは、個人情報(PII)や機密情報、要配慮個人情報を含むセンシティブな情報を検出・マスキングする技術(https://pii-fi.com)の開発に取り組んでいます。 その中で日々向き合っているのが、 「精度の数字を、どうすれば正直に、正しく語れるのか」 という問題です。 たとえば、検出器の Recall(再現率)が 0.95 だったとします。 これは高い数字に見えます。しかし、その数字はどの種類の文書で測ったものなのか。正解データはどう作ったのか。サンプル数は十分なのか。別の業務文書にも同じ数字を当てはめてよいのか。 精度の数字は、単独ではほとんど意味を持ちません。 「何を、どの条件で、どう数えたか」とセットになって、はじめて実務で使える数字になります。 本記事では、私たちが PII 検出の精度評価に取り組む中で得た、精度を誠実に語るための考え方を紹介します。アルゴリズムの中身ではなく、評価のしかたに焦点を当てます。 1. はじめに:「Recall 0.95

By Qualiteg 研究部
一文の依頼で、調査から資料作成まで。AIエージェント「Bestllam」のデモ動画を公開しました

一文の依頼で、調査から資料作成まで。AIエージェント「Bestllam」のデモ動画を公開しました

こんにちは! 本日は当社の統合AIプラットフォーム "Bestllam®" の AIエージェント機能のデモをご紹介いたします! 「指示は出せても、AIが本当に仕事を仕上げてくれるのか」 生成AIを業務に取り入れる企業が増えています。 しかし現場からは、こんな本音も聞こえてきます。 「使い方を覚えるより、自分でやったほうが早い」 「指示を細かく出し直しているうちに、結局時間がかかる」 「便利なのは分かるが、機密情報を入力していいのか不安」 AIを"個人の便利ツール"の域から、"部門の成果"へと引き上げる。 これが当社の法人向け統合AIプラットフォーム Bestllam(ベストラム) が掲げるテーマです。 今回、そのAIエージェント機能を実際の操作画面とともに紹介する動画を公開しました。 たった一文の依頼が、7枚のレポートになるまで 動画のデモはシンプルです。エージェントに、こう入力します。 「先月の売上を年代別に分析し、資料にまとめてください」 これだけです。すると、エージェントはまず自分でTODOリストを組み立て、何をどの順番で進めるかという段取りを示します

By Qualiteg ビジネス開発本部 | マーケティング部
NCCL error: unhandled cuda error が出たら ─ WSL2 + マルチGPU + vLLM で詰まった話

NCCL error: unhandled cuda error が出たら ─ WSL2 + マルチGPU + vLLM で詰まった話

こんにちは! Qualitegプロダクト開発部です! 今日は、Windows + WSL2 のマシンに RTX 4090 を2枚挿して、大規模なオープンモデルを vLLM で動かそうとしたら、NCCL の初期化で見事に詰まった話を書きます。 世の中に断片的にしか情報がなく、抜けるまでにかなり粘ったので、同じ構成で消耗している方の時間を少しでも節約できれば嬉しいです。 経緯 今回の目的は、次々と登場する最新のオープンモデル(オープンウェイトのLLM)を、手元で評価することでした。 オープンモデルは数週間単位で新しいものが出てきます。ベンチマークの数字だけでなく、自分たちのユースケースに対して実際にどう振る舞うのか——出力の質、速度、量子化したときの劣化具合、エージェント的なタスクの得手不得手——を、手を動かして確かめています 今回の環境は Windows + WSL2(Ubuntu) に RTX 4090 を2枚(各24GB)挿したマシンです。 nvidia-smi 上の CUDA Version は 12.8。 動かすのは大規模オープンモデルを

By Qualiteg プロダクト開発部
Claude Codeで「The model's tool call could not be parsed」が頻発する問題の原因分析と対策

Claude Codeで「The model's tool call could not be parsed」が頻発する問題の原因分析と対策

こんにちは!Qualitegプロダクト開発部です。 Claude Code(CLI)を使った開発中に、次のようなエラーが繰り返し表示されて作業が止まる現象に遭遇しました。 ● The model's tool call could not be parsed (retry also failed). リトライしても直らず、/clear で会話をリセットしても、しばらく作業を続けるとまた同じエラーが出るという状況です。本記事では、実際のセッションログ(jsonl)を解析して特定した原因と、その対策について共有します。 結論から書くと、これは利用者側の設定ミスやコンテキスト枯渇が原因ではなく、 Opus 4.7(1Mコンテキスト)+ extended thinking の組み合わせで発生する、モデル応答側のストリーミングバグ でした。 現象 エラーが発生した環境は以下のとおりです。 * Claude Code 2.1.148 * モデル: Opus 4.

By Qualiteg プロダクト開発部