ChatStream Guide

[ChatStream] 時間のかかるモデル読み込みにプログレスバーをつける

Qualiteg プロダクト開発部

2023年12月25日 — 2 min read

こんにちは (株)Qualiteg プロダクト開発本部です！
HuggingFace の LLMのモデル読み込み時間ってとても長いですよね、そんなときに、便利なツールをご紹介します。

HuggingFace の LLM モデルはダウンロードするときは、進捗がでるのですが、ひとたびダウンロードしたあとは、読み込むまで短くて数分、長くて数十分待たされます。これはディスクからモデルデータ（weights and bias）を処理しながらGPUのVRAMに読み込む処理に時間がかかるのですが、その読み込み状態がいったいいまどのくらいなのか、これがわからず、ヤキモキしたことは無いでしょうか。
そこでは ChatStreamの便利機能として、以下のように、このモデル読み込み時間のプログレス表示をすることができます。

仕掛けはいたってシンプルで、初回の読み込み実行時に処理時間を計測しておき、2回目、また同じ処理が呼ばれたときはプログレスバーを表示します。

使い方も簡単で、モデルの読み込みを LoadTime でラップするだけで、プログレスバーつきで読み込むことができます

Before

model = AutoModelForCausalLM.from_pretrained(model_path, torch_dtype=torch.float16)

↓
↓

After

from chatstream import LoadTime
model = LoadTime(name=model_path,
                 fn=lambda: AutoModelForCausalLM.from_pretrained(model_path, torch_dtype=torch.float16))()

モデル読み込みソースコード全体

import torch
from transformers import AutoTokenizer, AutoModelForCausalLM
from loadtime import LoadTime

model_path = "togethercomputer/RedPajama-INCITE-Chat-3B-v1"

model = LoadTime(name=model_path,
                 fn=lambda: AutoModelForCausalLM.from_pretrained(model_path, torch_dtype=torch.float16))()

tokenizer = AutoTokenizer.from_pretrained(model_path) # tokenizerはモデル読み込みの後で取得します

ちなみに、本機能は、独立したライブラリとしても提供していますので、ChatStreamをご利用でなくても誰でも自由に使用することが可能です。

以下 loadtime パッケージのご紹介させていただきます

loadtime 使い方

インストール方法

pipを使ってLoadTimeをインストールできます

pip install loadtime

主な機能

リアルタイムトラッキング: LoadTimeは読み込みプロセスのリアルタイムトラッキングを提供します。
プログレスバー: プログレスバーを表示し、処理がどれだけ完了し、まだどれだけ残っているかを示します。
過去の読み込み時間キャッシュ:
前回処理した時間をキャッシュしておくため、キャッシュされた情報を使用して、プログレスバーを提供します。
カスタマイズ可能な表示: LoadTimeは、自分のメッセージで進捗表示をカスタマイズすることができます。

基本的な使い方

サンプルコードを示します

import torch
from transformers import AutoTokenizer, AutoModelForCausalLM
from loadtime import LoadTime

model_path = "togethercomputer/RedPajama-INCITE-Chat-3B-v1"

model = LoadTime(name=model_path,
                 fn=lambda: AutoModelForCausalLM.from_pretrained(model_path, torch_dtype=torch.float16))()

tokenizer = AutoTokenizer.from_pretrained(model_path) # tokenizerはモデル読み込みの後で取得します

初期化パラメータ一覧

パラメータ	説明
name	長時間処理の名前を指定します。HuggingFace モデルの読み込み時はモデル名を指定します。
message	表示するメッセージを指定します。省略するとデフォルトのメッセージとなります。
pbar	True に設定すると、プログレスバーとパーセンテージが表示されます。
dirname	キャッシュ保存先のディレクトリ名を指定します。
hf	True に設定すると、HuggingFace のモデル読み込み用の時間表示に使用します。まだモデルデータがディスクにダウンロードされていないときは、HuggingFace のローダーがダウンロード進捗を表示するため、本ライブラリからは表示しません。
fn	長時間処理をする関数を指定します。
fn_print	表示を行う関数を指定します。省略時はコンソールに出力されます。

AI時代のデータ漏洩防止の要諦とテクノロジー：第2回従来型DLPを超えて、AI-DLPが解決すべき本質的課題

こんにちは！前回の記事では、AI時代のデータ漏洩防止における技術的な基礎として、HTTPSインターセプトの仕組みと限界について詳しく解説しました。プロキシサーバーによるSSL/TLS通信の復号化、中間CA証明書の運用、そして証明書ピンニングという技術的制約まで、企業がWeb通信を監視する際の技術的な現実を明らかにしました。しかし、これらのプロキシ技術は、実は既存のDLP製品でも広く採用されている一般的な手法です。メール監視、ファイル転送の制御、Webアクセスの監査など、従来型のデータ漏洩防止においても、HTTPSインターセプトは中核的な役割を果たしてきました。では、なぜAI時代において新たにDLPを考え直す必要があるのでしょうか。前回にひきつづき、従来型DLPでは対応できないAI固有の課題と、AI-DLPとして新たに考慮すべき要素に焦点を当て、より本質的な議論を展開していきます。 1. AI時代が要求する新たなDLP要件従来のDLP製品は、クレジットカード番号や社会保障番号といった定型的なパターンの検出において優れた実績を持っています。これらの技術は今後も重要な

Claude Fable 5はこれからどうなる？経緯・コスト・今後の見通しをファクトベースで整理する

こんにちは！ 2026年7月2日(日本時間)、日本からもClaude Fable 5が再び利用できるようになりました。 2026年6月に大きな注目を集めて登場し、わずか3日で米政府の指令により停止、そして7月1日(米国時間)に復活したAnthropicの最上位モデル「Claude Fable 5」。復活と同時に「サブスクで使えるのは7月7日まで」という条件が付いたことで、利用者の間ではコストへの懸念の声も見られます。本記事では、憶測と事実を切り分けながら、 (1)これまでの経緯、 (2)確定している料金体系、 (3)実際のコスト試算、 (4)今後の見通し、の4点を整理します。確定情報(ファクト)と筆者の推測は明確に区別して書きます。 ※本記事の日付は、特記のない限りAnthropicの発表に基づく米国時間を基準としています。なお当ブログでは、Fable 5 / Mythos 5についてリリース直後の技術解説、米政府指令による停止が示した可用性リスクの考察、Fable 5の安全分類器がClaude Code上で実際にどう振る舞ったかの体験記を公開してきました。

モデルを「壊さずに」ドメインを広げる ― XLM-RoBERTa 継続学習の設計ノート

こんにちは、Qualiteg研究部です。今日は「すでに完成している強いモデルを、壊さずに広げる」という、地味だけど実務でとても大事なテーマを取り上げたいと思います。機械学習に取り組んでいると、「一度しっかり仕上げたモデルを、新しい用途やデータに合わせてもう少し広げたい」そんな場面はよく出てきます。今回ご紹介するNER（固有表現抽出）のシーンに限らず、いろいろなタスクで共通する悩みではないでしょうか。ところが、ここで素朴に追加学習をかけると、せっかくの強みがあっさり崩れてしまう。私たちは、PII（個人特定情報や要配慮情報）を検出・マスキングするエンジン(PII-FI)を構築する際、実際にそれを経験しました。 Precision（適合率）が 0.83 から 0.17 まで転げ落ちる、なんてことも本当に起きるんです。 PII検出では、ドメイン（分野）ごとに検出したいPII型の種類や求められる精度が異なる場合があります。そこで1つのエンジンといっても、対応ドメインを広げていくたびに（そのドメインに適応させるための）追加学習が求められることがあります。本稿は、そう

Claude Codeで出てくる「court」って何？ “XML露出” 現象とツール呼び出し未実行事故の対策

こんにちは！ Qualitegプロダクト開発部です。 Claude Code を使っていると、ツール呼び出しの XML（<invoke> や <parameter>）が画面にそのまま表示されたり、実際にはコマンドや PR 作成が実行されていないのに「完了しました」と報告されたりして、動作がおかしくなることがあります。そして、その呼び水となる文字列 court や course や count が出現します本稿では、この現象（本稿では「XML露出」と呼びます）を実ログから解説し、検知と対策をまとめました。 ● ● ● claude-code — bash➜ ~/qualiteg-project claude> プロジェクト配下のストレージ使用量を調査します。court<invoke name="Bash">