LLM

[vLLM] To use CUDA with multiprocessing, you must use the 'spawn' start method の対処法

Qualiteg プロダクト開発部

2025年2月10日 — 1 min read

Photo by Andy Holmes / Unsplash

WSLで vLLM を使用するとき、 tensor parallel を使って複数枚のGPUで1つのLLMをサーブしようとしたとき以下のようなエラーが発生しがちです

RuntimeError: Cannot re-initialize CUDA in forked subprocess. To use CUDA with multiprocessing, you must use the 'spawn' start method

遭遇するシーンとしてはvLLMの起動オプションに以下のようにテンソル並列化オプションを指定したときです。

--tensor-parallel-size 2

つまり、マルチプロセッシングでCUDA使うときは、 "fork"じゃなくて"spawn" 使ってね、というエラーです。

これを vLLM に教えるために、以下の2行目のように環境変数を設定してあげるとvLLMが "spawn" を使ってくれるようになります。

export CUDA_VISIBLE_DEVICES=0,1
export VLLM_WORKER_MULTIPROC_METHOD=spawn

Read more

Claude Opus 5.0 完全ガイド　モデル仕様とAPI・Claude Code運用ポイント

Claude Opus 5.0 完全ガイド　モデル仕様とAPI・Claude Code運用ポイント

こんにちは！ 2026年7月24日、AnthropicからClaude Opus 5がリリースされました。 Opus 4.8（5月28日リリース）からわずか2ヶ月での世代交代です。このあたりのスピード感、加速していますね。さて、当ブログではClaude Opus 4.7 完全ガイド、Claude Opus 4.8 完全ガイドとOpusの世代を追いかけてきましたが、今回のOpus 5は過去2回の「4.x内のアップデート」とは立て付けが根本的に違います。何が違うのか。まず、Opus 5は「最上位モデル」ではありません。 Anthropicのラインナップには2026年6月9日リリースのClaude Fable 5が最上位として存在し、Opus 5はその下位、Sonnet 5の上位という「中上位」ポジションで投入されました。 Opusという名前が「最上位ティア」を意味した時代は、Fable 5の登場で終わっています。そのうえでAnthropicはOpus 5を「

TensorRT 10 × Blackwell 移行ガイド【前編】RTX 50 で推論資産が動かない — 基本と最初の壁

TensorRT 10 × Blackwell 移行ガイド【前編】RTX 50 で推論資産が動かない — 基本と最初の壁

こんにちは！新しい GPU を手に入れてワクワクしながら既存の推論環境を載せ替えたら、昨日まで普通に動いていたものが軒並みエラーで止まったそんな経験はないでしょうか。NVIDIA RTX 50 系、NVIDIA RTX PRO 系（Blackwell 世代）への移行では、これがかなりの高確率で起きます。そして厄介なことに、エラーで止まってくれるのは、まだ親切なほうで、、TensorRT の世界には「ビルドは通る、実行も通る、速度もちゃんと出る、けれど出力だけが静かに壊れている」という、いちばん見つけにくい失敗の仕方が存在します。本記事はその全体像を扱うシリーズの前編です。対象環境 OS: Ubuntu 24.04 (WLS) GPU: NVIDIA RTX PRO 4000 Blackwell・GeForce RTX 5060 Ti （ともに Compute Capability 12.

Kimi K3 徹底リサーチ — 2.8兆パラメータ、「史上最大のオープンウェイト」は実現するか

Kimi K3 徹底リサーチ — 2.8兆パラメータ、「史上最大のオープンウェイト」は実現するか

こんにちは！ 2026年7月16日、中国・北京の Moonshot AI が新しいフラッグシップモデル Kimi K3 を発表し、APIやWebサービスでの提供を開始しました。総パラメータ2.8兆という規模、100万トークンのコンテキスト、そして「史上最大のオープンウェイトモデルになる」という宣言がAI界隈をにぎわせています。当ブログでは今年5月の記事「Mythos（ミュトス）レベルのオープンモデルはいつ出るのか」で、オープンモデルがクローズドのフロンティアにいつ追いつくのかを予測しました。 Kimi K3 は、まさにその問いに対する現時点での最新の「回答」のひとつです。一方で、この記事を書いている7月20日時点では、モデルのウェイトも技術レポートもまだ公開されていません。ただし、XなどSNSかいわいでは、「ガードレールが弱めで、Fable5では拒否されるようなプロンプトでも対応してくれる」「すぐにOpus4.8にフォールバックする Fable5より使い勝手がいい」といった声が散見されており、米国産のガードレール強め方針にたいして、ガードレール

PII 非識別化の本質——「誰か」は偽ってよい、「何が起きたか」は偽ってはならない

PII 非識別化の本質——「誰か」は偽ってよい、「何が起きたか」は偽ってはならない

こんにちは！Qualitegプロダクト開発部です！本日は、PII（ Personally Identifiable Information→個人情報）の非識別化に関する内容を解説いたします。当社ではこれまで、高精度なPII検出技術やLLM利用時の段階的PIIマスキング、PII検出のテスト設計など、個人情報検出とAIセキュリティに関する技術解説をお届けしてきました。現在、当社では、PII検出マスキング技術「PII-FIエンジン」と、それを活用したPIIのマスキング・非識別化サービス「PII-FI Scan」「PII-FI API」を開発・提供しています。本記事では、「PIIを検出したあと、それをどう書き換えるか」の設計原則を、1つの例文を試金石にして、私たちが実際のプロダクトで採用している整理をご紹介します。先にことわっておきますと、本記事でいう「非識別化(de-identification)」は、文書やログを安全に共有・分析するための技術的な加工(個人を特定できないように加工する処理)のお話です。個人情報保護法上の「仮名加工情報」「匿名加工情報」に該当することを