【ChatStream】大容量のLLMの推論に必要なGPUサーバー構成

Join us, Michele on Qualiteg's adventure to innovation

2024年7月4日 — 1 min read

大容量のLLM（大規模言語モデル）の推論に必要なGPUサーバー構成とChatStreamとの連携について詳しく動画で解説しています。

特に、Llama3-70Bモデルを例に、そのメモリ要件（140GBのGPUメモリ）と、この要件を満たすために必要なGPUサーバーおよびGPUクラスターの構成について、取り扱いやすい NVIDIA RTX A6000 GPUを使用した例について説明します。

また、モデル並列化技術（テンソル並列化、パイプライン並列化、データ並列化）とその推論エンジンの選択についても触れ、実際に複数のGPUサーバーを使ったクラスター構成がどのように推論処理を効率的に行うかを示します。

最後に、ChatStreamのLLMノードとは何か、そしてそれをどのようにスケーリングして大量の同時リクエストに対応するかについても解説します。こ

の動画は、高性能を必要とするLLMのデプロイメントと運用に興味がある方に特に有益です。

Read more

Claude Opus 5.0 完全ガイド　モデル仕様とAPI・Claude Code運用ポイント

Claude Opus 5.0 完全ガイド　モデル仕様とAPI・Claude Code運用ポイント

こんにちは！ 2026年7月24日、AnthropicからClaude Opus 5がリリースされました。 Opus 4.8（5月28日リリース）からわずか2ヶ月での世代交代です。このあたりのスピード感、加速していますね。さて、当ブログではClaude Opus 4.7 完全ガイド、Claude Opus 4.8 完全ガイドとOpusの世代を追いかけてきましたが、今回のOpus 5は過去2回の「4.x内のアップデート」とは立て付けが根本的に違います。何が違うのか。まず、Opus 5は「最上位モデル」ではありません。 Anthropicのラインナップには2026年6月9日リリースのClaude Fable 5が最上位として存在し、Opus 5はその下位、Sonnet 5の上位という「中上位」ポジションで投入されました。 Opusという名前が「最上位ティア」を意味した時代は、Fable 5の登場で終わっています。そのうえでAnthropicはOpus 5を「

TensorRT 10 × Blackwell 移行ガイド【前編】RTX 50 で推論資産が動かない — 基本と最初の壁

TensorRT 10 × Blackwell 移行ガイド【前編】RTX 50 で推論資産が動かない — 基本と最初の壁

こんにちは！新しい GPU を手に入れてワクワクしながら既存の推論環境を載せ替えたら、昨日まで普通に動いていたものが軒並みエラーで止まったそんな経験はないでしょうか。NVIDIA RTX 50 系、NVIDIA RTX PRO 系（Blackwell 世代）への移行では、これがかなりの高確率で起きます。そして厄介なことに、エラーで止まってくれるのは、まだ親切なほうで、、TensorRT の世界には「ビルドは通る、実行も通る、速度もちゃんと出る、けれど出力だけが静かに壊れている」という、いちばん見つけにくい失敗の仕方が存在します。本記事はその全体像を扱うシリーズの前編です。対象環境 OS: Ubuntu 24.04 (WLS) GPU: NVIDIA RTX PRO 4000 Blackwell・GeForce RTX 5060 Ti （ともに Compute Capability 12.

Kimi K3 徹底リサーチ — 2.8兆パラメータ、「史上最大のオープンウェイト」は実現するか

Kimi K3 徹底リサーチ — 2.8兆パラメータ、「史上最大のオープンウェイト」は実現するか

こんにちは！ 2026年7月16日、中国・北京の Moonshot AI が新しいフラッグシップモデル Kimi K3 を発表し、APIやWebサービスでの提供を開始しました。総パラメータ2.8兆という規模、100万トークンのコンテキスト、そして「史上最大のオープンウェイトモデルになる」という宣言がAI界隈をにぎわせています。当ブログでは今年5月の記事「Mythos（ミュトス）レベルのオープンモデルはいつ出るのか」で、オープンモデルがクローズドのフロンティアにいつ追いつくのかを予測しました。 Kimi K3 は、まさにその問いに対する現時点での最新の「回答」のひとつです。一方で、この記事を書いている7月20日時点では、モデルのウェイトも技術レポートもまだ公開されていません。ただし、XなどSNSかいわいでは、「ガードレールが弱めで、Fable5では拒否されるようなプロンプトでも対応してくれる」「すぐにOpus4.8にフォールバックする Fable5より使い勝手がいい」といった声が散見されており、米国産のガードレール強め方針にたいして、ガードレール

PII 非識別化の本質——「誰か」は偽ってよい、「何が起きたか」は偽ってはならない

PII 非識別化の本質——「誰か」は偽ってよい、「何が起きたか」は偽ってはならない

こんにちは！Qualitegプロダクト開発部です！本日は、PII（ Personally Identifiable Information→個人情報）の非識別化に関する内容を解説いたします。当社ではこれまで、高精度なPII検出技術やLLM利用時の段階的PIIマスキング、PII検出のテスト設計など、個人情報検出とAIセキュリティに関する技術解説をお届けしてきました。現在、当社では、PII検出マスキング技術「PII-FIエンジン」と、それを活用したPIIのマスキング・非識別化サービス「PII-FI Scan」「PII-FI API」を開発・提供しています。本記事では、「PIIを検出したあと、それをどう書き換えるか」の設計原則を、1つの例文を試金石にして、私たちが実際のプロダクトで採用している整理をご紹介します。先にことわっておきますと、本記事でいう「非識別化(de-identification)」は、文書やログを安全に共有・分析するための技術的な加工(個人を特定できないように加工する処理)のお話です。個人情報保護法上の「仮名加工情報」「匿名加工情報」に該当することを