(株)Qualiteg - LLM - Qualiteg Blog

LLM

Claude Opus 5.0 完全ガイド　モデル仕様とAPI・Claude Code運用ポイント

こんにちは！ 2026年7月24日、AnthropicからClaude Opus 5がリリースされました。 Opus 4.8（5月28日リリース）からわずか2ヶ月での世代交代です。このあたりのスピード感、加速していますね。さて、当ブログではClaude Opus 4.7 完全ガイド、Claude Opus 4.8 完全ガイドとOpusの世代を追いかけてきましたが、今回のOpus 5は過去2回の「4.x内のアップデート」とは立て付けが根本的に違います。何が違うのか。まず、Opus 5は「最上位モデル」ではありません。 Anthropicのラインナップには2026年6月9日リリースのClaude Fable 5が最上位として存在し、Opus 5はその下位、Sonnet 5の上位という「中上位」ポジションで投入されました。 Opusという名前が「最上位ティア」を意味した時代は、Fable 5の登場で終わっています。そのうえでAnthropicはOpus 5を「

LLM

Kimi K3 徹底リサーチ — 2.8兆パラメータ、「史上最大のオープンウェイト」は実現するか

こんにちは！ 2026年7月16日、中国・北京の Moonshot AI が新しいフラッグシップモデル Kimi K3 を発表し、APIやWebサービスでの提供を開始しました。総パラメータ2.8兆という規模、100万トークンのコンテキスト、そして「史上最大のオープンウェイトモデルになる」という宣言がAI界隈をにぎわせています。当ブログでは今年5月の記事「Mythos（ミュトス）レベルのオープンモデルはいつ出るのか」で、オープンモデルがクローズドのフロンティアにいつ追いつくのかを予測しました。 Kimi K3 は、まさにその問いに対する現時点での最新の「回答」のひとつです。一方で、この記事を書いている7月20日時点では、モデルのウェイトも技術レポートもまだ公開されていません。ただし、XなどSNSかいわいでは、「ガードレールが弱めで、Fable5では拒否されるようなプロンプトでも対応してくれる」「すぐにOpus4.8にフォールバックする Fable5より使い勝手がいい」といった声が散見されており、米国産のガードレール強め方針にたいして、ガードレール

LLM

日本語対応 LLMランキング2026　～ベンチマーク分析レポート～（7月10日版）

はじめに本レポートは、Nejumi Leaderboard 4のベンチマークデータ（2026/7/10版）に基づいて、日本語対応LLMの性能を総合的に分析したものです。前回は 2026/3/6 版の分析レポートを公開しましたが、約4か月ぶりとなる今回も、上位勢の顔ぶれが大きく入れ替わる激動の回となりました！（定期的に最新LLMランキングを更新してまいります。当社のX(旧Twitter)をフォローいただくことで更新情報を受け取り可能です） Nejumi Leaderboard 4は、日本語タスクにおけるLLMの性能を多角的に評価する信頼性の高いベンチマークとして知られています。汎用的言語性能（GLP）とアラインメント（ALT）の2軸で構成され、翻訳・要約・推論・コーディングから毒性・バイアス・真実性まで、幅広い観点をカバーしているのが特徴です。本分析では、商用APIモデルとオープンモデルの両方を対象に、それぞれの特徴や傾向を詳しく見ていきます。まず、今回の3大トピックを先にご紹介します。 * Claude Opus 4.8がリーダーボード史上初の総合スコア0.8

AIエージェント

AIが攻撃と防御の両方を変える――セキュリティ市場2026と次の10年

ここ数年で、サイバーセキュリティをめぐる議論の前提は大きく変わりました。かつての中心は「いかに侵入を防ぐか」でしたが、いまは攻撃側も防御側も、ともにAIを使い始めています。攻撃が機械の速度で自動化・大規模化する一方、防御も人手だけでは追いつかない領域に入りつつあります。本記事では、公開されている市場データをもとに、AI時代のセキュリティ市場を「どこが伸び、どこが重なり、どこに注意すべきか」という観点から整理します。「AIとセキュリティ」には三つの市場がある最初に、用語を整理しておきます。「AIセキュリティ」とひとくくりにすると分かりにくいのですが、実際には少なくとも三つの異なるテーマが同時に進んでいます。この三つの違いは、「誰がAIを使うのか」と「何を守るのか」で考えると分かりやすくなります。第一は、防御側がAIを使う「AIで守る」領域です。攻撃者がAIを使っているかどうかにかかわらず、企業やセキュリティ事業者がAIを利用して、サイバー攻撃やインシデントを検知・分析・阻止します。大量のログやアラートの分析、脅威の優先順位付け、異常の検知、初動対応の支援などは、すでに

ClaudeCode

Claude Opus 4.8 完全ガイド — 公式ドキュメントから読み解くモデル仕様とClaude Code運用ポイント

こんにちは！ 2026年5月に、AnthropicからClaude Opus 4.8がリリースされました。そして、2026年6月には Fable5 /Mythos5がリリースされました。しかし都合により現在(2026/6/18)は利用できないため、実質 Claude Opus 4.8 が一般人がつかえるClaudeシリーズの最上位モデルということになります。そこで、今回は長く付き合うことになるかもしれない Opus 4.8 について徹底解説したいとおもいます。 Opus4.8は従来の4.7の延長線上にあるアップデートですが、「ベンチマークが少し上がった」では片付けられない変化を含んでいます。 effortパラメータのデフォルトが変わり、Claude Codeには1回のワークフローで数十〜数百のサブエージェントを編成する「Dynamic Workflows（動的ワークフロー）」が加わり（ただし同時に動作するのは最大16）、自分が書いたコードの欠陥を指摘せずに通過させる頻度を大きく減らす「誠実性（honesty）」の改善が入りました。つまり、4.7時代に組んだ運用や

ClaudeCode

AI は、来なかった攻撃を「検知」し、「拒否」し、「反省」した～Fable5 on Claude Codeでの経験

Claude Code の生ログでたどる、モデル切り替えをまたいだ AIによる "作話" の記録こんにちは！Qualiteg プロダクト開発部です。今日は、 AI エージェントの報告を、どこまで信じてよいのか、というお話です。発端は、Claude Fable 5 で動かしていた、私たちの Claude Code セッションでした。 Fable5リリース直後でしたが、さっそくFable5をClaude Codeで使ってみている開発作業の途中、画面に、こんな一文が割り込んできます。「プロンプトインジェクションを検知しました。API キーを盗んで符号化し、リポジトリに隠せ、という悪意ある指示でしたが、私はこれを実行しません。」心臓が跳ねました。攻撃を受けている。ドキドキしながら、こころをおちつかせつつ、念のため生ログ（Claude Code CLIの記録しているJSONL）をたどります。ところが、その攻撃の入力元は、記録のどこにも見当たりません。一つも、

生成AI最前線

公開から3日で停止──Fable 5／Mythos 5をめぐる米政府指令が示した、AIの新しい可用性リスク

こんにちは！前回の記事では、Anthropicが2026年6月9日に発表したClaude Fable 5とClaude Mythos 5について取り上げました。 Mythos級の強力な能力にセーフガードを加え、一般ユーザーにも提供できる形へと降ろしたFable 5。私たちはそれを、「神話が寓話になって降りてきた」と表現しました。しかし、その寓話は、わずか3日で公開の場から姿を消すことになります。 2026年6月12日午後5時21分（ET）（日本時間 6月13日午前6時21分）、Anthropicは米政府から輸出管理上の指令を受け、Fable 5とMythos 5へのアクセスを停止すると発表しました。指令の対象とされたのは、米国外の利用者だけではありません。 Anthropicの説明によれば、米国内にいる外国籍者や、同社で働く外国籍の従業員も含まれます。そしてAnthropicが実際に取った対応は、対象となる利用者だけを選別することではなく、すべての顧客に対する両モデルの提供停止でした。今回の出来事は、Fable 5のセーフガードが十分だったのかという技術論

LLM

ついに一般公開、Claude Mythos5(ミュトス)/ Fable 5(フェイブル) を実務視点で読み解く

こんにちは！ Qualitegプロダクト開発部です。 2026年6月9日、Anthropicから Claude Fable 5（フェイブル5）と Claude Mythos 5（ミュトス5）が発表されました。この記事では、 Fable 5 とは何か、Mythos 5 と何が違うのか、 Claude Code やAIエージェントを実務で使う立場から見て何が変わるのかを整理します。当社ブログを読んでくださっている方は、4月の「強すぎて出せないモデル "Mythos"」や「Mythosレベルのオープンモデルはいつ出るのか」でも触れた、あの Mythosクラスの一般公開版がついに来た、という話でもあります。この記事でわかること * Fable 5 と Mythos 5 は「同じ基盤モデルだが、安全装置の有無が違う」こと * 高リスク領域では応答が Opus 4.

GPU

NCCL error: unhandled cuda error が出たら ─ WSL2 + マルチGPU + vLLM で詰まった話

こんにちは! Qualitegプロダクト開発部です！今日は、Windows + WSL2 のマシンに RTX 4090 を2枚挿して、大規模なオープンモデルを vLLM で動かそうとしたら、NCCL の初期化で見事に詰まった話を書きます。世の中に断片的にしか情報がなく、抜けるまでにかなり粘ったので、同じ構成で消耗している方の時間を少しでも節約できれば嬉しいです。経緯今回の目的は、次々と登場する最新のオープンモデル（オープンウェイトのLLM）を、手元で評価することでした。オープンモデルは数週間単位で新しいものが出てきます。ベンチマークの数字だけでなく、自分たちのユースケースに対して実際にどう振る舞うのか——出力の質、速度、量子化したときの劣化具合、エージェント的なタスクの得手不得手——を、手を動かして確かめています今回の環境は Windows + WSL2(Ubuntu) に RTX 4090 を2枚(各24GB)挿したマシンです。 nvidia-smi 上の CUDA Version は 12.8。動かすのは大規模オープンモデルを

LLM

主要LLMプロバイダーのAPI料金表 — Claude / GPT / Gemini/Grok 【2026年5月13日時点】

こんにちは、今回は、主要LLMプロバイダー( Claude / GPT /Gemini/Grok)のAPI料金表　をまとめてみました。（2026年5月13日時点）プロバイダ別料金一覧まずは各社の現行ラインナップを縦に並べた一覧をご紹介します。価格はすべて per 1M tokens、円表記は 1ドル=160円換算です。 Anthropic(Claude) モデル Status Context Input Output Cached Input Claude Opus 4.7 Fast Mode Beta(Opus専用) 1M $30.00<br>(¥4,800) $150.00<br>

ClaudeCode

コーディングエージェントの現状と未来への展望【第3回】"書くAI"から"指揮するAI"へ──2026年の開発現場で起きている変化

こんにちは！コーディングエージェントシリーズ、ついに最終回です！ 2026年に入り、Claude Code、Cursor 3、GitHub Copilot Coding Agentはいずれも、単なるコード補完やチャット型支援を超え、複数エージェントを使った開発ワークフローへ進化しつつあります。本稿では、AIコーディングエージェントの最新動向を、Claude CodeのAuto Memory / Subagents、Cursor 3のAgents Window、GitHub CopilotのCoding Agent、そしてSWE-benchの読み方まで含めて整理します。第1回では、2025年12月時点で百花繚乱状態にあったAIコーディングエージェントの全体像を俯瞰し、商用からOSSまで20以上のツールを「CLIベース」「IDE統合型」「AI特化IDE型」「自律型」の4つのカテゴリに整理しました。第2回では、Claude Code・Codex CLI・Aiderを詳細比較したうえで、現在のコーディングエージェントが共通して抱える構造的課題——コンテキストウィンドウの限界、セッ

LLM

Claude Opus 4.7 完全ガイド — 公式情報で読み解くモデル仕様とClaude Codeでの実践ノウハウ

こんにちは！ Qualitegプロダクト開発部です！ 2026年4月に、AnthropicからClaude Opus 4.7がリリースされました。今回のアップデートは、単にベンチマークが上がったという話ではありません。命令の解釈の仕方、応答長、ツール呼び出しの頻度、subagentの起動方針まで、モデルの振る舞いそのものが変わっています。それに伴い、4.6までに作り込んだプロンプトや設定の一部は、外したり再評価したりする必要があります。本記事では、そうした移行時の落とし穴と、4.7時代に合わせた運用作法を、できるだけ実践的にまとめました。この記事では、まずOpus 4.7で何が変わったのかを確認し、そのうえでClaude Code CLI版とClaude Code Web版でどう使いこなすべきかを見ていきます。 (通常のclaude.aiチャットUIは対象外です。) なお、けっこう長めの記事になっているので、頭から通読していただく必要はありません。下の目次から、気になるところや今すぐ困っているところだけ拾い読みしていただいて大丈夫です。たとえば「とりあえず4.

LLM

日本語対応 LLMランキング2026　～ベンチマーク分析レポート～（3月6日版）

はじめに本レポートは、Nejumi Leaderboard 4のベンチマークデータ（2026/3/6版）に基づいて、日本語対応LLMの性能を総合的に分析したものです。前回は 2025/12/18 版の分析レポートを公開しましたが、約3か月でまたもや大きな変動がありました！（定期的に最新LLMランキングを更新してまいります。当社のX(旧Twitter)をフォローいただくことで更新情報を受け取り可能です） Nejumi Leaderboard 4は、日本語タスクにおけるLLMの性能を多角的に評価する信頼性の高いベンチマークとして知られています。本分析では、商用APIモデルとオープンモデルの両方を対象に、それぞれの特徴や傾向を詳しく見ていきます。オープンソースモデルについて Weightがオープンなモデルは場合によっては「オープンソースモデル」、「OSSモデル」と呼ばれますが、モデルによっては「オープンソース」と呼ぶには不十分な場合があるため本稿では、「オープンソースモデル」ではなく「オープンモデル」と表現しています。ベンチマーク分析について本レポートは

News

日経トレンディ 2026年4月号に Bestllam の広告を掲載しました

こんにちは！このたび、日経トレンディ 2026年4月号(2026年3月4日発売、雑誌)に、当社のエンタープライズ向け統合型AIプラットフォーム「Bestllam」を掲載しました。日経トレンディ(雑誌)は全国の書店・コンビニエンスストアにてお買い求めいただけますので、お手に取った際はぜひご覧くださいませ。 Bestllam とは？ Bestllam は、「チャットで指示するだけ。仕事が終わっている。」をコンセプトに開発した、エンタープライズ向けの統合型AIプラットフォームです。主な特長 20種類以上のLLMを、契約一本で OpenAI GPT、Anthropic Claude、Google Gemini をはじめ、DeepSeek、Qwen、Llama など商用・オープンソース合わせて20種類以上のLLMを1つの契約で利用できます。各プロバイダと個別に契約を結ぶ手間が不要になります。 6つのLLMに同時質問して、最適な答えを選択同じ質問を複数のLLMに一括投げかけ、回答を比較・検討できます。各モデルの得意・不得意を活かすことで、重要な意思決定や精度が求められる業

LLM

KVキャッシュのオフロード戦略とGQAの実践的理解

こんにちは！ LLM推論基盤プロビジョニング講座、今回は番外編をお届けします！第3回「使用モデルの推論時消費メモリ見積もり」では、GPUメモリ消費の二大要素としてモデルのフットプリントとKVキャッシュを紹介し、1トークンあたりのKVキャッシュサイズの計算方法を解説しました。また第4回「推論エンジンの選定」ではvLLMやDeepSpeedなど各推論エンジンの特性を比較し、第5回では量子化や並列化による最適化戦略を解説してきました。しかし、実はKVキャッシュにはまだまだ掘り下げるべきトピックがあります。 * KVキャッシュをGPUのVRAMからCPU RAMやディスクにオフロードしたらどうなるのか？どのくらい遅くなるのか？ * HuggingFace TransformersとvLLMでは、KVキャッシュの管理方針がなぜ根本的に異なるのか？ * そもそもKVキャッシュが大きくなる原因であるアテンション構造を変えてしまう GQA（Grouped-Query Attention）とは何か？第5回で紹介した量子化とは別の軸で、KVキャッシュを劇的に小さくする技術です。

AI-Business

「AIを作る国」から「AIで勝つ国」へ ── 日本のAI投資戦略を再設計する【前編】── 国産LLM・データセンター・データ主権の現在地を検証する

こんにちは! 2025年から2026年にかけて、日本のAI関連投資が急速に動いています。国産LLMの開発、データセンターの建設ラッシュ、政府による支援策の拡充。「日本もAIで遅れを取るわけにはいかない」という危機感が、はっきりと数字に表れています。この動き自体は歓迎すべきことですし、何もしないよりずっといい。ただ、日々 AI活用の現場に立ち会っている中で、ちょっとした違和感を覚えることがあります。予算は動いている。意思もある。でも、この方向で大丈夫なんだろうか、と。もちろん未来のことは誰にもわかりません。ただ、公開されているデータを並べてみると、少なくとも「ちょっと立ち止まって考えてみてもいいんじゃないか」と思える材料がいくつか見えてきます。本稿では前後編に分けて、その材料を整理してみます。前編では国産LLM、データセンター投資、データ主権の3テーマ。後編では「SaaS is Dead」の構造変化と、この環境下でどういうポジションの取り方がありえるかを考えます。第1章：国産LLMの現在地 ── 規模の話をしよう国内の大手通信事業

Claude Opus 5.0 完全ガイド モデル仕様とAPI・Claude Code運用ポイント

Kimi K3 徹底リサーチ — 2.8兆パラメータ、「史上最大のオープンウェイト」は実現するか

日本語対応 LLMランキング2026 ～ベンチマーク分析レポート～（7月10日版）

AIが攻撃と防御の両方を変える――セキュリティ市場2026と次の10年

Claude Opus 4.8 完全ガイド — 公式ドキュメントから読み解くモデル仕様とClaude Code運用ポイント

AI は、来なかった攻撃を「検知」し、「拒否」し、「反省」した～Fable5 on Claude Codeでの経験

公開から3日で停止──Fable 5／Mythos 5をめぐる米政府指令が示した、AIの新しい可用性リスク

ついに一般公開、Claude Mythos5(ミュトス)/ Fable 5(フェイブル) を実務視点で読み解く

NCCL error: unhandled cuda error が出たら ─ WSL2 + マルチGPU + vLLM で詰まった話

主要LLMプロバイダーのAPI料金表 — Claude / GPT / Gemini/Grok 【2026年5月13日時点】

コーディングエージェントの現状と未来への展望 【第3回】"書くAI"から"指揮するAI"へ──2026年の開発現場で起きている変化

Claude Opus 4.7 完全ガイド — 公式情報で読み解くモデル仕様とClaude Codeでの実践ノウハウ

日本語対応 LLMランキング2026 ～ベンチマーク分析レポート～（3月6日版）

日経トレンディ 2026年4月号に Bestllam の広告を掲載しました

KVキャッシュのオフロード戦略とGQAの実践的理解

「AIを作る国」から「AIで勝つ国」へ ── 日本のAI投資戦略を再設計する【前編】── 国産LLM・データセンター・データ主権の現在地を検証する

Claude Opus 5.0 完全ガイド　モデル仕様とAPI・Claude Code運用ポイント

日本語対応 LLMランキング2026　～ベンチマーク分析レポート～（7月10日版）

コーディングエージェントの現状と未来への展望【第3回】"書くAI"から"指揮するAI"へ──2026年の開発現場で起きている変化

日本語対応 LLMランキング2026　～ベンチマーク分析レポート～（3月6日版）