(株)Qualiteg - Qualiteg プロダクト開発部

LLM

日本語対応 LLMランキング2026　～ベンチマーク分析レポート～（7月10日版）

はじめに本レポートは、Nejumi Leaderboard 4のベンチマークデータ（2026/7/10版）に基づいて、日本語対応LLMの性能を総合的に分析したものです。前回は 2026/3/6 版の分析レポートを公開しましたが、約4か月ぶりとなる今回も、上位勢の顔ぶれが大きく入れ替わる激動の回となりました！（定期的に最新LLMランキングを更新してまいります。当社のX(旧Twitter)をフォローいただくことで更新情報を受け取り可能です） Nejumi Leaderboard 4は、日本語タスクにおけるLLMの性能を多角的に評価する信頼性の高いベンチマークとして知られています。汎用的言語性能（GLP）とアラインメント（ALT）の2軸で構成され、翻訳・要約・推論・コーディングから毒性・バイアス・真実性まで、幅広い観点をカバーしているのが特徴です。本分析では、商用APIモデルとオープンモデルの両方を対象に、それぞれの特徴や傾向を詳しく見ていきます。まず、今回の3大トピックを先にご紹介します。 * Claude Opus 4.8がリーダーボード史上初の総合スコア0.8

ClaudeCode

Claude Fable5 完全ガイド — 公式ドキュメントから読み解くモデル仕様とClaude Code運用ポイント

こんにちは！ 2026年6月に登場した Claude Fable 5 は、公開直後の輸出規制による一時停止、グローバル再展開、そしてサブスクリプション枠からの離脱と、わずか1か月でめまぐるしい動きを見せています。当ブログでもその時々の状況を追ってきました。まず全体像はついに一般公開、Claude Mythos 5 / Fable 5 を実務視点で読み解くで、公開直後の停止騒動は公開から3日で停止──Fable 5／Mythos 5 をめぐる米政府指令が示した、AI の新しい可用性リスクで、料金と今後の見通しは Claude Fable 5 はこれからどうなる？経緯・コスト・今後の見通しで扱っています。本記事は、それらを踏まえた「実務で使うための決定版ガイド」です。とくに 2026年7月12日（日本時間7月13日）を境にサブスクリプション枠から外れ、使用クレジットを有効化しないと使えなくなる (この期限は当初2026年7月7日とされていましたが、のちに5日間延長されて7月12日になりました。

LLM セキュリティ

AI時代のデータ漏洩防止の要諦とテクノロジー：第2回従来型DLPを超えて、AI-DLPが解決すべき本質的課題

こんにちは！前回の記事では、AI時代のデータ漏洩防止における技術的な基礎として、HTTPSインターセプトの仕組みと限界について詳しく解説しました。プロキシサーバーによるSSL/TLS通信の復号化、中間CA証明書の運用、そして証明書ピンニングという技術的制約まで、企業がWeb通信を監視する際の技術的な現実を明らかにしました。しかし、これらのプロキシ技術は、実は既存のDLP製品でも広く採用されている一般的な手法です。メール監視、ファイル転送の制御、Webアクセスの監査など、従来型のデータ漏洩防止においても、HTTPSインターセプトは中核的な役割を果たしてきました。では、なぜAI時代において新たにDLPを考え直す必要があるのでしょうか。前回にひきつづき、従来型DLPでは対応できないAI固有の課題と、AI-DLPとして新たに考慮すべき要素に焦点を当て、より本質的な議論を展開していきます。 1. AI時代が要求する新たなDLP要件従来のDLP製品は、クレジットカード番号や社会保障番号といった定型的なパターンの検出において優れた実績を持っています。これらの技術は今後も重要な

ClaudeCode

Claude Codeで出てくる「court」って何？ “XML露出” 現象とツール呼び出し未実行事故の対策

こんにちは！ Qualitegプロダクト開発部です。 Claude Code を使っていると、ツール呼び出しの XML（<invoke> や <parameter>）が画面にそのまま表示されたり、実際にはコマンドや PR 作成が実行されていないのに「完了しました」と報告されたりして、動作がおかしくなることがあります。そして、その呼び水となる文字列 court や course や count が出現します本稿では、この現象（本稿では「XML露出」と呼びます）を実ログから解説し、検知と対策をまとめました。 ● ● ● claude-code — bash➜ ~/qualiteg-project claude> プロジェクト配下のストレージ使用量を調査します。court<invoke name="Bash">

ClaudeCode

Claude Opus 4.8 完全ガイド — 公式ドキュメントから読み解くモデル仕様とClaude Code運用ポイント

こんにちは！ 2026年5月に、AnthropicからClaude Opus 4.8がリリースされました。そして、2026年6月には Fable5 /Mythos5がリリースされました。しかし都合により現在(2026/6/18)は利用できないため、実質 Claude Opus 4.8 が一般人がつかえるClaudeシリーズの最上位モデルということになります。そこで、今回は長く付き合うことになるかもしれない Opus 4.8 について徹底解説したいとおもいます。 Opus4.8は従来の4.7の延長線上にあるアップデートですが、「ベンチマークが少し上がった」では片付けられない変化を含んでいます。 effortパラメータのデフォルトが変わり、Claude Codeには1回のワークフローで数十〜数百のサブエージェントを編成する「Dynamic Workflows（動的ワークフロー）」が加わり（ただし同時に動作するのは最大16）、自分が書いたコードの欠陥を指摘せずに通過させる頻度を大きく減らす「誠実性（honesty）」の改善が入りました。つまり、4.7時代に組んだ運用や

ClaudeCode

AI は、来なかった攻撃を「検知」し、「拒否」し、「反省」した～Fable5 on Claude Codeでの経験

Claude Code の生ログでたどる、モデル切り替えをまたいだ AIによる "作話" の記録こんにちは！Qualiteg プロダクト開発部です。今日は、 AI エージェントの報告を、どこまで信じてよいのか、というお話です。発端は、Claude Fable 5 で動かしていた、私たちの Claude Code セッションでした。 Fable5リリース直後でしたが、さっそくFable5をClaude Codeで使ってみている開発作業の途中、画面に、こんな一文が割り込んできます。「プロンプトインジェクションを検知しました。API キーを盗んで符号化し、リポジトリに隠せ、という悪意ある指示でしたが、私はこれを実行しません。」心臓が跳ねました。攻撃を受けている。ドキドキしながら、こころをおちつかせつつ、念のため生ログ（Claude Code CLIの記録しているJSONL）をたどります。ところが、その攻撃の入力元は、記録のどこにも見当たりません。一つも、

LLM

ついに一般公開、Claude Mythos5(ミュトス)/ Fable 5(フェイブル) を実務視点で読み解く

こんにちは！ Qualitegプロダクト開発部です。 2026年6月9日、Anthropicから Claude Fable 5（フェイブル5）と Claude Mythos 5（ミュトス5）が発表されました。この記事では、 Fable 5 とは何か、Mythos 5 と何が違うのか、 Claude Code やAIエージェントを実務で使う立場から見て何が変わるのかを整理します。当社ブログを読んでくださっている方は、4月の「強すぎて出せないモデル "Mythos"」や「Mythosレベルのオープンモデルはいつ出るのか」でも触れた、あの Mythosクラスの一般公開版がついに来た、という話でもあります。この記事でわかること * Fable 5 と Mythos 5 は「同じ基盤モデルだが、安全装置の有無が違う」こと * 高リスク領域では応答が Opus 4.

ClaudeCode

Claude Codeで正規の運用作業が「Usage Policy違反」になる理由 ── リアルタイム・サイバーセーフガードの誤検知と対処法

こんにちは！今日は、Claude Code を使っていると突然出てくる「Usage Policy違反」エラーいわゆるリアルタイム・サイバーセーフガードの誤検知（false positive）について、その傾向と対処法を詳しく解説します！自社サーバへのデプロイ作業中や、ごく普通のインフラ運用の最中に、こんなメッセージが出て手が止まった経験はありませんか？ API Error: Claude Code is unable to respond to this request, which appears to violate our Usage Policy. This request triggered cyber-related safeguards. やっていたのは、自分のサーバーへの SSH デプロイと、自社リポジトリへのコミット指示だけ。攻撃的な操作は何ひとつ含まれていないはずなのに、ブロックされてしまう… そんな状況に心当たりのある方は、

GPU

NCCL error: unhandled cuda error が出たら ─ WSL2 + マルチGPU + vLLM で詰まった話

こんにちは! Qualitegプロダクト開発部です！今日は、Windows + WSL2 のマシンに RTX 4090 を2枚挿して、大規模なオープンモデルを vLLM で動かそうとしたら、NCCL の初期化で見事に詰まった話を書きます。世の中に断片的にしか情報がなく、抜けるまでにかなり粘ったので、同じ構成で消耗している方の時間を少しでも節約できれば嬉しいです。経緯今回の目的は、次々と登場する最新のオープンモデル（オープンウェイトのLLM）を、手元で評価することでした。オープンモデルは数週間単位で新しいものが出てきます。ベンチマークの数字だけでなく、自分たちのユースケースに対して実際にどう振る舞うのか——出力の質、速度、量子化したときの劣化具合、エージェント的なタスクの得手不得手——を、手を動かして確かめています今回の環境は Windows + WSL2(Ubuntu) に RTX 4090 を2枚(各24GB)挿したマシンです。 nvidia-smi 上の CUDA Version は 12.8。動かすのは大規模オープンモデルを

ClaudeCode

Claude Codeで「The model's tool call could not be parsed」が頻発する問題の原因分析と対策

こんにちは！Qualitegプロダクト開発部です。 Claude Code（CLI）を使った開発中に、次のようなエラーが繰り返し表示されて作業が止まる現象に遭遇しました。 ● The model's tool call could not be parsed (retry also failed). リトライしても直らず、/clear で会話をリセットしても、しばらく作業を続けるとまた同じエラーが出るという状況です。本記事では、実際のセッションログ（jsonl）を解析して特定した原因と、その対策について共有します。結論から書くと、これは利用者側の設定ミスやコンテキスト枯渇が原因ではなく、 Opus 4.7（1Mコンテキスト）+ extended thinking の組み合わせで発生する、モデル応答側のストリーミングバグでした。現象エラーが発生した環境は以下のとおりです。 * Claude Code 2.1.148 * モデル: Opus 4.

LLM

主要LLMプロバイダーのAPI料金表 — Claude / GPT / Gemini/Grok 【2026年5月13日時点】

こんにちは、今回は、主要LLMプロバイダー( Claude / GPT /Gemini/Grok)のAPI料金表　をまとめてみました。（2026年5月13日時点）プロバイダ別料金一覧まずは各社の現行ラインナップを縦に並べた一覧をご紹介します。価格はすべて per 1M tokens、円表記は 1ドル=160円換算です。 Anthropic(Claude) モデル Status Context Input Output Cached Input Claude Opus 4.7 Fast Mode Beta(Opus専用) 1M $30.00<br>(¥4,800) $150.00<br>

Windows版 Claude Code を irm でインストールして「claude is not recognized」を直すまで

こんにちは！公式PowerShellインストーラー(irm https://claude.ai/install.ps1 | iex)で Claude Code を入れたのに、claude --version を叩くと「The term 'claude' is not recognized as a name of a cmdlet...」と怒られるときがありますこれは Anthropic 公式 GitHub にも報告されている既知のバグで、インストーラーが PATH の追加を忘れています。実際にインストール作業をやって詰まったので、最短の解決手順をまとめます。環境 * Windows 11 * PowerShell 7.x(コードは PowerShell

LLM

Claude Opus 4.7 完全ガイド — 公式情報で読み解くモデル仕様とClaude Codeでの実践ノウハウ

こんにちは！ Qualitegプロダクト開発部です！ 2026年4月に、AnthropicからClaude Opus 4.7がリリースされました。今回のアップデートは、単にベンチマークが上がったという話ではありません。命令の解釈の仕方、応答長、ツール呼び出しの頻度、subagentの起動方針まで、モデルの振る舞いそのものが変わっています。それに伴い、4.6までに作り込んだプロンプトや設定の一部は、外したり再評価したりする必要があります。本記事では、そうした移行時の落とし穴と、4.7時代に合わせた運用作法を、できるだけ実践的にまとめました。この記事では、まずOpus 4.7で何が変わったのかを確認し、そのうえでClaude Code CLI版とClaude Code Web版でどう使いこなすべきかを見ていきます。 (通常のclaude.aiチャットUIは対象外です。) なお、けっこう長めの記事になっているので、頭から通読していただく必要はありません。下の目次から、気になるところや今すぐ困っているところだけ拾い読みしていただいて大丈夫です。たとえば「とりあえず4.

GPUマシン自作

2026年 NVIDIA GPU 一発検索ツール(2026/4/20更新)

NVIDIA GPU 一覧検索シリーズすべて SM_120 (Blackwell) SM_103 (Blackwell Ultra) SM_100 (Blackwell) SM_90 (Hopper) SM_89 (Ada Lovelace) SM_86/SM_87 (Ampere) SM_75 (Turing) SM_70/SM_72 (Volta) SM_60/SM_61/SM_62 (Pascal) SM_50/SM_52/SM_53 (Maxwell) SM_

日々の開発Tips

PyCharmで npm start 実行時にIDEがサイレントクラッシュした事例と切り分け

こんにちは！Qualitegプロダクト開発部です！ PyCharmの内蔵npmツールで npm start を実行した瞬間、何のエラーメッセージもなくIDEが消える。再起動してもう一度試すとまた落ちる。ログを見ても手がかりがない——。今回はこの「サイレントクラッシュ」に遭遇し、原因の絞り込みから回避策の確立まで至った過程を書き残しておきます。同じ現象で困っている方の参考になれば幸いです。環境項目内容 OS Windows 10/11 PyCharm 2026.1（2023.1.6時代から連綿とUpdateをした状態） Python 3.11.4（venv使用） Node.js v25.2.1 プロジェクト Python + Node.js 混合構成上記のとおり、PyCharmは執筆時点の最新版(2026.1)となります。確認できたこと・推測していることまず最初に、

LLM

日本語対応 LLMランキング2026　～ベンチマーク分析レポート～（3月6日版）

はじめに本レポートは、Nejumi Leaderboard 4のベンチマークデータ（2026/3/6版）に基づいて、日本語対応LLMの性能を総合的に分析したものです。前回は 2025/12/18 版の分析レポートを公開しましたが、約3か月でまたもや大きな変動がありました！（定期的に最新LLMランキングを更新してまいります。当社のX(旧Twitter)をフォローいただくことで更新情報を受け取り可能です） Nejumi Leaderboard 4は、日本語タスクにおけるLLMの性能を多角的に評価する信頼性の高いベンチマークとして知られています。本分析では、商用APIモデルとオープンモデルの両方を対象に、それぞれの特徴や傾向を詳しく見ていきます。オープンソースモデルについて Weightがオープンなモデルは場合によっては「オープンソースモデル」、「OSSモデル」と呼ばれますが、モデルによっては「オープンソース」と呼ぶには不十分な場合があるため本稿では、「オープンソースモデル」ではなく「オープンモデル」と表現しています。ベンチマーク分析について本レポートは

Qualiteg プロダクト開発部

日本語対応 LLMランキング2026 ～ベンチマーク分析レポート～（7月10日版）

Claude Fable5 完全ガイド — 公式ドキュメントから読み解くモデル仕様とClaude Code運用ポイント

AI時代のデータ漏洩防止の要諦とテクノロジー：第2回 従来型DLPを超えて、AI-DLPが解決すべき本質的課題

Claude Codeで出てくる「court」って何？ “XML露出” 現象とツール呼び出し未実行事故の対策

Claude Opus 4.8 完全ガイド — 公式ドキュメントから読み解くモデル仕様とClaude Code運用ポイント

AI は、来なかった攻撃を「検知」し、「拒否」し、「反省」した～Fable5 on Claude Codeでの経験

ついに一般公開、Claude Mythos5(ミュトス)/ Fable 5(フェイブル) を実務視点で読み解く

Claude Codeで正規の運用作業が「Usage Policy違反」になる理由 ── リアルタイム・サイバーセーフガードの誤検知と対処法

NCCL error: unhandled cuda error が出たら ─ WSL2 + マルチGPU + vLLM で詰まった話

Claude Codeで「The model's tool call could not be parsed」が頻発する問題の原因分析と対策

主要LLMプロバイダーのAPI料金表 — Claude / GPT / Gemini/Grok 【2026年5月13日時点】

Windows版 Claude Code を irm でインストールして「claude is not recognized」を直すまで

Claude Opus 4.7 完全ガイド — 公式情報で読み解くモデル仕様とClaude Codeでの実践ノウハウ

2026年 NVIDIA GPU 一発検索ツール(2026/4/20更新)

PyCharmで npm start 実行時にIDEがサイレントクラッシュした事例と切り分け

日本語対応 LLMランキング2026 ～ベンチマーク分析レポート～（3月6日版）

日本語対応 LLMランキング2026　～ベンチマーク分析レポート～（7月10日版）

AI時代のデータ漏洩防止の要諦とテクノロジー：第2回従来型DLPを超えて、AI-DLPが解決すべき本質的課題

日本語対応 LLMランキング2026　～ベンチマーク分析レポート～（3月6日版）