Claude Codeで正規の運用作業が「Usage Policy違反」になる理由 ── リアルタイム・サイバーセーフガードの誤検知と対処法

Claude Codeで正規の運用作業が「Usage Policy違反」になる理由 ── リアルタイム・サイバーセーフガードの誤検知と対処法

こんにちは!

今日は、Claude Code を使っていると突然出てくる「Usage Policy違反」エラー

いわゆる

リアルタイム・サイバーセーフガード誤検知(false positive)

について、その傾向と対処法を詳しく解説します!

自社サーバへのデプロイ作業中や、ごく普通のインフラ運用の最中に、こんなメッセージが出て手が止まった経験はありませんか?

API Error: Claude Code is unable to respond to this request, which appears to violate our Usage Policy. This request triggered cyber-related safeguards.

やっていたのは、自分のサーバー への SSH デプロイと、自社リポジトリへのコミット指示だけ。

攻撃的な操作は何ひとつ含まれていないはずなのに、ブロックされてしまう…

そんな状況に心当たりのある方は、ぜひ最後まで読んでみてください。「なぜ起きるのか」と「どう付き合えばいいのか」を、公開情報をもとに整理※しました。

※ 本記事は2026年6月時点の公開情報にもとづいています。セーフガードの仕様や CVP の運用、対応モデルは継続的に更新されているため、最新の挙動は必ず公式ヘルプで確認しましょう。また、内部実装の詳細は公開されておらず、本文中の挙動に関する記述はあくまで利用者側から観察できる範囲の説明です。

先に結論

お急ぎの方のために、対処法を先にまとめておきます。詳しくは後半で解説しますが、やるべきことは大きく3つです。

  1. まずはプロンプトを短く分け、セキュリティ用語を1通に密集させない。
    →その場をしのぐ即効策です。
  2. セキュリティ実務やインフラ運用で日常的に使うなら、CVP(Cyber Verification Program)に申請する。
    →恒久的な緩和策です。
  3. 承認後も弾かれる場合は、
    組織 ID・利用経路・用途カテゴリを確認し、必要に応じて異議申し立て(appeal)する。

この記事を読み終える頃には、
「弾かれても慌てない」状態になっているはずです。
それでは詳しく見ていきましょう!

そもそも、これは何なのか

2026年4月16日に一般提供された Claude Opus 4.7 から、
Anthropic は最上位モデルに「リアルタイム・サイバーセーフガード」と呼ばれる仕組みを導入しました。

Usage Policy に照らして、
サイバー攻撃に悪用されうるリクエストをその場で自動的に検出してブロックする防御層です。

Anthropic はこのリリースで、「prohibited or high-risk cybersecurity uses」を自動検出・ブロックするセーフガードを搭載したと説明しており、Opus 4.7 はこの仕組みを搭載して一般提供された最初の Claude モデルでした。

ここで重要なのは、この仕組みは過去の一時的な話ではないという点です。

2026年5月28日に発表された最新の Claude Opus 4.8 へ移行する際にも、cyber safeguards は引き続き考慮すべき挙動として残っています

Opus 4.8 は 4.7 を土台にしたアップグレードであり、Anthropic の移行ガイドでも、ブロック時の stop_details の扱いや、移行にあたってサイバーセーフガードを再確認すべき旨が案内されています。

Anthropic 自身、さらに上位の Mythos クラスのモデルについて

「この能力水準のモデルには一般提供の前により強力なサイバーセーフガードが必要だ」

と述べており、防御層はむしろ積み増される方向にあります。

つまり、「4.8 に上げれば誤検知が消える」という話ではありません。

この挙動は当面つきあっていく前提のものだと考えておくのが現実的です。

ブロックされる2つのカテゴリ

Anthropic は、このセーフガードがブロックする対象を大きく2つに分類しています。

  • Prohibited use(禁止用途)
    大規模なデータ持ち出し(mass data exfiltration)やランサムウェアのコード開発など、防御目的の正当な用途がほとんど存在しない活動です。これは原則として常にブロックされ、後述の CVP でも調整対象になりません。
  • High-Risk Dual use(高リスクの両用途)
    脆弱性のエクスプロイトや攻撃用ツールの開発など、攻撃にも防御にも使える活動です。デフォルトでブロックされますが、正当な防御目的であれば申請によって緩和できます。

問題の根っこは、外部から見える挙動として、文面上のシグナルに強く反応しているように見える点にあります。
内部実装の詳細は公開されていないため、語句ベースなのか分類器ベースなのか、コンテキストをどこまで考慮しているのかは断定できません。
ただ少なくとも利用者側からは、
攻撃と防御で語彙が重なる領域ほど、意図に反してブロックされやすく見える
のが実情です。
普通のインフラ運用やセキュリティ実務が、巻き添えで誤検知されてしまうわけです。

実際、GitHub issue 上では、バグバウンティの正規プログラム内での防御研究すら弾かれた事例が報告されています。あるケースでは、モデル自身が「これは認可された研究であり、防御目的の成果物だ」と判断して作業を続けようとしたのに、次のターンで API レベルのフィルタにブロックされたそうです。

モデルの判断が後段のフィルタに上書きされうる、という構造がよく分かる例です。

傾向:どんなときに誤検知が起きやすいのか

GitHub の Claude Code リポジトリに積み上がった報告や、報道された事例を追っていくと、誤検知にはいくつか共通する「型」が見えてきます。

順番に見ていきましょう。

1. セキュリティ関連語の「密度」が高いとき

利用者から見ていちばんよくある引き金が、これです。SSH・reverse proxy・Basic認証・認証情報・ファイアウォール設定のような語は、それぞれ単体ならごく普通の運用用語にすぎません。ところが、1つのメッセージにこれらが高密度で固まると、外形的に攻撃手順の説明と似たまとまりになり、ブロックされやすくなるように見えます。

特にありがちなのが、作業のサマリや「別セッションへの引き継ぎメモ」を作るケースです。運用構成をまるごと1通に凝縮すると、本来なら何ターンにも分散していたはずのセンシティブ語が、一気に密集してしまいます。

その結果、実際の作業そのものより、その作業を要約した文章のほうが弾かれやすいという、本末転倒な状況すら起こり得ます。

「ちゃんと動いていたデプロイ作業の最後に、引き継ぎメモを書こうとしたら弾かれた」
これはまさにこのパターンです。やっていることは何も危険ではないのに、文章上のシグナルの密度だけが原因で引っかかるわけです。

2. 専門領域がたまたま「両用途」と重なるとき

報道では、攻撃とはまったく無関係な作業まで巻き込まれた事例が複数紹介されています。たとえば The Register の記事(2026年4月)では、次のようなケースが取り上げられています。

  • 計算構造生物学(computational structural biology)の標準的なタスクが違反と判定された。しかも Opus 4.6 では通っていたのに、4.7 で弾かれるようになったという「退行」付きでした。
  • 大学のサイバーセキュリティ研究室のディレクターが、自分の教科書に関連するラボの内容を読ませようとして拒否された。「月200ドル以上払っているのに、基本的な編集作業すら拒否されるのはおかしい。
    これではセキュリティ教育者や研究者が使えない」と不満を述べています。
  • ロシア語のプロンプトが連続して弾かれた。GitHub issue 上では、4セッションで40回以上もの誤検知が、心理学の本・Webアプリ・インフラ・ボットといった無関係なプロジェクト横断で発生した、という報告もあります。
  • おもちゃ(Hasbro の Shrek 玩具)の広告 PDF が、PDF 内部の構文文字列のせいでエラーになった、という珍しい例も報じられています。

同記事は、2026年4月に AUP 関連の false positive 報告が30件超に増えたとも伝えています。教育者や研究者、セキュリティ実務者など、

職業上どうしてもセンシティブな語彙を扱う人ほど食らいやすい

という、構造的な偏りがうかがえます。

3. アカウントや利用経路によって挙動が変わるとき

直前のプロンプト文面だけでは説明しきれないケースもあります。

GitHub issue 上では、同じアカウントでも Claude.ai では使えるのに Claude Code では弾かれる正しいサブスクリプションで再認証しても改善しない、といった報告が見られます。

必ずしも直前の入力内容だけで説明できるとは限らないため、弾かれたときは、組織 ID・利用経路(Claude.ai か Claude Code か、API か)・モデル・クライアントの違いもあわせて確認しておくとよいでしょう。

対処法:弾かれたとき、そして弾かれないために

ここからが本題です。
誤検知は「あなたが悪いことをした」という意味では決してありません。落ち着いて、次の順番で対処すれば大丈夫です。

対処法1:まず書き方を変える(即効性あり)

後述する CVP の申請には数日かかります。目の前の作業をいますぐ進めたいなら、プロンプトの「密度」を下げるのが一番速い対処法です。具体的にはこうします。

  • センシティブ語を1通に凝縮しない。
    作業を実際のステップに分けて、語が自然に分散するようにする。
  • 引き継ぎメモや要約を書くときは、攻撃手順の羅列に見えないよう、中立的で目的が明確な書き方にする。
  • たとえば「reverse proxy・Basic認証・認証情報を設定して…」と並べる代わりに、「git status で2ファイルを確認 → add → commit → push」のように、操作の本質だけを書く。構成の詳細はリポジトリ内のドキュメントに置いておき、必要なら相手側のセッションで直接読ませる。
  • いったん「 Claude Code is unable to respond to this request, which appears to violate our Usage Policy. 」が出てしまったセッションはそこで終了して、新しいセッションを開始して、「 Claude Code is unable to respond to this request, which appears to violate our Usage Policy. 」がでる直前の あぶなそうな語の密集度 をさげて、対応する、などヒューリスティックな対応で通過できる場合があります。

対処法2:Cyber Verification Program(CVP)に申請する(恒久対策)

セキュリティ実務やインフラ運用で日常的に弾かれるなら、CVP への申請を検討しましょう。
これは正当な防御目的の利用者向けに用意された、無料の申請ベースのプログラムです。両用途タスクのブロックを緩和し、業務の中断を最小限にすることを目的としています。

申請のポイントを整理します。

  • アクセス経路によって申請窓口が異なります。 Claude.ai・Claude Code・Anthropic API などの一次利用なら、Settings > Account または Settings > Organization で Organization ID を確認し、Cyber Use Case Form に記入します。
  • 申請は 組織の管理者(admin)が行う必要があります。
  • レビュー結果は、申請後2営業日以内を目安にメールで通知されます。
  • サードパーティ製のコーディングツールなど、外部プラットフォーム経由で Claude を使っている場合は、そのプラットフォーム側に CVP 対応の有無を確認する必要がありそうです

ひとつ注意したいのは、CVP の承認はあくまで「両用途」活動のブロックを外すためのもので、そもそも禁止用途(ランサムウェア開発や大規模データ持ち出しなど)は当然ブロックされたままになるでしょう。

対処法3:承認後も弾かれるなら、ここを確認する

「CVP に通ったのに、まだ弾かれる」── こうした報告も少なくありません。その場合は、次の2点を順に確認してください。

  • 正しい組織にサインインしているか。 CVP の承認は、特定の Organization ID に紐づいています。個人ワークスペースなど、承認を受けた組織とは別の組織で作業していると、承認は効きません。承認メールに書かれている組織 ID と、いまブロックが出ている組織 ID を必ず突き合わせてください。
  • その活動は、本当に「両用途」か。 前述のとおり、禁止用途に該当する活動は、CVP の承認とは無関係にブロックされ続けます。

両方を確認してもなお解消しない場合は、Anthropic の report / appeal フォームから誤検知を報告できます。このフィードバックがセーフガードの精度改善に使われる、というのが公式の建て付けです。

まとめ:これは「設計上のトレードオフ」として理解しておく

リアルタイム・サイバーセーフガードは、モデルが強力になるほど悪用リスクも上がる、という前提のもとで導入された防御層です。

安全性を上げれば、その代償として誤検知が増える

これは構造的なトレードオフであり、だからこそ GitHub 上には利用者からの報告が積み上がっています。

そして繰り返しになりますが、この仕組みは Opus 4.7 で始まり、最新の Opus 4.8 への移行時にも考慮事項として残っています。今後さらに強化されていく見込みです。(誤検知が減ることをいのりたい)

正規の運用作業がブロックされたとしても、それは必ずしも利用者側の問題を意味しないので、重要なのは、セーフガードの性質を理解し、プロンプトの書き方・CVP 申請・異議申し立てという複数の選択肢をおぼえておくとよさそうです。

Claude Code を実務で使うなら、モデルの性能だけでなく、こうした安全機構との付き合い方も運用設計の一部として考えておく必要がでてきました。

仕組みを理解していれば、弾かれても慌てず、回避・申請・報告のいずれかで前に進めそうです。

それでは、また次回お会いしましょう!


参考リンク

  • Anthropic 公式「Introducing Claude Opus 4.7」: https://www.anthropic.com/news/claude-opus-4-7
  • Anthropic 公式「Introducing Claude Opus 4.8」: https://www.anthropic.com/news/claude-opus-4-8
  • Anthropic 公式ヘルプ「Real-time cyber safeguards on Claude」: https://support.claude.com/en/articles/14604842-real-time-cyber-safeguards-on-claude
  • Cyber Use Case Form(CVP 申請): https://claude.com/form/cyber-use-case
  • 誤検知の報告 / 異議申し立てフォーム: https://claude.com/form/cyber-block-false-positive-report-cvp-rejection-appeal
  • Anthropic Usage Policy: https://www.anthropic.com/aup
  • The Register「Claude Opus 4.7 has turned into an overzealous query cop」(2026年4月): https://www.theregister.com/software/2026/04/23/claude-opus-47-has-turned-into-an-overzealous-query-cop/
  • Claude Code GitHub Issues(誤検知の報告例多数): https://github.com/anthropics/claude-code/issues

Read more

個人情報検出の精度を、どう正しく語るか ― Recall、信頼区間、代表性から考える評価設計

個人情報検出の精度を、どう正しく語るか ― Recall、信頼区間、代表性から考える評価設計

こんにちは。Qualiteg研究部です。 私たちは、個人情報(PII)や機密情報、要配慮個人情報を含むセンシティブな情報を検出・マスキングする技術(https://pii-fi.com)の開発に取り組んでいます。 その中で日々向き合っているのが、 「精度の数字を、どうすれば正直に、正しく語れるのか」 という問題です。 たとえば、検出器の Recall(再現率)が 0.95 だったとします。 これは高い数字に見えます。しかし、その数字はどの種類の文書で測ったものなのか。正解データはどう作ったのか。サンプル数は十分なのか。別の業務文書にも同じ数字を当てはめてよいのか。 精度の数字は、単独ではほとんど意味を持ちません。 「何を、どの条件で、どう数えたか」とセットになって、はじめて実務で使える数字になります。 本記事では、私たちが PII 検出の精度評価に取り組む中で得た、精度を誠実に語るための考え方を紹介します。アルゴリズムの中身ではなく、評価のしかたに焦点を当てます。 1. はじめに:「Recall 0.95

By Qualiteg 研究部
一文の依頼で、調査から資料作成まで。AIエージェント「Bestllam」のデモ動画を公開しました

一文の依頼で、調査から資料作成まで。AIエージェント「Bestllam」のデモ動画を公開しました

こんにちは! 本日は当社の統合AIプラットフォーム "Bestllam®" の AIエージェント機能のデモをご紹介いたします! 「指示は出せても、AIが本当に仕事を仕上げてくれるのか」 生成AIを業務に取り入れる企業が増えています。 しかし現場からは、こんな本音も聞こえてきます。 「使い方を覚えるより、自分でやったほうが早い」 「指示を細かく出し直しているうちに、結局時間がかかる」 「便利なのは分かるが、機密情報を入力していいのか不安」 AIを"個人の便利ツール"の域から、"部門の成果"へと引き上げる。 これが当社の法人向け統合AIプラットフォーム Bestllam(ベストラム) が掲げるテーマです。 今回、そのAIエージェント機能を実際の操作画面とともに紹介する動画を公開しました。 たった一文の依頼が、7枚のレポートになるまで 動画のデモはシンプルです。エージェントに、こう入力します。 「先月の売上を年代別に分析し、資料にまとめてください」 これだけです。すると、エージェントはまず自分でTODOリストを組み立て、何をどの順番で進めるかという段取りを示します

By Qualiteg ビジネス開発本部 | マーケティング部
NCCL error: unhandled cuda error が出たら ─ WSL2 + マルチGPU + vLLM で詰まった話

NCCL error: unhandled cuda error が出たら ─ WSL2 + マルチGPU + vLLM で詰まった話

こんにちは! Qualitegプロダクト開発部です! 今日は、Windows + WSL2 のマシンに RTX 4090 を2枚挿して、大規模なオープンモデルを vLLM で動かそうとしたら、NCCL の初期化で見事に詰まった話を書きます。 世の中に断片的にしか情報がなく、抜けるまでにかなり粘ったので、同じ構成で消耗している方の時間を少しでも節約できれば嬉しいです。 経緯 今回の目的は、次々と登場する最新のオープンモデル(オープンウェイトのLLM)を、手元で評価することでした。 オープンモデルは数週間単位で新しいものが出てきます。ベンチマークの数字だけでなく、自分たちのユースケースに対して実際にどう振る舞うのか——出力の質、速度、量子化したときの劣化具合、エージェント的なタスクの得手不得手——を、手を動かして確かめています 今回の環境は Windows + WSL2(Ubuntu) に RTX 4090 を2枚(各24GB)挿したマシンです。 nvidia-smi 上の CUDA Version は 12.8。 動かすのは大規模オープンモデルを

By Qualiteg プロダクト開発部
Claude Codeで「The model's tool call could not be parsed」が頻発する問題の原因分析と対策

Claude Codeで「The model's tool call could not be parsed」が頻発する問題の原因分析と対策

こんにちは!Qualitegプロダクト開発部です。 Claude Code(CLI)を使った開発中に、次のようなエラーが繰り返し表示されて作業が止まる現象に遭遇しました。 ● The model's tool call could not be parsed (retry also failed). リトライしても直らず、/clear で会話をリセットしても、しばらく作業を続けるとまた同じエラーが出るという状況です。本記事では、実際のセッションログ(jsonl)を解析して特定した原因と、その対策について共有します。 結論から書くと、これは利用者側の設定ミスやコンテキスト枯渇が原因ではなく、 Opus 4.7(1Mコンテキスト)+ extended thinking の組み合わせで発生する、モデル応答側のストリーミングバグ でした。 現象 エラーが発生した環境は以下のとおりです。 * Claude Code 2.1.148 * モデル: Opus 4.

By Qualiteg プロダクト開発部