Mythos(ミュトス)レベルのオープンモデルはいつ出るのか

Mythos(ミュトス)レベルのオープンモデルはいつ出るのか

こんにちは!

本日は、ここ最近のAI業界で一番ざわついている話題、「Claude Mythos(ミュトス)」とその周辺について書きます。

発表から1ヶ月半が経って、ホワイトハウスの反対、日本のメガバンクの動き、AISIの追加評価、Anthropicの方針転換と、状況がかなり動いてきました。ここで一度、「で、結局オープンソースで同じものが使えるようになるのはいつなの?」という素朴な問いに、数字で答えてみます。


2026年4月7日、AnthropicはClaude Mythos Previewを発表しました。

サイバーセキュリティ能力で人類トップ層に到達したとされる、フロンティアモデルです。

Anthropicは"gated research preview"として、Project Glasswingのローンチパートナー(AWS、Apple、Cisco、CrowdStrike、Google、JPMorganChase、Microsoft、NVIDIAなど)に加え、重要ソフトウェアインフラを担う40超の追加組織に限定して提供しており、一般公開はしていません(Anthropic公式)。

この発表以降、業界では「Mythosは本当にそんなに強いのか」「いつオープンソースで同等品が出るのか」という二つの問いが繰り返されています。前者には公的な評価機関が答えを出しつつあります。後者は、ベンチマーク数値を追えば想像以上に近い未来が見えてきます。

本稿では一次情報をもとに、この問いに数字で答えます。結論を先に書きますと、

  • CyberGymベンチマークのスコアでMythosに肩を並べるオープンモデルは2027年前半の登場
    (CyberGymは実在ソフトウェアの既知バグを"問題集"として与えたとき、どれだけ再現発見できるかを測るベンチマーク):
  • AISIの実環境ベンチで肩を並べるオープンモデルは 2027年後半から2028年前半に登場
    (AISIは英国政府のAI評価機関で、32ステップの企業ネットワーク攻撃シミュレーションを最初から最後まで完遂できるかを測る対抗的テストを実施):

というのが現時点で最も筋の通った予想です。

前者は「決まった問題集での点数」、
後者は「実戦に近い対抗環境での突破力」と理解してください。

両者には大きな質的ギャップがあり、後者の方がはるかに難しい指標です。ただし、これは2026年5月時点の評価データに基づくシナリオであり、後述の通り、AISIの最新観測(タスク時間軸が4.7ヶ月で倍増)が継続すれば、この予測自体が前倒しになる可能性も十分あります。

Mythosとは何だったのか

まず数字を押さえます。AnthropicがProject Glasswing発表と同時に公開したベンチマーク結果は次の通りです(Opus 4.6との比較、Anthropic公式ページより)。

ベンチマーク Mythos Preview Opus 4.6
CyberGym (脆弱性再現) 83.1% 66.6%
SWE-bench Verified 93.9% 80.8%
SWE-bench Pro 77.8% 53.4%
Terminal-Bench 2.0 82.0% 65.4%
GPQA Diamond 94.6% 91.3%
Humanity's Last Exam (with tools) 64.7% 53.1%

数字だけ見ても範囲が広いのですが、突出しているのはサイバーセキュリティとエージェント型コーディングです。

AnthropicのFrontier Red Teamブログによりますと、MythosはOpenBSDで27年間誰も気づかなかった脆弱性を発見し、FFmpegでは長年fuzzingや人手のレビューを受けてきたにもかかわらず見逃されていた、H.264関連の16年前から存在する脆弱性を発見したとのことです。

Linuxカーネルでは複数の脆弱性を自律的にチェイニングして特権昇格まで実行しています。

ここで重要なのは、これらの主張がAnthropic自身の発表だけでなく、第三者機関に検証されている点です。英国のAI Security Institute(AISI)は政府系の評価機関で、フロンティアモデルの能力評価で国際的なde factoスタンダードになりつつあります。AISIは4月のMythos Preview評価で、次の結果を出しました。

  • Expert級CTFタスク: 68.6%
  • 32ステップの企業ネットワーク攻撃シミュレーション
    The Last Ones」(人間専門家で約20時間相当)を10回中3回完遂

「The Last Ones」を完遂したモデルは、評価開始以来Mythosが初でした。

そして、ここが本稿で書きたかった重要な追加情報です。
AISIは5月13日に新しいレポートを公開し、より新しいMythos Previewチェックポイントの評価結果を発表しました。

  • The Last Ones: 10回中6回完遂(従来の3回から倍増)
  • もう一つの実環境ベンチ「Cooling Tower」: 10回中3回完遂(これまでどのモデルも解けていなかった)

つまり、わずか1ヶ月でMythosの実環境攻撃チェイン能力は大きく伸びています。

AISIは同レポートで「サイバータスクの時間軸(モデルが自律完遂できるタスク長)が4.7ヶ月で倍増している」「これは2025年11月時点の8ヶ月という推定から加速している」と報告しています。Mythos PreviewとGPT-5.5は、この既存トレンドからもさらに上振れしました。

実はMythos の一人勝ちではなかった

ここからが、ブログのタイトルに直結する話になります。

AISIは5月、OpenAIのGPT-5.5を同じ評価フレームワークでテストしました(AISI GPT-5.5評価)。結果は次の通りです。

評価項目 Mythos Preview(初期) Mythos Preview(新check) GPT-5.5
Expert級CTFタスク 68.6% (±8.7%) - 71.4% (±8.0%)
The Last Ones完遂 3/10 6/10 3/10
Cooling Tower完遂 0/10 3/10 未達

AISIの評価では、OpenAIのGPT-5.5系の早期チェックポイントも、Mythos Previewに近い水準のサイバー能力を示しました。

AISI自身が明確にコメントしているように、

これは一社の突出ではなく、フロンティアモデル全体の能力が上がっていることを示唆する

結果ではないでしょうか

ただし、ここで誤解してはいけない点があります。AISIが評価したのはGPT-5.5の早期チェックポイントであり、AISI自身も「公開デプロイには追加の safeguards、monitoring、access controls があるため、評価結果が通常ユーザーに利用可能な能力をそのまま示すとは限らない」と明記しています。一般ユーザーが今日ChatGPT経由で同じ能力にアクセスできるという話ではありません。

さらに痛烈な一例として、AISIが提示したリバースエンジニアリング課題があります。Rustで書かれた独自仮想マシンとそのバイトコードを解析する課題で、人間専門家で約12時間とされるものです。GPT-5.5はこれを10分22秒、API利用料$1.73で解きました。アクセス制御を考慮しても、フロンティアモデルが特定タスクで人間専門家の数百倍の効率を出せる時代に入っているのは事実です。

「閉じ込め」の現実 — 政治と運用

技術的な話を続ける前に、Mythosの周辺で起きている政治的・運用的な動きを押さえておく必要があります。「閉じ込めて配る」という戦略の運用は、想像以上に難しい段階に入っています。

ホワイトハウスの反対 Wall Street Journalが2026年4月末に報じ、Bloombergも確認した内容によりますと、Anthropicは当初の約50組織から、さらに約70組織を追加してMythosのアクセス権を拡大する計画を持っていました。これに対しトランプ政権が反対を表明しています。理由は二つあると報じられています。一つは「悪用される懸念」、もう一つは「Anthropicに70組織を追加サポートできるだけの計算リソースがなく、米政府(NSAを含む)の利用が阻害される懸念」です。後者はAnthropic側が否定しています。

早期の不正アクセス報道 4月21日、Bloombergが「私的なDiscordフォーラムに集まる未認可のユーザーが、発表初日にMythos Previewへのアクセスを得ていた」と報じました。Anthropic公式も「第三者ベンダー環境を通じた不正アクセスの報告を調査中」とコメントしています。これはモデル重みやシステム本体が流出したと断定できる内容ではありませんが、強力なAIモデルを限定提供する運用の難しさを示す事例といえます。Fortuneによりますと、約40組織に提供された時点で「アクセス可能な人数は数千人」になっており、業界専門家からは「漏れるのは時間の問題だった」とのコメントが出ています。

日本の動き

日本の動き 日本経済新聞が5月13日に報じ、ITmedia、Yahoo!ニュース、SBクリエイティブ「ビジネス+IT」、Ledge.aiなど専門メディアも追随した内容によりますと、三菱UFJ銀行・三井住友銀行・みずほ銀行の3メガバンクが、最短5月中にMythosのアクセス権を取得する見通しです。

日本企業として初の実業務導入になります。5月12日に来日したベッセント米財務長官と日本の金融機関幹部の会談で、アクセス権が主要議題となりました。同日、高市早苗首相も閣僚懇談会でサイバー攻撃対策の検討を指示し、片山さつき財務相が官民合同タスクフォースの設置を発表しています。5月14日には金融庁主催の作業部会が開催され、メガバンク3社、日本銀行、AI Safety Institute、Anthropic・OpenAI・Googleの日本法人が参加したと報じられています。

5月18日の方針変更 そして直近のニュースとして、Reutersが5月18日に報じた内容ですが、AnthropicはProject Glasswing参加者に対し、Mythosで発見した脆弱性情報をプログラム外の組織(他社セキュリティチーム、業界団体、規制当局、政府機関、オープンソースメンテナ、メディア、一般)とも共有することを認める方針に転換しました。Anthropic広報の説明では「プログラムが成熟したため、防御効果を最大化すべく情報の広い共有を可能にした」とのことです。

この四つを並べると、Mythosは単にAnthropicが一社で配布を管理する技術というより、すでに金融・政府・重要インフラを巻き込む地政学的なリソースになりつつあることが分かります。限定提供という方針は維持されていますが、その運用は当初のクローズドな枠組みから、徐々に開かれた情報共有モデルへと移行し始めています。

オープンモデルはどこまで来ているか

ここで本題です。Z.aiが4月7日に発表したGLM-5.1を見てください(Z.ai公式ドキュメントHugging Faceリポジトリ)。

これは約750B級・MoE(Mixture of Experts)アーキテクチャのオープンウェイトモデルで、MITライセンスで配布されています。重みがHugging Faceで公開されており、SGLang、vLLM、Transformersなどでローカルサーブできます。

GLM-5.1のベンチマーク結果(Z.ai公表値・公式モデルカードベース):

ベンチマーク GLM-5.1 (Open) Claude Opus 4.6 GPT-5.4 Mythos Preview
CyberGym 68.7% 66.6% 66.3% 83.1%
SWE-Bench Pro 58.4% (前リリース時点) (前リリース時点) 77.8%
Terminal-Bench 2.0 63.5% - - 82.0%
MCP-Atlas 71.8% 73.8% - -

なお、上記の数値は現時点では主にZ.ai公表値であり、独立機関による全面的な再現評価とは分けて読む必要があります。

注目すべきはCyberGymの数字です。オープンウェイトモデルがClaude Opus 4.6とGPT-5.4を超えています。Mythosとのギャップは14.4ポイントあります。一見大きく見えるかもしれませんが、CyberGymスコアの推移を追うと別の見え方になります。

前世代GLM-5のCyberGymは48.3でした。GLM-5.1は68.7。1リリースサイクルで20ポイント上昇しています。Z.aiのCEO Lou氏のコメントを引きますと、「エージェントは去年末で20ステップ程度しか連続実行できなかった。GLM-5.1は1,700ステップ動かせる。4ヶ月でこの差だ」とのことです。

もちろん、1リリースあたりの伸びがそのまま続く保証はありません。ただ、CyberGymに限って機械的に外挿しますと、GLM-5.1から次世代でMythosの83.1%に接近するシナリオは十分に考えられます。Z.aiの過去のリリース間隔(4〜6ヶ月)を踏まえれば、CyberGym数値上の接近を2026年末〜2027年前半のレンジで見るのが妥当だと考えます。

「中国系モデル=蒸留中心」はもう通用しない

ここで一つ、業界で根強く残っている誤解に触れておきたいと思います。

「DeepSeekやQwenはOpenAIやAnthropicの出力を蒸留しているだけだろう」

という見方です。

2024年頃なら部分的に正しかったのですが、2026年の今は的外れになっています。

理由は、

中国系ラボのオリジナル技術が、国際的な研究・実装コミュニティで参照対象になっている

からです。

Multi-head Latent Attention(MLA) はDeepSeek-V2で初めて提案された注意機構です(DeepSeek-V2論文)。KVキャッシュを低ランク潜在ベクトルに圧縮することで、メモリ使用量を93.3%削減しながらモデリング品質を維持します。これはGQAなど従来のKVキャッシュ削減手法より明確に優れていることが、独立研究者によって検証されています。米国の著名研究者Sebastian Raschka氏は自身のLLMアーキテクチャ解説で、MLAを「DeepSeek時代を定義するアイデア」と評価しています。

象徴的なのは、論文「Towards Economical Inference: Enabling DeepSeek's Multi-Head Latent Attention in Any Transformer-based LLMs」のタイトルです。これは復旦大学と上海AI Labの研究グループが、LlamaなどMHAベースの既存モデルにMLAを後付け移植する手法(MHA2MLA) を提案したものです。中国系ラボ発の設計が、既存の主流アーキテクチャ側を改修する対象として参照されている、ということになります。

DeepSeekMoE、補助損失なし負荷分散、Multi-Token Prediction、これらもDeepSeekオリジナルで、現在のオープンソースMoEモデル設計の標準ピースになっています。GLM-5.1の約750Bという規模感は、DeepSeekが切り開いたMoEレシピの上に立っています。

蒸留が完全に消えたわけではありません。小型派生モデル(DeepSeek-R1-Distill系など)には今も蒸留が使われています。ただフラッグシップ事前学習に関しては、独自の研究蓄積が国際的な参照ベースになっている領域があります。

このことが意味するのは、「Mythos相当のオープンモデル」を作るための技術的基盤が、中国系ラボ側にもかなり揃いつつあるということです。残る変数は、計算予算、データ、そしてサイバーセキュリティ特化の評価環境構築です。

二つの能力次元、二つの到達時期

「Mythosレベル」という言い方は、実は雑です。Mythosの能力は少なくとも二つの次元に分けて見るべきで、それぞれ到達時期が違います。

次元1: ベンチマーク数値水準(CyberGym/SWE-Bench Pro)

これは比較的早いです。CyberGym 83.1への到達は、現在のオープンソース最高峰GLM-5.1の伸び率を機械的に外挿すれば次世代モデルで届く範囲です。SWE-Bench Proでも、GLM-5.1がZ.aiの内部実装で58.4を出しており、Mythosの77.8まで19.4ポイント差です。2026年末〜2027年Q1には、オープンウェイトモデルがCyberGymでMythos相当に到達するシナリオは十分に成立すると見ています。

次元2: AISI実環境ベンチ水準(The Last Ones、Cooling Tower完遂)

これは大幅に難しい領域です。32ステップの企業ネットワーク攻撃を最初から最後までチェイニングするには、ベンチ最適化ではなく、長期エージェント能力、ツール使用、メモリ管理、状態追跡など複合スキルが必要になります。

しかも、5月時点のAISI最新評価でMythosの新チェックポイントはThe Last Onesを10回中6回まで安定させ、Cooling Tower(従来未達)も初突破しています。つまり、オープン側が追いつくべき「Mythos水準」自体が、わずか1ヶ月で大きく上振れしました。

GLM-5.1のドキュメントは「最大8時間、1,700ステップの自律実行」を謳っていますが、これは制御された環境下での話で、AISIのような対抗的環境とは違います。オープン側がここに到達するのは2027年後半〜2028年前半と見るのが妥当でしょう。ただし、AISIが観測する「4.7ヶ月で能力倍増」のペースが継続すれば、このタイムラインも前倒しになる可能性があります。

次元3: 実世界での運用能力

ここは別の話で、ベンチマーク完遂と実運用は違います。AISI自身がレポートで強調していますが、評価環境には「能動的防御者がいない、防御ツールが動いていない、警告に対する報復がない」という制約があります。実世界で防御側もAIを使ってくる環境でどう振る舞うかは、誰もまだ評価していません。AISIは「能動的防御を含む新しい評価環境を開発中」と公表しており、本物の試金石はこれから出てきます。

なぜ重みは公開されるのか、または公開されないのか

ここで気になる問題に触れる必要があります。GLM-5.1のような能力を持つモデルを、Z.aiは本当にオープンウェイトで出し続けるのでしょうか。

これには楽観と悲観の両面があります。

楽観論
Z.ai、DeepSeek、Qwenの3社は、いずれも基本的にオープンウェイト戦略を維持しています。これは商業戦略であると同時に、中国のAIエコシステム全体を西側プロプライエタリ独占から守るという国家戦略の側面もあります。サイバーセキュリティ特化能力が高まったからといって、戦略を急変させる強い理由は今のところありません。

悲観論
ただし、攻撃に転用可能な能力が一定の閾値を超えた時点で、中国政府の輸出管理対象に入る可能性はゼロではありません。米国がMythos級モデルを国家安全保障マターとして扱い始めている流れと、対称的な動きが起きうるからです。

もうひとつ、Anthropic自身の公式ロードマップを参考にすべきです。Anthropicは、Mythos Previewについては一般提供しない一方で、将来的にはMythos級モデルを安全に展開するためのsafeguard整備を進める、と説明しています。Z.aiなどのオープンウェイト陣営でも、サイバー特化能力が一定水準を超えた場合、通常モデルと限定提供モデルを分ける判断が起きる可能性はあります。つまり「GLM-5.2の通常モデルはオープン、GLM-5.2-Cyberは限定提供」という二段構えのシナリオです。

この場合、

「Mythosレベルのオープンモデル」は、能力的には到達しても、配布形態として一般公開されない

という結末もありえます。

これは技術的な不可能ではなく、政治的な不可能です。

冒頭の問いの答え

冒頭の問いに、今ある一次情報で出せる最も誠実な答えを書いてみます。

CyberGymベンチマーク数値ベースで「Mythos相当」のオープンウェイトモデル: 2026年Q4〜2027年Q1

最有力候補はZ.aiのGLM-5.2系、次点でDeepSeek V4/V5、Qwen3.6以降です。GLM-5系の伸び率(20ポイント/リリース)が半分の10ポイントに落ち込んでも、次リリースで78〜79に届きます。

AISI実環境ベンチ(TLO/Cooling Tower完遂)レベルで「Mythos相当」のオープンモデル: 2027年Q3〜2028年Q2

ここはオープン側にとって構造的に不利な領域です。評価環境の整備、対抗的シミュレーション、長期エージェント能力。一年程度のラグが入ります。ただし、AISIが観測している「4.7ヶ月で倍増」のペースが続く場合、このタイムラインはさらに圧縮される可能性があります。

ただし三つの留保がつく

第一に、能力到達と公開判断は別問題です。Z.aiやDeepSeekが「Mythos相当の能力に達したから限定配布に切り替える」判断をする可能性は十分あります。その場合、ベンチで同等のオープンモデルは「能力的に到達したが、公開されたバージョンには反映されない」という見え方になります。

第二に、Mythos自体が止まっているわけではありません。AISIの5月レポートが示した通り、Mythosは1ヶ月でTLO 3/10→6/10、Cooling Tower 0/10→3/10へと能力を伸ばしています。Anthropicは「次のOpus系で安全機構を成熟させ、Mythos相当の能力を一般展開する」というロードマップを示しています。Mythosが定義する「フロンティア水準」自体が、オープン側が追いついた頃には別の場所に移動している可能性があります。これはチェイシング・ゲームであり、ゴールが動きます。

第三に、5月18日のAnthropicの方針転換が示すように、Glasswingモデル自体も「閉じた囲い込み」から「コントロールされた情報共有」へと移行し始めています。Mythosの発見した脆弱性情報がプログラム外組織や規制当局、メディアと共有可能になった以上、「オープン版が出るまで」と「クローズド版の知見が一般化するまで」の境界線は、当初の想定よりずっと曖昧になっていきます。

ビジネスの実務家にとっての意味

CTO、CISO、プロダクト責任者、AI導入を検討する事業責任者の視点で、この変化が何を意味するか整理して終わります。

一つ目は、

サイバーセキュリティを「専門家がいる組織の専門家領域」と見る前提が崩れます

AIが12時間の専門作業を10分$1.73でこなせる時代に、自社のセキュリティスタックが「人間の専門家が定期的に見ています」程度に留まっている場合、AIによって増える脆弱性発見・検証・修正の速度に追いつけなくなる可能性があります。

ここで一つ留意点を加えておきます。Reutersが5月20日に報じた分析によりますと、セキュリティ実務家の間では、Mythos発表直後の「ハッキング能力が一気に解放される」というナラティブはやや誇張だという見方もあります。Semgrep CEOのIsaac Evans氏は「実務家と政策立案者の間に大きな認識ギャップがある」「Mythosは確かに技術的進歩だが、それが現場でどう機能するかについての反応は実態に裏付けられていない」とコメントしています。つまり、発見能力の向上は確かでも、それが即座に「攻撃が桁違いに増える」ことを意味するわけではありません。実務上のボトルネックは、発見よりも、その後の検証・優先順位付け・修正・展開にあります。AI assistedのvulnerability scanningを業務フローに組み込む話は先送りできない一方で、過度な恐怖に駆られた投資判断は逆効果になりえます。AISIは「サイバータスクの能力が4.7ヶ月で倍増している」と報告しており、来期のセキュリティ計画はこのペースを前提に設計する必要があります。

二つ目は、

オープンソースLLMの戦略的価値が変わります。

2025年までは「コスト削減のためにオープン、品質が必要ならクローズドAPI」という単純なルーティングで済みました。2026〜2027年は、特定の能力(例えばサイバー)がクローズド側で規制された時に、オープン側にしか選択肢がない局面が出てきます。逆も真で、オープンの能力が高すぎて使用を控える判断もありえます。技術選択がコスト以外の軸を含むようになります。

三つ目は、

「中国系モデル=安全保障リスク・蒸留品」という雑な区分は捨てるべきです

MLAやDeepSeekMoEのような、現在のオープンソースLLM設計の標準になっている技術の出どころは中国系ラボです。リスク評価とリスペクトは別物として扱わないと、技術的な意思決定を誤ります。

四つ目は、これが最も重要です

「いつ出るか」を待つ姿勢ではなく、
「出たら何をするか」を設計する姿勢が必要です。

重要なのは、Mythos相当のモデルがいつ公開されるかを当てることではありません。攻撃側も防御側も、より強いAIを使う前提で、ソフトウェア資産、依存ライブラリ、パッチ適用プロセス、AI利用ログ、権限管理、監査可能性を見直すことです。そして、Reuters 5月20日の分析が示したように、実務上のボトルネックは「発見」よりもその後の検証・優先順位付け・修正・展開にあります。だからこそ、企業側の運用設計に必要なのは、「AIで発見しました」で止まらないパイプライン、つまり発見→検証→優先順位付け→修正→監査ログ→権限設計まで一体で回せる仕組みです。

AIの能力向上は止められません。だからこそ、企業側に必要なのは、モデルを恐れることではなく、業務・セキュリティ・ガバナンスを一体で設計することです。Anthropicが5月18日にGlasswing内の情報共有制限を緩和した動きは、企業側にとってはチャンスでもあります。NCSC(英国)はMythos由来の脆弱性情報を活用できる立場にあり、日本でも金融庁の作業部会を通じて情報が流通し始めます。受け取った情報を実行可能な対策に落とすパイプラインを、今のうちに作っておくことが、来年以降の生存戦略になります。

Qualitegの伴走コンサルティングについて

本稿で扱ったような
「フロンティアAIの能力進化を、自社の業務・セキュリティ・ガバナンスにどう接続するか」は、一度の意思決定では終わらない継続的な設計作業です。モデルの選定、リスク評価、運用フローの構築、監査可能性の確保、社内体制づくりまで、論点は多岐にわたります。

Qualitegでは、こうした課題を企業の皆様と一緒に考え、伴走する専門コンサルティングチームを擁しています。AIモデルの技術評価から、セキュリティ運用設計、ガバナンス整備、人材育成まで、フェーズに応じた支援が可能です。

「Mythos相当のオープンモデルが出たときに何が起きるか」
「自社のセキュリティスタックは今のままで持つのか」
「AI導入を進めたいが、どこから手をつけるべきか」——こうした問いに、技術とビジネスの両面から具体的な答えを一緒に組み立てます。お気軽にご相談ください。

▶ お問い合わせはこちらから:
https://qualiteg.com/contact?inquiry=consulting_business

それでは、また次回お会いしましょう!


主な情報源(一次・準一次):

Read more

AIエージェントを"事業に載せる"ために【第3回】AI導入を止めないために、実務で先に設計すべきこと

AIエージェントを"事業に載せる"ために【第3回】AI導入を止めないために、実務で先に設計すべきこと

— AI導入を"事業に載せる"ために、いま設計すべきこと(全3回) こんにちは!Qualitegコンサルティングチームです。 今回の「AI導入を“事業に載せる”ために、いま設計すべきこと」シリーズも、いよいよ第3回です。 第1回では、実際のAI導入事故を通じて、AIエージェントのリスクが単なる技術不良ではなく、権限や運用設計の不在から生まれることを見てきました。第2回では、事故が起きたときに責任をどこに置くのか、法務・契約・組織の観点から責任分解の難しさを整理しました。 では、AI導入を止めずに前に進めるためには、実務として何を先に設計しておくべきなのでしょうか。 本記事では、品質保証の転換、人間レビューの限界、海外で進む保険市場の変化も踏まえながら、AIエージェント導入前に設計すべき5つの領域と、経営として先に答えるべき3つの問いを整理します。 1. 品質保証の転換:「AIは自信を持って間違える」を前提にする 従来のソフトウェアの品質保証は、少なくとも同じ入力に対して同じ結果を期待しやすく、仕様・テスト・再現性を軸に品質を確認する考え方に立っていました。 ISACA

By Qualiteg コンサルティング
主要LLMプロバイダーのAPI料金表 — Claude / GPT / Gemini/Grok 【2026年5月13日時点】

主要LLMプロバイダーのAPI料金表 — Claude / GPT / Gemini/Grok 【2026年5月13日時点】

こんにちは、 今回は、主要LLMプロバイダー( Claude / GPT /Gemini/Grok)のAPI料金表  をまとめてみました。(2026年5月13日時点) プロバイダ別 料金一覧 まずは各社の現行ラインナップを縦に並べた一覧をご紹介します。価格はすべて per 1M tokens、円表記は 1ドル=160円換算です。 Anthropic(Claude) モデル Status Context Input Output Cached Input Claude Opus 4.7 Fast Mode Beta(Opus専用) 1M $30.00<br>(¥4,800) $150.00<br>

By Qualiteg プロダクト開発部
コーディングエージェントの現状と未来への展望 【第3回】"書くAI"から"指揮するAI"へ──2026年の開発現場で起きている変化

コーディングエージェントの現状と未来への展望 【第3回】"書くAI"から"指揮するAI"へ──2026年の開発現場で起きている変化

こんにちは! コーディングエージェントシリーズ、ついに最終回です! 2026年に入り、Claude Code、Cursor 3、GitHub Copilot Coding Agentはいずれも、単なるコード補完やチャット型支援を超え、複数エージェントを使った開発ワークフローへ進化しつつあります。本稿では、AIコーディングエージェントの最新動向を、Claude CodeのAuto Memory / Subagents、Cursor 3のAgents Window、GitHub CopilotのCoding Agent、そしてSWE-benchの読み方まで含めて整理します。 第1回では、2025年12月時点で百花繚乱状態にあったAIコーディングエージェントの全体像を俯瞰し、商用からOSSまで20以上のツールを「CLIベース」「IDE統合型」「AI特化IDE型」「自律型」の4つのカテゴリに整理しました。 第2回では、Claude Code・Codex CLI・Aiderを詳細比較したうえで、現在のコーディングエージェントが共通して抱える構造的課題——コンテキストウィンドウの限界、セッ

By Qualiteg コンサルティング
Windows版 Claude Code を irm でインストールして「claude is not recognized」を直すまで

Windows版 Claude Code を irm でインストールして「claude is not recognized」を直すまで

こんにちは! 公式PowerShellインストーラー(irm https://claude.ai/install.ps1 | iex)で Claude Code を入れたのに、claude --version を叩くと「The term 'claude' is not recognized as a name of a cmdlet...」と怒られるときがあります これは Anthropic 公式 GitHub にも報告されている 既知のバグで、インストーラーが PATH の追加を忘れています。実際にインストール作業をやって詰まったので、最短の解決手順をまとめます。 環境 * Windows 11 * PowerShell 7.x(コードは PowerShell

By Qualiteg プロダクト開発部