日本語対応 LLMランキング2026 ~ベンチマーク分析レポート~(3月6日版)

日本語対応 LLMランキング2026 ~ベンチマーク分析レポート~(3月6日版)

はじめに

本レポートは、Nejumi Leaderboard 4のベンチマークデータ(2026/3/6版)に基づいて、日本語対応LLMの性能を総合的に分析したものです。

前回は 2025/12/18 版の分析レポート を公開しましたが、約3か月でまたもや大きな変動がありました!

(定期的に最新LLMランキングを更新してまいります。当社のX(旧Twitter)をフォローいただくことで更新情報を受け取り可能です)

Nejumi Leaderboard 4は、日本語タスクにおけるLLMの性能を多角的に評価する信頼性の高いベンチマークとして知られています。

本分析では、商用APIモデルとオープンモデルの両方を対象に、それぞれの特徴や傾向を詳しく見ていきます。

オープンソースモデルについて

Weightがオープンなモデルは場合によっては「オープンソースモデル」、「OSSモデル」と呼ばれますが、モデルによっては「オープンソース」と呼ぶには不十分な場合があるため本稿では、「オープンソースモデル」ではなく「オープンモデル」と表現しています。

ベンチマーク分析について

本レポートは、LLM選択の参考情報として、ベンチマークデータから読み取れる傾向や特徴を提示するものです。最終的なモデル選択においては、これらの情報を踏まえつつ、実際の使用環境での検証を行うことをおすすめいたします。

まず 2026/3/6 現在の日本語対応LLMの総合ランキングをみてみましょう。


総合スコアランキング TOP50

順位 モデル名 カテゴリ 総合スコア
1gemini-3.1-pro-previewapi0.8430
2anthropic/claude-opus-4.6api0.8394
3gpt-5.2-2025-12-11api0.8285
4anthropic/claude-sonnet-4.6api0.8230
5Qwen/Qwen3.5-397B-A17BLarge (30B+)0.8191
6gemini-3-flash-previewapi0.8155
7gemini-3-pro-previewapi0.8134
8Qwen/Qwen3.5-122B-A10BLarge (30B+)0.8094
9gpt-5.1-2025-11-13api0.8085
10anthropic/claude-opus-4.5api0.8064
11Qwen/Qwen3.5-27BMedium (10B-30B)0.8049
12anthropic/claude-opus-4.1api0.7992
13gpt-5-2025-08-07api0.7970
14anthropic/claude-sonnet-4.5api0.7954
15anthropic/claude-sonnet-4api0.7918
16deepseek-reasonerapi0.7905
17Qwen/Qwen3.5-35B-A3BLarge (30B+)0.7895
18deepseek-ai/DeepSeek-V3.2Large (30B+)0.7888
19zai-org/GLM-5Large (30B+)0.7884
20anthropic/claude-haiku-4.5api0.7879
21o3-2025-04-16api0.7876
22x-ai/grok-4api0.7810
23anthropic/claude-opus-4api0.7804
24moonshotai/Kimi-K2.5Large (30B+)0.7785
25Qwen/Qwen3-235B-A22B-Thinking-2507Large (30B+)0.7785
26o1-2024-12-17api0.7753
27anthropic/claude-3.7-sonnetapi0.7734
28gemini-2.5-proapi0.7696
29x-ai/grok-4.1-fastapi0.7646
30o4-mini-2025-04-16api0.7610
31Qwen/Qwen3-Next-80B-A3B-ThinkingLarge (30B+)0.7563
32MiniMaxAI/MiniMax-M2.1Large (30B+)0.7556
33Qwen/Qwen3.5-9BMedium (10B-30B)0.7485
34o3-mini-2025-01-31api0.7430
35qwen3-max-previewapi0.7425
36Qwen/Qwen3-VL-32B-ThinkingLarge (30B+)0.7407
37gpt-5.1-2025-11-13 (none-effort)api0.7412
38x-ai/grok-3-miniapi0.7370
39Qwen/Qwen3.5-4BSmall (<10B)0.7352
40moonshotai/kimi-k2-thinkingapi0.7332
41Qwen/Qwen3-30B-A3B-Thinking-2507Large (30B+)0.7331
42anthropic/claude-opus-4.5 (no-thinking)api0.7320
43gemini-3.1-flash-lite-previewapi0.7284
44syn-pro (reasoning)api0.7273
45gpt-4.1-2025-04-14api0.7261
46x-ai/grok-3api0.7253
47Qwen/Qwen3-14BMedium (10–30B)0.7233
48gpt-4o-2024-11-20api0.7223
49LGAI-EXAONE/K-EXAONE-236B-A23BLarge (30B+)0.7186
50anthropic/claude-3.7-sonnet (no-thinking)api0.7177

総合スコアの傾向と考察

今回は、2026年3月の日本語対応LLMベンチマークにおいて、0.80超えモデルが一気に11モデルに拡大しました。前回(12月版)では4モデルだった0.80超えが、わずか3か月で約3倍に急増しています。

この3か月でも、性能水準の上昇はかなり明確です。

オープンモデルのQwen が 0.80 の壁を突破し商用モデルに迫る!

今回とくに驚いたのは、オープンモデルが初めて0.80の壁を突破したことです。
Qwen/Qwen3.5-397B-A17Bがなんと 0.8191 を記録しており、スコアの上では、前回調査時に 2位だった google/gemini-3-pro-preview のスコア 0.8134 を超えています

さらに、Qwen3.5シリーズは合計3モデルが0.80を超え、オープンモデルと商用APIモデルの境界線がますます曖昧になりつつあります。

トップ層の特徴

Google Gemini 3.1 Pro Previewが首位に返り咲く

首位のGemini 3.1 Pro Preview0.8430という過去最高スコアを記録しました。前回2位だったGemini 3 Pro Preview(0.8134)から大幅にスコアを伸ばし、堂々の1位に返り咲いています。

前回、GPT-5.2がGemini 3 Proを抑えて首位を奪還したドラマをお伝えしましたが、今回はGoogleが「3.1」というマイナーバージョンアップで再び首位を獲得しました。3.1への更新で、ベンチマーク上は約0.03ポイントの改善が確認されました。バージョン番号以上に、中身の進化が大きかったことがうかがえます。

Anthropic社のClaudeは安定した高性能

Anthropic社のClaude Opus 4.6(0.8394)は、今回のスコアでは、総合2位でした。OpusはAnthropicの最新フラッグシップモデルです。加えて、4位のClaude Sonnet 4.6(0.8230)も0.80を超えており、Anthropicは「Opus」と「Sonnet」の両方でトップ5入りを果たしています。

GPT-5.4 に期待GPT-5.2は3位に後退、今後はGPT-5.4の評価に注目

前回首位だったGPT-5.2(0.8285)は今回3位となりました。スコア自体は変わっていませんが、Gemini 3.1 ProとClaude Opus 4.6という2つの強力な新モデルに追い抜かれた形です。

OpenAIとしては前回の「Code Red」を経てGPT-5.2をリリースした経緯がありますが、Google・Anthropicの追い上げは止まりません。

本記事執筆時点の 2026/3/6 に後継の GPT-5.4 がリリースされました。まだ出たばかりなのでベンチマークには登場していませんが、非常に注目されるリリースです。

Gemini 3 Flashの躍進

6位に入ったGemini 3 Flash Preview(0.8155)は特筆に値するのではないでしょうか。「Flash」は本来、高速・軽量版の位置づけですが、前回のGemini 3 Pro Previewとほぼ同等の0.81台を記録。高速応答と高性能の両立という点で、実用面での価値は非常に高いのではないでしょうか。

3強から群雄割拠となるか

前回は「Anthropic、OpenAI、Googleの3強」という構図でしたが、今回はさらに競争が多極化しています。

  • TOP4が0.82以上という未曾有の高水準(前回はTOP4が0.80以上)
  • TOP11が0.80以上(前回は4モデルのみ)
  • オープンモデルのQwen3.5シリーズが5位、8位、11位にランクインし、商用APIモデルに割って入る

特にTOP11のうち、商用APIが8モデル、オープンモデルが3モデルという構成は、オープンモデルの急速な進化を物語っています。

これだけモデルの選択肢が広がると、今後は「最強モデルを一つ選ぶ」というより、用途や制約に応じて複数モデルを使い分ける設計が現実的になっていくのではないでしょうか。

強力な新顔たち

さて、その他、今回のランキングで登場した注目すべき新顔をいくつか紹介いたします。

  • Gemini 3.1 Flash Lite Preview(43位、0.7284): 最軽量版でも0.72台を記録。Googleのモデルラインナップの層の厚さを示す
  • Qwen3.5シリーズ(5位、8位、11位ほか): 今回最大のサプライズ。詳細はオープンモデルのセクションで解説します
  • GLM-5(19位、0.7884): 前回登場したGLM-4.6-FP8(0.7337)からメジャーバージョンアップ。Zhipu AI(智譜AI)の急成長が続く
  • Moonshot Kimi-K2.5(24位、0.7785): 前回のKimi-K2-thinking(0.7332)から大幅にスコアアップ。
  • MiniMax-M2.1(32位、0.7556): 前回のMiniMax-M2(0.7126)からの着実な進化
  • LGAI-EXAONE K-EXAONE-236B-A23B(49位、0.7186): 韓国LG AI Researchによるオープンモデルが新規参入。韓国発モデルとしては初のランクイン。
  • NVIDIA Nemotron Nano 9B v2 Japanese(Small、0.7111): NVIDIAによる日本語特化の小型モデル。9Bパラメータで0.71超えは注目
  • Baidu ERNIE-4.5-21B-A3B-Thinking(Medium、0.5466): 中国Baiduの新モデルが初登場

モデルサイズと性能の関係

今回も興味深いのは、軽量モデルの性能向上です。

  • 小型モデルのQwen3.5-4BがSmallカテゴリで0.7352を記録(わずか4Bです!)
  • Gemini 3 Flashが0.81台を記録し、「Flash = 高速版」の常識を覆す

ベンチマーク結果の解釈について

本レポートで紹介するスコアは、あくまでもベンチマークテストにおける評価結果です。ベンチマークは、LLMの性能を客観的に比較する有用なツールですが、以下の点にご注意ください。

  • ベンチマークは特定のタスクセットに基づいて評価されるため、そのタスク構成に適したモデルほど高いスコアを獲得する傾向があります
  • 実際の業務での使用感や、特定の用途における有用性は、ベンチマークスコアだけでは完全には測れません
  • モデルによっては、ベンチマークで測定されていない独自の強みや特徴を持っている場合があります

次は、オープンモデルに限定して実力をみていきましょう。

オープンモデル 総合スコアランキング TOP20

順位 モデル名 モデルサイズ 総合スコア
1Qwen/Qwen3.5-397B-A17BLarge (30B+)0.8191
2Qwen/Qwen3.5-122B-A10BLarge (30B+)0.8094
3Qwen/Qwen3.5-27BMedium (10B-30B)0.8049
4Qwen/Qwen3.5-35B-A3BLarge (30B+)0.7895
5deepseek-ai/DeepSeek-V3.2Large (30B+)0.7888
6zai-org/GLM-5Large (30B+)0.7884
7moonshotai/Kimi-K2.5Large (30B+)0.7785
8Qwen/Qwen3-235B-A22B-Thinking-2507Large (30B+)0.7785
9Qwen/Qwen3-Next-80B-A3B-ThinkingLarge (30B+)0.7563
10MiniMaxAI/MiniMax-M2.1Large (30B+)0.7556
11Qwen/Qwen3.5-9BMedium (10B-30B)0.7485
12Qwen/Qwen3-VL-32B-ThinkingLarge (30B+)0.7407
13Qwen/Qwen3.5-4BSmall (<10B)0.7352
14Qwen/Qwen3-30B-A3B-Thinking-2507Large (30B+)0.7331
15Qwen/Qwen3-14BMedium (10–30B)0.7233
16LGAI-EXAONE/K-EXAONE-236B-A23BLarge (30B+)0.7186
17Qwen/Qwen3-Next-80B-A3B-InstructLarge (30B+)0.7130
18nvidia/NVIDIA-Nemotron-Nano-9B-v2-JapaneseSmall (<10B)0.7111
19Qwen/Qwen3-32BLarge (30B+)0.7091
20Qwen/Qwen3-VL-8B-ThinkingSmall (<10B)0.7021

オープンモデル総合スコアの傾向と考察

オープンモデルに限定したランキングを見ると、冒頭でもふれましたが、
今回は中国発Alibaba社のQwen3.5シリーズの衝撃的な登場が最大のトピックとなります。

長い間、中国発LLMかつオープンLLMの王者だったDeepSeek を抜き去りました

Qwen3.5シリーズ —— オープンモデルとして初の0.80台に到達

Qwen3.5シリーズは、性能帯の異なる"4兄弟"のようなラインナップを形成しています。

  • Qwen3.5-397B-A17B(0.8191):オープンモデルとして史上初の0.80超え、しかも0.81台を記録
  • Qwen3.5-122B-A10B(0.8094):2番手でも0.80超え
  • Qwen3.5-27B(0.8049):27Bの中規模モデルでも0.80超え
  • Qwen3.5-4B(0.7352):小型モデルについては後述します

前回首位だったDeepSeek V3.2(Thinking Mode)の0.7905を大きく上回り、オープンモデルのレベルを一段引き上げました。

Qwen3.5シリーズはAlibaba Cloud(阿里雲)が開発するQwenファミリーの最新世代で、MoE(Mixture of Experts)アーキテクチャを採用しています。「397B-A17B」は総パラメータ数397Bのうち、推論時にアクティブになるのは17Bのみという効率的な設計です。これにより、大規模モデル並みの性能を比較的少ない計算資源で実現しています。

Qwen3.5-27Bの結果はとくに注目に値します。

わずか27Bパラメータの中規模モデルで0.80を超えたことは、オープンモデルの「効率革命」を象徴しています。こちらは中規模モデル編でもう少し考察します。

中国発モデルの多様化がさらに加速

前回も中国発モデルの層の厚さに驚かされましたが、今回はさらに顕著です。

  • Zhipu AI(智譜AI)のGLM-5(6位、0.7884): 前回のGLM-4.6-FP8(0.7337)から大幅な進化
  • Moonshot AI のKimi-K2.5(7位、0.7785): 前回のKimi-K2-thinking(0.7332)から0.045ポイントの向上
  • MiniMax-M2.1(10位、0.7556): 前回のM2(0.7126)から着実にスコアを伸ばす

DeepSeek、Qwen、GLM、Kimi、MiniMaxと、5つの異なる中国発AIベンダーがTOP10に名を連ねています。中国AIエコシステムの厚みは、もはや一時的なブームではなく構造的な競争力と言えるでしょう。

新たな国際勢力台頭~韓国発モデル~

今回、中国以外からも注目すべき新勢力が登場しています。

LGAI-EXAONE K-EXAONE-236B-A23B(16位、0.7186)は 韓国LG AI Researchによるオープンモデルです。236Bパラメータ(アクティブ23B)のMoEモデルで、韓国発モデルとしてはこのベンチマークで初めてのランクインとなります

日本製オープンモデル

日本発オープンモデルでは、今回新たに東京工業大学(TokyoTech)のSwallowシリーズが複数ランクインしています。

  • tokyotech-llm/GPT-OSS-Swallow-120B-RL-v0.1(0.6914): OpenAIのGPT-OSSをベースにした120Bモデル
  • tokyotech-llm/Qwen3-Swallow-32B-RL-v0.2(0.6782): Qwen3ベースの32Bモデル
  • tokyotech-llm/GPT-OSS-Swallow-20B-RL-v0.1(0.6424): 20Bの中規模モデル
  • tokyotech-llm/Qwen3-Swallow-8B-RL-v0.2(0.6552): 8Bの小型モデル

Swallowシリーズは強化学習(RL)を活用したファインチューニングにより、複数のベースモデルから日本語性能を引き出しています。従来のrinna(0.6910)やABEJA(0.6866)に加え、東工大のSwallowが日本語LLMの選択肢をさらに広げています。

さて、次は中規模10B~30B程度のモデルをみてみましょう。

中規模モデルのうれしいところは、個人レベルでも比較的入手しやすいGPUでも実行できるところではないでしょうか。16bitモードや量子化版のモデルをつかえば、16GByte~48GB程度のGPUでも推論を動作させることができ、1台のPCに1台のGPUという構成でも利用しやすい点、とっつきやすいモデルといえます。


中規模モデル(10B-30B)総合スコアランキング

順位 モデル名 モデルサイズ 総合スコア
1Qwen/Qwen3.5-27BMedium (10B-30B)0.8049
2Qwen/Qwen3.5-9BMedium (10B-30B)0.7485
3Qwen/Qwen3-14BMedium (10–30B)0.7233
4tokyotech-llm/GPT-OSS-Swallow-20B-RL-v0.1Medium (10B-30B)0.6424
5google/gemma-3-27b-itMedium (10–30B)0.6285
6tokyotech-llm/Gemma-2-Llama-Swallow-27b-it-v0.1Medium (10–30B)0.6208
7google/gemma-3-12b-itMedium (10–30B)0.5995
8mistralai/Ministral-3-14B-Reasoning-2512Medium (10–30B)0.5608
9baidu/ERNIE-4.5-21B-A3B-ThinkingMedium (10B-30B)0.5466
10google/gemma-3-4b-itMedium (10–30B)0.5326

中規模モデル総合スコアの傾向と考察

中規模モデル(10B-30Bパラメータ)のカテゴリでは、もう紹介済ですがQwen 四兄弟の三男Qwen3.5-27Bが0.80超えという歴史的なスコアを記録しました。

Qwen3.5-27B —— 中規模モデルの到達点を一段押し上げる

ここで、Qwen3.5-27Bの位置づけを改めて確認してみましょう。

前回まで中規模モデルの王者はQwen3-14B(0.7233)で、2位のgemma-3-27b(0.6285)との間には約0.10ポイントの大差がありました。

今回のQwen3.5-27B(0.8049)は、そのQwen3-14Bをも0.08ポイント上回り、中規模モデルの到達点を大きく引き上げました。
0.80という数字は、前回の商用APIモデルTOP4に匹敵するレベルです。つまり、約3か月前の最高水準の商用APIモデルと同等の性能が、27Bの中規模オープンモデルで実現されているのです。

2位のQwen3.5-9B(0.7485)も前回のQwen3-14Bを上回っており、9Bパラメータでこの水準に達している点は、注目に値します。

新顔:東工大Swallowと百度ERNIE

4位にtokyotech-llm/GPT-OSS-Swallow-20B-RL-v0.1(0.6424)が新たにランクインしました。OpenAIのオープンモデルGPT-OSSをベースに、東京工業大学が日本語に特化したファインチューニングを施したモデルです。

また、9位にはBaidu(百度)のERNIE-4.5-21B-A3B-Thinking(0.5466)が新規参入しています。中国の検索エンジン大手Baiduが開発するERNIEシリーズは、中国語圏では広く知られていますが、日本語ベンチマークでの登場は今回が初めてです。

さて、最後に小規模モデルもみてみましょう。こうした小型モデルは比較的安価なコンシューマ向けGPUでも動作する点が魅力です。


小規模モデル(10B以下)総合スコアランキング

順位 モデル名 モデルサイズ 総合スコア
1Qwen/Qwen3.5-4BSmall (<10B)0.7352
2nvidia/NVIDIA-Nemotron-Nano-9B-v2-JapaneseSmall (<10B)0.7111
3Qwen/Qwen3-VL-8B-ThinkingSmall (<10B)0.7021
4Qwen/Qwen3-4B-Thinking-2507Small (<10B)0.6960
5Qwen/Qwen3-8BSmall (<10B)0.6900
6Qwen/Qwen3-VL-4B-ThinkingSmall (<10B)0.6768
7tokyotech-llm/Qwen3-Swallow-8B-RL-v0.2Small (<10B)0.6552
8tokyotech-llm/Gemma-2-Llama-Swallow-9b-it-v0.1Small (<10B)0.5982
9Qwen/Qwen3-VL-2B-ThinkingSmall (<10B)0.5758
10tokyotech-llm/Llama-3.1-Swallow-8B-Instruct-v0.5Small (<10B)0.5611

小規模モデル総合スコアの傾向と考察

小規模モデル(10B以下のパラメータ)は、エッジデバイスやリソース制約のある環境での利用に適しており、今回も驚くほど高い性能を実現しているモデルが存在します。

Qwen3.5-4B —— 小型モデルの性能水準を塗り替える

さて、小規模モデルでは、Qwen3.5シリーズの最小モデルであるQwen3.5-4B(0.7352)が首位となりました。

わずか4Bパラメータで前回の小型モデル首位Qwen3-8B(0.6891)を大幅に上回りました。

前回のQwen3-14B(Medium、0.7233)をも超えるスコアであり、モデルサイズの常識を覆す結果です。

NVIDIA Nemotron Nano の存在感

2位にNVIDIA Nemotron Nano 9B v2 Japanese(0.7111)が新たにランクインしました。NVIDIAが開発した日本語特化の9Bモデルで、日本語性能を重視したファインチューニングが施されています。NVIDIAはGPUメーカーとしてのイメージが強いですが、LLMモデル自体の開発にも注力していることがうかがえます。


まとめ、本格導入に向けての道しるべ

前回に引き続き今回も、Nejumi Leaderboard 4のベンチマークデータを分析いたしました。本日(2026年3月6日時点)は、前回の分析から約3か月経っておりますが、日本語対応LLMの加速度的な進化を感じていただけたのではないでしょうか。

0.80超え11モデル時代の到来

今回の最大のポイントは、11モデルが総合スコア0.80を突破したことです。前回は4モデル、その前はゼロだったことを考えると、技術進歩のスピードは加速する一方です。

  • Gemini 3.1 Pro Preview(0.8430)が史上最高スコアで首位
  • Claude Opus 4.6(0.8394)が僅差で2位に肉薄
  • オープンモデルのQwen3.5-397B-A17B(0.8191)が初の0.80超え

商用API3強(Google、Anthropic、OpenAI)の競争はますます激化していますが、今回はそこにオープンモデルが本格的に割って入ってきた点が決定的に新しい動きです。

オープンモデルの歴史的躍進

Qwen3.5シリーズが3モデルで0.80を超えたことは、LLM業界の転換点と言えるかもしれません。特にQwen3.5-27Bは、27Bという手の届くサイズで商用API並みの性能を実現しており、オンプレミス環境での高性能LLM運用が現実的になりつつあります。

モデルサイズ別の特徴

カテゴリ推奨モデル特徴
大規模 (30B+)Qwen3.5-397B-A17B, GLM-5, Kimi-K2.5オープンモデルで商用API級の性能
中規模 (10-30B)Qwen3.5-27B, Qwen3.5-9B0.80超えの効率革命
小規模 (<10B)Qwen3.5-4B, Nemotron Nano 9B4Bで0.73超え、エッジ対応

LLMの本格導入にむけて:用途別の最適なモデル選択

今回は総合スコアを軸に各モデルの位置づけを見てきましたが、実際の導入判断はそれほど単純ではありません。

ベンチマークは有力な参考情報である一方、実務では精度だけでなく、推論コスト、応答速度、機密データの扱い、既存システムとの接続性、運用体制といった要素も同時に検討する必要があります。

また、業務によって求められる性質は異なります。高精度な推論が求められる場面もあれば、低コストで大量処理したい場面もあり、機密性の観点からオープンモデルを自社環境で動かしたいケースもあります。そのため、「最もスコアの高いモデルを一つ選ぶ」というより、「用途ごとに複数のモデルを適切に使い分けられる状態をどう作るか」が、導入の現場ではより重要になります。

当社では、こうした複数モデル運用の実務に対応する選択肢として、複数のLLMを1つのプラットフォームで利用できる統合AIプラットフォーム Bestllam を提供しています。モデルの選定から、業務フローへの組み込み、AIエージェント活用を前提とした運用設計まで含めてご支援可能です。

また、単なるツール提供にとどまらず、貴社業務のAI化を見据えたBPRコンサルティングもあわせてご提供しており、業務分析からBPR計画策定、成功指標の設計、導入支援まで伴走いたします。

まずはお気軽にご相談くださいませ
https://qualiteg.com/contact?inquiry=consulting

Read more

日経トレンディ 2026年4月号に Bestllam の広告を掲載しました

日経トレンディ 2026年4月号に Bestllam の広告を掲載しました

こんにちは! このたび、日経トレンディ 2026年4月号(2026年3月4日発売、雑誌)に、当社のエンタープライズ向け統合型AIプラットフォーム「Bestllam」を掲載しました。 日経トレンディ(雑誌)は全国の書店・コンビニエンスストアにてお買い求めいただけますので、お手に取った際はぜひご覧くださいませ。 Bestllam とは? Bestllam は、「チャットで指示するだけ。仕事が終わっている。」をコンセプトに開発した、エンタープライズ向けの統合型AIプラットフォームです。 主な特長 20種類以上のLLMを、契約一本で OpenAI GPT、Anthropic Claude、Google Gemini をはじめ、DeepSeek、Qwen、Llama など商用・オープンソース合わせて20種類以上のLLMを1つの契約で利用できます。各プロバイダと個別に契約を結ぶ手間が不要になります。 6つのLLMに同時質問して、最適な答えを選択 同じ質問を複数のLLMに一括投げかけ、回答を比較・検討できます。各モデルの得意・不得意を活かすことで、重要な意思決定や精度が求められる業

By Qualiteg ビジネス開発本部 | マーケティング部
AIプラットフォーマーの垂直統合と、残された戦略オプション

AIプラットフォーマーの垂直統合と、残された戦略オプション

こんにちは! Qualitegコンサルティングチームです! 2026年現在、LLMの最大のユースケースの一つはコーディングだと考えています。実際、Menlo Venturesの調査でもコーディングはエンタープライズAI活用の代表的ユースケースとして位置づけられています。 そして、それにきづいたAIプラットフォーマー各社は自前のAIコーディングツールを次々と発表し人気を博しています。 逆にいえば、そのユースケースを早期に発見しプロダクト化してきた"コーディングSaaS"の開発企業は「胴元」であるAIプラットフォーマーが自分たちのSaaS領域に進出してきているわけで気が気でないでしょう。 ということで、本日はAIプラットフォーマーによる垂直統合と、私たちの取りうる戦略オプションについて考えてみたいと思います。 さて、2025年は、AIコーディングエージェント市場の勢力図が決定的に書き換えられた年でした。 Anthropicの「Claude Code」は2025年2月のリサーチプレビューから始まり、わずか半年で年換算ランレート(ARR)10億ドルに到達。 2026年初頭のア

By Qualiteg コンサルティング
KVキャッシュのオフロード戦略とGQAの実践的理解

KVキャッシュのオフロード戦略とGQAの実践的理解

こんにちは! LLM推論基盤プロビジョニング講座、今回は番外編をお届けします! 第3回「使用モデルの推論時消費メモリ見積もり」では、GPUメモリ消費の二大要素としてモデルのフットプリントとKVキャッシュを紹介し、1トークンあたりのKVキャッシュサイズの計算方法を解説しました。 また第4回「推論エンジンの選定」ではvLLMやDeepSpeedなど各推論エンジンの特性を比較し、第5回では量子化や並列化による最適化戦略を解説してきました。 しかし、実はKVキャッシュにはまだまだ掘り下げるべきトピックがあります。 * KVキャッシュをGPUのVRAMからCPU RAMやディスクにオフロードしたらどうなるのか? どのくらい遅くなるのか? * HuggingFace TransformersとvLLMでは、KVキャッシュの管理方針がなぜ根本的に異なるのか? * そもそもKVキャッシュが大きくなる原因であるアテンション構造を変えてしまう GQA(Grouped-Query Attention)とは何か? 第5回で紹介した量子化とは別の軸で、KVキャッシュを劇的に小さくする技術です。

By Qualiteg プロダクト開発部, Qualiteg コンサルティング
Python と JavaScript で絵文字の文字数が違う!サロゲートペアが引き起こす位置ずれバグの話

Python と JavaScript で絵文字の文字数が違う!サロゲートペアが引き起こす位置ずれバグの話

こんにちは! Qualitegプロダクト開発部です! PII(個人情報)検出のデモアプリを開発していて、検出したエンティティの位置をハイライト表示する機能を実装していました。 バックエンドは Python(FastAPI)、フロントエンドは JavaScript という構成です。 ある日、テストデータにこんなメール文面を使ったところ、ハイライトの位置が途中から微妙にずれるバグに遭遇しました。 鈴木一郎 様 いつもお世話になっております。 サンプル商事の佐藤でございます。 先日の件、確認が取れましたのでご連絡いたします。 お忙しいところ恐縮ですが、ご確認のほど宜しくお願い致します。 💻 #オンラインでのお打ち合わせ、お気軽に声がけください! ―――――――――――――――――――――――――――――― サンプル商事株式会社 営業部 第一課 山田 太郎 (Yamada Taro) 〒100-0001 東京都千代田区千代田1-1-1 サンプルビル 3F tel: 03-1234-5678 https://example.com/contact 検出結果をハイライト表示

By Qualiteg プロダクト開発部