LLM

日本語対応 LLMランキング2026　～ベンチマーク分析レポート～（3月6日版）

Qualiteg コンサルティング, Qualiteg プロダクト開発部

2026年3月6日 — 13 min read

はじめに

本レポートは、Nejumi Leaderboard 4のベンチマークデータ（2026/3/6版）に基づいて、日本語対応LLMの性能を総合的に分析したものです。

前回は 2025/12/18 版の分析レポートを公開しましたが、約3か月でまたもや大きな変動がありました！

（定期的に最新LLMランキングを更新してまいります。当社のX(旧Twitter)をフォローいただくことで更新情報を受け取り可能です）

Nejumi Leaderboard 4は、日本語タスクにおけるLLMの性能を多角的に評価する信頼性の高いベンチマークとして知られています。

本分析では、商用APIモデルとオープンモデルの両方を対象に、それぞれの特徴や傾向を詳しく見ていきます。

オープンソースモデルについて

Weightがオープンなモデルは場合によっては「オープンソースモデル」、「OSSモデル」と呼ばれますが、モデルによっては「オープンソース」と呼ぶには不十分な場合があるため本稿では、「オープンソースモデル」ではなく「オープンモデル」と表現しています。

ベンチマーク分析について

本レポートは、LLM選択の参考情報として、ベンチマークデータから読み取れる傾向や特徴を提示するものです。最終的なモデル選択においては、これらの情報を踏まえつつ、実際の使用環境での検証を行うことをおすすめいたします。

まず 2026/3/6 現在の日本語対応LLMの総合ランキングをみてみましょう。

総合スコアランキング TOP50

順位	モデル名	カテゴリ	総合スコア
1	gemini-3.1-pro-preview	api	0.8430
2	anthropic/claude-opus-4.6	api	0.8394
3	gpt-5.2-2025-12-11	api	0.8285
4	anthropic/claude-sonnet-4.6	api	0.8230
5	Qwen/Qwen3.5-397B-A17B	Large (30B+)	0.8191
6	gemini-3-flash-preview	api	0.8155
7	gemini-3-pro-preview	api	0.8134
8	Qwen/Qwen3.5-122B-A10B	Large (30B+)	0.8094
9	gpt-5.1-2025-11-13	api	0.8085
10	anthropic/claude-opus-4.5	api	0.8064
11	Qwen/Qwen3.5-27B	Medium (10B-30B)	0.8049
12	anthropic/claude-opus-4.1	api	0.7992
13	gpt-5-2025-08-07	api	0.7970
14	anthropic/claude-sonnet-4.5	api	0.7954
15	anthropic/claude-sonnet-4	api	0.7918
16	deepseek-reasoner	api	0.7905
17	Qwen/Qwen3.5-35B-A3B	Large (30B+)	0.7895
18	deepseek-ai/DeepSeek-V3.2	Large (30B+)	0.7888
19	zai-org/GLM-5	Large (30B+)	0.7884
20	anthropic/claude-haiku-4.5	api	0.7879
21	o3-2025-04-16	api	0.7876
22	x-ai/grok-4	api	0.7810
23	anthropic/claude-opus-4	api	0.7804
24	moonshotai/Kimi-K2.5	Large (30B+)	0.7785
25	Qwen/Qwen3-235B-A22B-Thinking-2507	Large (30B+)	0.7785
26	o1-2024-12-17	api	0.7753
27	anthropic/claude-3.7-sonnet	api	0.7734
28	gemini-2.5-pro	api	0.7696
29	x-ai/grok-4.1-fast	api	0.7646
30	o4-mini-2025-04-16	api	0.7610
31	Qwen/Qwen3-Next-80B-A3B-Thinking	Large (30B+)	0.7563
32	MiniMaxAI/MiniMax-M2.1	Large (30B+)	0.7556
33	Qwen/Qwen3.5-9B	Medium (10B-30B)	0.7485
34	o3-mini-2025-01-31	api	0.7430
35	qwen3-max-preview	api	0.7425
36	Qwen/Qwen3-VL-32B-Thinking	Large (30B+)	0.7407
37	gpt-5.1-2025-11-13 (none-effort)	api	0.7412
38	x-ai/grok-3-mini	api	0.7370
39	Qwen/Qwen3.5-4B	Small (<10B)	0.7352
40	moonshotai/kimi-k2-thinking	api	0.7332
41	Qwen/Qwen3-30B-A3B-Thinking-2507	Large (30B+)	0.7331
42	anthropic/claude-opus-4.5 (no-thinking)	api	0.7320
43	gemini-3.1-flash-lite-preview	api	0.7284
44	syn-pro (reasoning)	api	0.7273
45	gpt-4.1-2025-04-14	api	0.7261
46	x-ai/grok-3	api	0.7253
47	Qwen/Qwen3-14B	Medium (10–30B)	0.7233
48	gpt-4o-2024-11-20	api	0.7223
49	LGAI-EXAONE/K-EXAONE-236B-A23B	Large (30B+)	0.7186
50	anthropic/claude-3.7-sonnet (no-thinking)	api	0.7177

総合スコアの傾向と考察

今回は、2026年3月の日本語対応LLMベンチマークにおいて、0.80超えモデルが一気に11モデルに拡大しました。前回（12月版）では4モデルだった0.80超えが、わずか3か月で約3倍に急増しています。

この3か月でも、性能水準の上昇はかなり明確です。

オープンモデルのQwen が 0.80 の壁を突破し商用モデルに迫る！

今回とくに驚いたのは、オープンモデルが初めて0.80の壁を突破したことです。
Qwen/Qwen3.5-397B-A17Bがなんと 0.8191 を記録しており、スコアの上では、前回調査時に 2位だった google/gemini-3-pro-preview のスコア 0.8134　を超えています

さらに、Qwen3.5シリーズは合計3モデルが0.80を超え、オープンモデルと商用APIモデルの境界線がますます曖昧になりつつあります。

トップ層の特徴

Google Gemini 3.1 Pro Previewが首位に返り咲く

首位のGemini 3.1 Pro Previewは0.8430という過去最高スコアを記録しました。前回2位だったGemini 3 Pro Preview（0.8134）から大幅にスコアを伸ばし、堂々の1位に返り咲いています。

前回、GPT-5.2がGemini 3 Proを抑えて首位を奪還したドラマをお伝えしましたが、今回はGoogleが「3.1」というマイナーバージョンアップで再び首位を獲得しました。3.1への更新で、ベンチマーク上は約0.03ポイントの改善が確認されました。バージョン番号以上に、中身の進化が大きかったことがうかがえます。

Anthropic社のClaudeは安定した高性能

Anthropic社のClaude Opus 4.6（0.8394）は、今回のスコアでは、総合2位でした。OpusはAnthropicの最新フラッグシップモデルです。加えて、4位のClaude Sonnet 4.6（0.8230）も0.80を超えており、Anthropicは「Opus」と「Sonnet」の両方でトップ5入りを果たしています。

GPT-5.4 に期待GPT-5.2は3位に後退、今後はGPT-5.4の評価に注目

前回首位だったGPT-5.2（0.8285）は今回3位となりました。スコア自体は変わっていませんが、Gemini 3.1 ProとClaude Opus 4.6という2つの強力な新モデルに追い抜かれた形です。

OpenAIとしては前回の「Code Red」を経てGPT-5.2をリリースした経緯がありますが、Google・Anthropicの追い上げは止まりません。

本記事執筆時点の 2026/3/6 に後継の GPT-5.4 がリリースされました。まだ出たばかりなのでベンチマークには登場していませんが、非常に注目されるリリースです。

Gemini 3 Flashの躍進

6位に入ったGemini 3 Flash Preview（0.8155）は特筆に値するのではないでしょうか。「Flash」は本来、高速・軽量版の位置づけですが、前回のGemini 3 Pro Previewとほぼ同等の0.81台を記録。高速応答と高性能の両立という点で、実用面での価値は非常に高いのではないでしょうか。

3強から群雄割拠となるか

前回は「Anthropic、OpenAI、Googleの3強」という構図でしたが、今回はさらに競争が多極化しています。

TOP4が0.82以上という未曾有の高水準（前回はTOP4が0.80以上）
TOP11が0.80以上（前回は4モデルのみ）
オープンモデルのQwen3.5シリーズが5位、8位、11位にランクインし、商用APIモデルに割って入る

特にTOP11のうち、商用APIが8モデル、オープンモデルが3モデルという構成は、オープンモデルの急速な進化を物語っています。

これだけモデルの選択肢が広がると、今後は「最強モデルを一つ選ぶ」というより、用途や制約に応じて複数モデルを使い分ける設計が現実的になっていくのではないでしょうか。

強力な新顔たち

さて、その他、今回のランキングで登場した注目すべき新顔をいくつか紹介いたします。

Gemini 3.1 Flash Lite Preview（43位、0.7284）: 最軽量版でも0.72台を記録。Googleのモデルラインナップの層の厚さを示す
Qwen3.5シリーズ（5位、8位、11位ほか）: 今回最大のサプライズ。詳細はオープンモデルのセクションで解説します
GLM-5（19位、0.7884）: 前回登場したGLM-4.6-FP8（0.7337）からメジャーバージョンアップ。Zhipu AI（智譜AI）の急成長が続く
Moonshot Kimi-K2.5（24位、0.7785）: 前回のKimi-K2-thinking（0.7332）から大幅にスコアアップ。
MiniMax-M2.1（32位、0.7556）: 前回のMiniMax-M2（0.7126）からの着実な進化
LGAI-EXAONE K-EXAONE-236B-A23B（49位、0.7186）: 韓国LG AI Researchによるオープンモデルが新規参入。韓国発モデルとしては初のランクイン。
NVIDIA Nemotron Nano 9B v2 Japanese（Small、0.7111）: NVIDIAによる日本語特化の小型モデル。9Bパラメータで0.71超えは注目
Baidu ERNIE-4.5-21B-A3B-Thinking（Medium、0.5466）: 中国Baiduの新モデルが初登場

モデルサイズと性能の関係

今回も興味深いのは、軽量モデルの性能向上です。

小型モデルのQwen3.5-4BがSmallカテゴリで0.7352を記録（わずか4Bです！）
Gemini 3 Flashが0.81台を記録し、「Flash = 高速版」の常識を覆す

ベンチマーク結果の解釈について

本レポートで紹介するスコアは、あくまでもベンチマークテストにおける評価結果です。ベンチマークは、LLMの性能を客観的に比較する有用なツールですが、以下の点にご注意ください。

ベンチマークは特定のタスクセットに基づいて評価されるため、そのタスク構成に適したモデルほど高いスコアを獲得する傾向があります
実際の業務での使用感や、特定の用途における有用性は、ベンチマークスコアだけでは完全には測れません
モデルによっては、ベンチマークで測定されていない独自の強みや特徴を持っている場合があります

次は、オープンモデルに限定して実力をみていきましょう。

オープンモデル総合スコアランキング TOP20

順位	モデル名	モデルサイズ	総合スコア
1	Qwen/Qwen3.5-397B-A17B	Large (30B+)	0.8191
2	Qwen/Qwen3.5-122B-A10B	Large (30B+)	0.8094
3	Qwen/Qwen3.5-27B	Medium (10B-30B)	0.8049
4	Qwen/Qwen3.5-35B-A3B	Large (30B+)	0.7895
5	deepseek-ai/DeepSeek-V3.2	Large (30B+)	0.7888
6	zai-org/GLM-5	Large (30B+)	0.7884
7	moonshotai/Kimi-K2.5	Large (30B+)	0.7785
8	Qwen/Qwen3-235B-A22B-Thinking-2507	Large (30B+)	0.7785
9	Qwen/Qwen3-Next-80B-A3B-Thinking	Large (30B+)	0.7563
10	MiniMaxAI/MiniMax-M2.1	Large (30B+)	0.7556
11	Qwen/Qwen3.5-9B	Medium (10B-30B)	0.7485
12	Qwen/Qwen3-VL-32B-Thinking	Large (30B+)	0.7407
13	Qwen/Qwen3.5-4B	Small (<10B)	0.7352
14	Qwen/Qwen3-30B-A3B-Thinking-2507	Large (30B+)	0.7331
15	Qwen/Qwen3-14B	Medium (10–30B)	0.7233
16	LGAI-EXAONE/K-EXAONE-236B-A23B	Large (30B+)	0.7186
17	Qwen/Qwen3-Next-80B-A3B-Instruct	Large (30B+)	0.7130
18	nvidia/NVIDIA-Nemotron-Nano-9B-v2-Japanese	Small (<10B)	0.7111
19	Qwen/Qwen3-32B	Large (30B+)	0.7091
20	Qwen/Qwen3-VL-8B-Thinking	Small (<10B)	0.7021

オープンモデル総合スコアの傾向と考察

オープンモデルに限定したランキングを見ると、冒頭でもふれましたが、
今回は中国発Alibaba社のQwen3.5シリーズの衝撃的な登場が最大のトピックとなります。

長い間、中国発LLMかつオープンLLMの王者だったDeepSeek を抜き去りました

Qwen3.5シリーズ —— オープンモデルとして初の0.80台に到達

Qwen3.5シリーズは、性能帯の異なる"4兄弟"のようなラインナップを形成しています。

Qwen3.5-397B-A17B（0.8191）：オープンモデルとして史上初の0.80超え、しかも0.81台を記録
Qwen3.5-122B-A10B（0.8094）：2番手でも0.80超え
Qwen3.5-27B（0.8049）：27Bの中規模モデルでも0.80超え
Qwen3.5-4B（0.7352）：小型モデルについては後述します

前回首位だったDeepSeek V3.2（Thinking Mode）の0.7905を大きく上回り、オープンモデルのレベルを一段引き上げました。

Qwen3.5シリーズはAlibaba Cloud（阿里雲）が開発するQwenファミリーの最新世代で、MoE（Mixture of Experts）アーキテクチャを採用しています。「397B-A17B」は総パラメータ数397Bのうち、推論時にアクティブになるのは17Bのみという効率的な設計です。これにより、大規模モデル並みの性能を比較的少ない計算資源で実現しています。

Qwen3.5-27Bの結果はとくに注目に値します。

わずか27Bパラメータの中規模モデルで0.80を超えたことは、オープンモデルの「効率革命」を象徴しています。こちらは中規模モデル編でもう少し考察します。

中国発モデルの多様化がさらに加速

前回も中国発モデルの層の厚さに驚かされましたが、今回はさらに顕著です。

Zhipu AI（智譜AI）のGLM-5（6位、0.7884）: 前回のGLM-4.6-FP8（0.7337）から大幅な進化
Moonshot AI のKimi-K2.5（7位、0.7785）: 前回のKimi-K2-thinking（0.7332）から0.045ポイントの向上
MiniMax-M2.1（10位、0.7556）: 前回のM2（0.7126）から着実にスコアを伸ばす

DeepSeek、Qwen、GLM、Kimi、MiniMaxと、5つの異なる中国発AIベンダーがTOP10に名を連ねています。中国AIエコシステムの厚みは、もはや一時的なブームではなく構造的な競争力と言えるでしょう。

新たな国際勢力台頭～韓国発モデル～

今回、中国以外からも注目すべき新勢力が登場しています。

LGAI-EXAONE K-EXAONE-236B-A23B（16位、0.7186）は韓国LG AI Researchによるオープンモデルです。236Bパラメータ（アクティブ23B）のMoEモデルで、韓国発モデルとしてはこのベンチマークで初めてのランクインとなります

日本製オープンモデル

日本発オープンモデルでは、今回新たに東京工業大学（TokyoTech）のSwallowシリーズが複数ランクインしています。

tokyotech-llm/GPT-OSS-Swallow-120B-RL-v0.1（0.6914）: OpenAIのGPT-OSSをベースにした120Bモデル
tokyotech-llm/Qwen3-Swallow-32B-RL-v0.2（0.6782）: Qwen3ベースの32Bモデル
tokyotech-llm/GPT-OSS-Swallow-20B-RL-v0.1（0.6424）: 20Bの中規模モデル
tokyotech-llm/Qwen3-Swallow-8B-RL-v0.2（0.6552）: 8Bの小型モデル

Swallowシリーズは強化学習（RL）を活用したファインチューニングにより、複数のベースモデルから日本語性能を引き出しています。従来のrinna（0.6910）やABEJA（0.6866）に加え、東工大のSwallowが日本語LLMの選択肢をさらに広げています。

さて、次は中規模10B～30B程度のモデルをみてみましょう。

中規模モデルのうれしいところは、個人レベルでも比較的入手しやすいGPUでも実行できるところではないでしょうか。16bitモードや量子化版のモデルをつかえば、16GByte～48GB程度のGPUでも推論を動作させることができ、1台のPCに1台のGPUという構成でも利用しやすい点、とっつきやすいモデルといえます。

中規模モデル（10B-30B）総合スコアランキング

順位	モデル名	モデルサイズ	総合スコア
1	Qwen/Qwen3.5-27B	Medium (10B-30B)	0.8049
2	Qwen/Qwen3.5-9B	Medium (10B-30B)	0.7485
3	Qwen/Qwen3-14B	Medium (10–30B)	0.7233
4	tokyotech-llm/GPT-OSS-Swallow-20B-RL-v0.1	Medium (10B-30B)	0.6424
5	google/gemma-3-27b-it	Medium (10–30B)	0.6285
6	tokyotech-llm/Gemma-2-Llama-Swallow-27b-it-v0.1	Medium (10–30B)	0.6208
7	google/gemma-3-12b-it	Medium (10–30B)	0.5995
8	mistralai/Ministral-3-14B-Reasoning-2512	Medium (10–30B)	0.5608
9	baidu/ERNIE-4.5-21B-A3B-Thinking	Medium (10B-30B)	0.5466
10	google/gemma-3-4b-it	Medium (10–30B)	0.5326

中規模モデル総合スコアの傾向と考察

中規模モデル（10B-30Bパラメータ）のカテゴリでは、もう紹介済ですがQwen 四兄弟の三男Qwen3.5-27Bが0.80超えという歴史的なスコアを記録しました。

Qwen3.5-27B —— 中規模モデルの到達点を一段押し上げる

ここで、Qwen3.5-27Bの位置づけを改めて確認してみましょう。

前回まで中規模モデルの王者はQwen3-14B（0.7233）で、2位のgemma-3-27b（0.6285）との間には約0.10ポイントの大差がありました。

今回のQwen3.5-27B（0.8049）は、そのQwen3-14Bをも0.08ポイント上回り、中規模モデルの到達点を大きく引き上げました。
0.80という数字は、前回の商用APIモデルTOP4に匹敵するレベルです。つまり、約3か月前の最高水準の商用APIモデルと同等の性能が、27Bの中規模オープンモデルで実現されているのです。

2位のQwen3.5-9B（0.7485）も前回のQwen3-14Bを上回っており、9Bパラメータでこの水準に達している点は、注目に値します。

新顔：東工大Swallowと百度ERNIE

4位にtokyotech-llm/GPT-OSS-Swallow-20B-RL-v0.1（0.6424）が新たにランクインしました。OpenAIのオープンモデルGPT-OSSをベースに、東京工業大学が日本語に特化したファインチューニングを施したモデルです。

また、9位にはBaidu（百度）のERNIE-4.5-21B-A3B-Thinking（0.5466）が新規参入しています。中国の検索エンジン大手Baiduが開発するERNIEシリーズは、中国語圏では広く知られていますが、日本語ベンチマークでの登場は今回が初めてです。

さて、最後に小規模モデルもみてみましょう。こうした小型モデルは比較的安価なコンシューマ向けGPUでも動作する点が魅力です。

小規模モデル（10B以下）総合スコアランキング

順位	モデル名	モデルサイズ	総合スコア
1	Qwen/Qwen3.5-4B	Small (<10B)	0.7352
2	nvidia/NVIDIA-Nemotron-Nano-9B-v2-Japanese	Small (<10B)	0.7111
3	Qwen/Qwen3-VL-8B-Thinking	Small (<10B)	0.7021
4	Qwen/Qwen3-4B-Thinking-2507	Small (<10B)	0.6960
5	Qwen/Qwen3-8B	Small (<10B)	0.6900
6	Qwen/Qwen3-VL-4B-Thinking	Small (<10B)	0.6768
7	tokyotech-llm/Qwen3-Swallow-8B-RL-v0.2	Small (<10B)	0.6552
8	tokyotech-llm/Gemma-2-Llama-Swallow-9b-it-v0.1	Small (<10B)	0.5982
9	Qwen/Qwen3-VL-2B-Thinking	Small (<10B)	0.5758
10	tokyotech-llm/Llama-3.1-Swallow-8B-Instruct-v0.5	Small (<10B)	0.5611

小規模モデル総合スコアの傾向と考察

小規模モデル（10B以下のパラメータ）は、エッジデバイスやリソース制約のある環境での利用に適しており、今回も驚くほど高い性能を実現しているモデルが存在します。

Qwen3.5-4B —— 小型モデルの性能水準を塗り替える

さて、小規模モデルでは、Qwen3.5シリーズの最小モデルであるQwen3.5-4B（0.7352）が首位となりました。

わずか4Bパラメータで前回の小型モデル首位Qwen3-8B（0.6891）を大幅に上回りました。

前回のQwen3-14B（Medium、0.7233）をも超えるスコアであり、モデルサイズの常識を覆す結果です。

NVIDIA Nemotron Nano の存在感

2位にNVIDIA Nemotron Nano 9B v2 Japanese（0.7111）が新たにランクインしました。NVIDIAが開発した日本語特化の9Bモデルで、日本語性能を重視したファインチューニングが施されています。NVIDIAはGPUメーカーとしてのイメージが強いですが、LLMモデル自体の開発にも注力していることがうかがえます。

まとめ、本格導入に向けての道しるべ

前回に引き続き今回も、Nejumi Leaderboard 4のベンチマークデータを分析いたしました。本日（2026年3月6日時点）は、前回の分析から約3か月経っておりますが、日本語対応LLMの加速度的な進化を感じていただけたのではないでしょうか。

0.80超え11モデル時代の到来

今回の最大のポイントは、11モデルが総合スコア0.80を突破したことです。前回は4モデル、その前はゼロだったことを考えると、技術進歩のスピードは加速する一方です。

Gemini 3.1 Pro Preview（0.8430）が史上最高スコアで首位
Claude Opus 4.6（0.8394）が僅差で2位に肉薄
オープンモデルのQwen3.5-397B-A17B（0.8191）が初の0.80超え

商用API3強（Google、Anthropic、OpenAI）の競争はますます激化していますが、今回はそこにオープンモデルが本格的に割って入ってきた点が決定的に新しい動きです。

オープンモデルの歴史的躍進

Qwen3.5シリーズが3モデルで0.80を超えたことは、LLM業界の転換点と言えるかもしれません。特にQwen3.5-27Bは、27Bという手の届くサイズで商用API並みの性能を実現しており、オンプレミス環境での高性能LLM運用が現実的になりつつあります。

モデルサイズ別の特徴

カテゴリ	推奨モデル	特徴
大規模 (30B+)	Qwen3.5-397B-A17B, GLM-5, Kimi-K2.5	オープンモデルで商用API級の性能
中規模 (10-30B)	Qwen3.5-27B, Qwen3.5-9B	0.80超えの効率革命
小規模 (<10B)	Qwen3.5-4B, Nemotron Nano 9B	4Bで0.73超え、エッジ対応

LLMの本格導入にむけて：用途別の最適なモデル選択

今回は総合スコアを軸に各モデルの位置づけを見てきましたが、実際の導入判断はそれほど単純ではありません。

ベンチマークは有力な参考情報である一方、実務では精度だけでなく、推論コスト、応答速度、機密データの扱い、既存システムとの接続性、運用体制といった要素も同時に検討する必要があります。

また、業務によって求められる性質は異なります。高精度な推論が求められる場面もあれば、低コストで大量処理したい場面もあり、機密性の観点からオープンモデルを自社環境で動かしたいケースもあります。そのため、「最もスコアの高いモデルを一つ選ぶ」というより、「用途ごとに複数のモデルを適切に使い分けられる状態をどう作るか」が、導入の現場ではより重要になります。

当社では、こうした複数モデル運用の実務に対応する選択肢として、複数のLLMを1つのプラットフォームで利用できる統合AIプラットフォーム Bestllam を提供しています。モデルの選定から、業務フローへの組み込み、AIエージェント活用を前提とした運用設計まで含めてご支援可能です。

また、単なるツール提供にとどまらず、貴社業務のAI化を見据えたBPRコンサルティングもあわせてご提供しており、業務分析からBPR計画策定、成功指標の設計、導入支援まで伴走いたします。

まずはお気軽にご相談くださいませ
https://qualiteg.com/contact?inquiry=consulting