LLM

日本語対応 LLMランキング2025　～ベンチマーク分析レポート～

Qualiteg コンサルティング, Qualiteg プロダクト開発部

2025年10月12日 — 20 min read

はじめに

本レポートは、Nejumi Leaderboard 4のベンチマークデータ(2025/10/11版)に基づいて、日本語対応LLMの性能を総合的に分析したものです。

Nejumi Leaderboard 4は、日本語タスクにおけるLLMの性能を多角的に評価する信頼性の高いベンチマークとして知られています。

本分析では、総合スコアとコーディングスコアの2つの観点から、商用APIモデルとオープンモデルの両方を対象に、それぞれの特徴や傾向を詳しく見ていきます。

オープンソースモデルについて

Weightがオープンなモデルは場合によっては「オープンソースモデル」、「OSSモデル」と呼ばれますが、モデルによっては「オープンソース」と呼ぶには不十分な場合があるため本稿では、「オープンソースモデル」ではなく「オープンモデル」と表現しています。

ベンチマーク分析について

本レポートは、LLM選択の参考情報として、ベンチマークデータから読み取れる傾向や特徴を提示するものです。最終的なモデル選択においては、これらの情報を踏まえつつ、実際の使用環境での検証を行うことをおすすめいたします。

まず 2025/10/11 現在の日本語対応LLMの総合ランキングをみてみましょう。

総合スコアランキング TOP50

順位	モデル名	カテゴリ	総合スコア
1	anthropic/claude-opus-4-1-20250805: extended-thinking	api	0.7992
2	openai/gpt-5-2025-08-07: high-effort	api	0.7970
3	anthropic/claude-sonnet-4-5-20250929: extended-thinking	api	0.7954
4	anthropic/claude-sonnet-4-20250514: extended-thinking	api	0.7918
5	openai/o3-2025-04-16: high-effort	api	0.7876
6	grok-4	api	0.7810
7	anthropic/claude-opus-4-20250514: no-thinking	api	0.7804
8	openai/o1-2024-12-17: high-effort	api	0.7753
9	google/gemini-2.5-pro	api	0.7696
10	openai/o4-mini-2025-04-16	api	0.7610
11	deepseek-ai/DeepSeek-R1-0528: reasoning-enabled	Large (30B+)	0.7432
12	openai/o3-mini-2025-01-31	api	0.7430
13	Qwen/Qwen3-Max-Preview	api	0.7425
14	grok-3-mini	api	0.7370
15	openai/gpt-4-1-2025-04-14	api	0.7261
16	grok-3	api	0.7253
17	Qwen/Qwen3-14B: reasoning-enabled	Medium (10–30B)	0.7233
18	openai/gpt-4o-2024-11-20	api	0.7223
19	Qwen/Qwen3-235B-A22B: reasoning-enabled	Large (30B+)	0.7214
20	anthropic/claude-3.7-sonnet-20250219: no-thinking	api	0.7177
21	openai/gpt-5-nano-2025-08-07: high-effort	api	0.7174
22	Qwen/Qwen3-Next-80B-A3B-Instruct	Large (30B+)	0.7130
23	Qwen/Qwen3-32B: reasoning-enabled	Large (30B+)	0.7083
24	anthropic/claude-3.5-sonnet-20241022	api	0.7058
25	Qwen/Qwen3-30B-A3B: reasoning-enabled	Large (30B+)	0.7035
26	Qwen/QwQ-32B: reasoning-enabled	Large (30B+)	0.7029
27	openai/gpt-oss-120b: reasoning-enabled	Large (30B+)	0.7014
28	openai/gpt-4-1-mini-2025-04-14	api	0.6992
29	google/gemini-2.5-flash	api	0.6969
30	rinna/qwq-bakeneko-32b: reasoning-enabled	Large (30B+)	0.6910
31	Qwen/Qwen3-8B: reasoning-enabled	Small (<10B)	0.6891
32	abeja/ABEJA-Qwen2.5-32b-Japanese-v1.0	Large (30B+)	0.6866
33	anthropic/claude-3.7-sonnet-20250219: extended-thinking	api	0.7734
34	deepseek-ai/DeepSeek-V3-0324	Large (30B+)	0.6760
35	elyza/ELYZA-Shortcut-1.0-Qwen-32B	Large (30B+)	0.6715
36	Qwen/Qwen3-4B: reasoning-enabled	Small (<10B)	0.6612
37	rinna/deepseek-r1-distill-qwen2.5-bakeneko-32b: reasoning-enabled	Large (30B+)	0.6589
38	cyberagent/DeepSeek-R1-Distill-Qwen-32B-Japanese	Large (30B+)	0.6579
39	tokyotech-llm/Llama-3.3-Swallow-70B-Instruct-v0.4	Large (30B+)	0.6523
40	rinna/qwen2.5-bakeneko-32b-instruct-v2	Large (30B+)	0.6485
41	meta-llama/Llama-4-Maverick-17B-128E-Instruct-FP8	Large (30B+)	0.6463
42	anthropic/claude-3.5-haiku-20241022	api	0.6298
43	google/gemma-3-27b-it	Medium (10–30B)	0.6285
44	tokyotech-llm/Gemma-2-Llama-Swallow-27b-it-v0.1	Medium (10–30B)	0.6208
45	mistral/mistral-large-2411	api	0.6196
46	openai/gpt-4-1-nano-2025-04-14	api	0.6157
47	openai/gpt-4o-mini-2024-07-18	api	0.6146
48	pfn/plamo-2.0-prime	api	0.6127
49	meta-llama/Llama-4-Scout-17B-16E-Instruct	Large (30B+)	0.6099
50	meta-llama/Llama-3.3-70B-Instruct	Large (30B+)	0.6080

総合スコアの傾向と考察

2025年の日本語対応LLMベンチマークにおいて、総合スコアの上位陣は商用APIモデルが非常に高い性能を示しています。特にAnthropic、OpenAI、Google、xAIの4社が最先端の技術競争を展開しており、ユーザーにとって優れた選択肢が増えている状況です。

トップ層の特徴

首位のClaude Opus 4.1（extended-thinking）は0.7992という優れたスコアを記録し、僅差でGPT-5、Claude Sonnet 4.5が続いています。これら上位3モデルはいずれも0.795以上のスコアを獲得しており、その性能はほぼ同等と言えるでしょう。

注目すべきは「extended-thinking」機能を持つモデルが上位に多く見られる点で、複雑な推論タスクにおける思考プロセスの可視化が性能向上に寄与していることが分かります。

中堅層の充実

11位にランクインしたDeepSeek-R1-0528は、オープンモデルとして初めてトップ10圏内に迫る0.7432というスコアを記録しました。これは商用APIモデル群に匹敵する性能であり、推論機能を持つOSSモデルの発展を示す象徴的な結果です。またQwenシリーズも13位、17位、19位と複数モデルが上位にランクインし、多様な選択肢が提供されています。

日本製モデルの活躍

日本製のオープンモデル（国内の企業によりトレーニングまたはファインチューニングされたモデルも含む）では、rinnaのqwq-bakeneko-32b（30位）、ABEJA（32位）、ELYZA（35位）が優れた成果を上げています。

モデルサイズと性能の関係

興味深いのは、必ずしも大規模モデルだけが高性能というわけではない点です。10位のo4-miniは「mini」という名称ながら0.7610という高いスコアを記録し、効率性と性能のバランスに優れています。一方で、31位のQwen3-8B（Small）が0.6891を記録するなど、小規模モデルでも適切な学習とアーキテクチャ設計により高い性能を実現できることが示されています。

全体として、2025年のLLM市場は商用大手の技術的進化が続く一方、オープンモデルの着実な成長、特に推論機能を持つモデルの発展が目立つ状況となっています。

ベンチマーク結果の解釈について

本レポートで紹介するスコアは、あくまでもベンチマークテストにおける評価結果です。ベンチマークは、LLMの性能を客観的に比較する有用なツールですが、以下の点にご注意ください。

ベンチマークの特性

ベンチマークは特定のタスクセットに基づいて評価されるため、そのタスク構成に適したモデルほど高いスコアを獲得する傾向があります
実際の業務での使用感や、特定の用途における有用性は、ベンチマークスコアだけでは完全には測れません
モデルによっては、ベンチマークで測定されていない独自の強みや特徴を持っている場合があります

さて、LLMのキラーユースケースといえばコーディングですね。コーディングの観点からランキングをみてみましょう。

コーディングスコアランキング TOP50

順位	モデル名	カテゴリ	コーディングスコア
1	google/gemini-2.5-pro	api	0.6449
2	openai/o4-mini-2025-04-16	api	0.6444
3	anthropic/claude-sonnet-4-5-20250929: extended-thinking	api	0.6409
4	openai/gpt-5-2025-08-07: high-effort	api	0.6377
5	openai/o3-mini-2025-01-31	api	0.6286
6	anthropic/claude-opus-4-1-20250805: extended-thinking	api	0.5997
7	openai/o3-2025-04-16: high-effort	api	0.5976
8	anthropic/claude-3.7-sonnet-20250219: extended-thinking	api	0.5940
9	anthropic/claude-sonnet-4-20250514: extended-thinking	api	0.5911
10	openai/gpt-4-1-2025-04-14	api	0.5817
11	anthropic/claude-sonnet-4-20250514: no-thinking	api	0.5795
12	deepseek-ai/DeepSeek-R1-0528: reasoning-enabled	Large (30B+)	0.5834
13	openai/o1-2024-12-17: high-effort	api	0.5805
14	grok-4	api	0.5771
15	Qwen/Qwen3-Next-80B-A3B-Instruct	Large (30B+)	0.5707
16	Qwen/Qwen3-Max-Preview	api	0.5660
17	openai/gpt-4o-2024-11-20	api	0.5641
18	anthropic/claude-opus-4-20250514: no-thinking	api	0.5594
19	deepseek-ai/DeepSeek-V3-0324	Large (30B+)	0.5396
20	anthropic/claude-3.7-sonnet-20250219: no-thinking	api	0.5362
21	openai/gpt-oss-120b: reasoning-enabled	Large (30B+)	0.5322
22	us.amazon.nova-pro-v1:0	api	0.5313
23	anthropic/claude-3.5-sonnet-20241022	api	0.5278
24	grok-3	api	0.5267
25	Qwen/QwQ-32B: reasoning-enabled	Large (30B+)	0.5240
26	elyza/ELYZA-Shortcut-1.0-Qwen-32B	Large (30B+)	0.5134
27	grok-3-mini	api	0.5049
28	mistral/mistral-large-2411	api	0.5034
29	openai/gpt-4-1-nano-2025-04-14	api	0.5005
30	google/gemini-2.5-flash	api	0.5004
31	Qwen/Qwen3-14B: reasoning-enabled	Medium (10–30B)	0.5001
32	meta-llama/Llama-4-Maverick-17B-128E-Instruct-FP8	Large (30B+)	0.4981
33	rinna/qwq-bakeneko-32b: reasoning-enabled	Large (30B+)	0.4968
34	openai/gpt-4o-mini-2024-07-18	api	0.4886
35	rinna/deepseek-r1-distill-qwen2.5-bakeneko-32b: reasoning-enabled	Large (30B+)	0.4802
36	cyberagent/DeepSeek-R1-Distill-Qwen-32B-Japanese	Large (30B+)	0.4799
37	Qwen/Qwen3-235B-A22B: reasoning-enabled	Large (30B+)	0.4786
38	anthropic/claude-3.5-haiku-20241022	api	0.4782
39	us.amazon.nova-micro-v1:0	api	0.4771
40	Qwen/Qwen3-32B: reasoning-enabled	Large (30B+)	0.4760
41	rinna/qwen2.5-bakeneko-32b-instruct-v2	Large (30B+)	0.4705
42	abeja/ABEJA-Qwen2.5-32b-Japanese-v1.0	Large (30B+)	0.4679
43	us.amazon.nova-lite-v1:0	api	0.4565
44	google/gemma-3-27b-it	Medium (10–30B)	0.4522
45	openai/gpt-5-nano-2025-08-07: high-effort	api	0.4504
46	meta-llama/Llama-3.3-70B-Instruct	Large (30B+)	0.4452
47	Qwen/Qwen3-8B: reasoning-enabled	Small (<10B)	0.4403
48	openai/gpt-4-1-mini-2025-04-14	api	0.5912
49	meta-llama/Llama-4-Scout-17B-16E-Instruct	Large (30B+)	0.4312
50	google/gemini-2.5-flash-lite	api	0.4306

コーディングスコアの傾向と考察

コーディングタスクにおけるLLMの性能評価では、総合スコアとは異なる興味深い傾向が見られます。注目すべきは、Google Gemini 2.5 Proが首位を獲得した点ですね。

トップ層の構成

Gemini 2.5 Pro（0.6449）とo4-mini（0.6444）がトップ2を占め、Claude Sonnet 4.5（3位、0.6409）とGPT-5（4位、0.6377）が続いています。上位4モデルは0.64台という非常に高い水準で接戦を繰り広げており、コード生成における選択肢が充実していることが分かります。特にo4-miniは「mini」という名称でありながら、（ベンチマーク上は）効率的で高品質なコーディング能力を実現している点が印象的です。

オープンモデルの実力

12位のDeepSeek-R1-0528（0.5834）は、オープンモデルとして最高のコーディングスコアを記録しました。これは総合スコア（11位）と同様の順位であり、このモデルがバランスの取れた高性能を持つことを示しています。

15位のQwen3-Next-80B（0.5707）も注目に値します。大規模OSSモデルとして、多くの商用APIモデルと同等以上の性能を発揮しており、企業がプライベート環境で高品質なコード生成システムを構築する選択肢として有力です。

日本製モデルのコーディング性能

日本製モデルのコーディング性能では、ELYZA-Shortcut（26位、0.5134）が最上位となり、0.5を超える優れた結果を残しています。

rinnaのqwq-bakeneko-32b（33位、0.4968）とdeepseek-r1-distill版（35位、0.4802）は0.48-0.49台でしっかりとした実力を示しており、CyberAgentとABEJAのモデル（36位、42位）もコーディングタスクにおいて着実な成果を上げています。

総合スコアとの相関分析

興味深いのは、総合スコアとコーディングスコアで得意分野が異なるモデルが存在する点です。例えば

Gemini 2.5 Proは総合9位ながらコーディングで1位を獲得
o4-miniは総合10位、コーディング2位と両方で優秀
DeepSeek-V3は総合34位ながらコーディングでは19位と健闘

これは、モデルによって得意とする領域が異なることを示しており、用途に応じた適切なモデル選択の重要性を示唆しています。

実務への示唆

コーディング用途でLLMを選択する際は、総合スコアだけでなく、コーディング特化のベンチマークスコアを参考にすることが重要です。Gemini 2.5 ProやClaude Sonnet 4.5、o4-miniなどは、開発作業において特に優れたパフォーマンスを発揮することが期待できます。

また、オープンモデルであるDeepSeek-R1やQwen3-Next-80Bも、セキュリティやプライバシーを重視する開発環境において、商用モデルに匹敵する選択肢となっています。

次は、オープンモデルに限定して実力をみていきましょう

オープンモデル総合スコアランキング TOP20

順位	モデル名	モデルサイズ	総合スコア
1	deepseek-ai/DeepSeek-R1-0528: reasoning-enabled	Large (30B+)	0.7432
2	Qwen/Qwen3-14B: reasoning-enabled	Medium (10–30B)	0.7233
3	Qwen/Qwen3-235B-A22B: reasoning-enabled	Large (30B+)	0.7214
4	Qwen/Qwen3-Next-80B-A3B-Instruct	Large (30B+)	0.7130
5	Qwen/Qwen3-32B: reasoning-enabled	Large (30B+)	0.7083
6	Qwen/Qwen3-30B-A3B: reasoning-enabled	Large (30B+)	0.7035
7	Qwen/QwQ-32B: reasoning-enabled	Large (30B+)	0.7029
8	openai/gpt-oss-120b: reasoning-enabled	Large (30B+)	0.7014
9	rinna/qwq-bakeneko-32b: reasoning-enabled	Large (30B+)	0.6910
10	Qwen/Qwen3-8B: reasoning-enabled	Small (<10B)	0.6891
11	abeja/ABEJA-Qwen2.5-32b-Japanese-v1.0	Large (30B+)	0.6866
12	deepseek-ai/DeepSeek-V3-0324	Large (30B+)	0.6760
13	elyza/ELYZA-Shortcut-1.0-Qwen-32B	Large (30B+)	0.6715
14	Qwen/Qwen3-4B: reasoning-enabled	Small (<10B)	0.6612
15	rinna/deepseek-r1-distill-qwen2.5-bakeneko-32b: reasoning-enabled	Large (30B+)	0.6589
16	cyberagent/DeepSeek-R1-Distill-Qwen-32B-Japanese	Large (30B+)	0.6579
17	tokyotech-llm/Llama-3.3-Swallow-70B-Instruct-v0.4	Large (30B+)	0.6523
18	rinna/qwen2.5-bakeneko-32b-instruct-v2	Large (30B+)	0.6485
19	meta-llama/Llama-4-Maverick-17B-128E-Instruct-FP8	Large (30B+)	0.6463
20	google/gemma-3-27b-it	Medium (10–30B)	0.6285

オープンモデル総合スコアの傾向と考察

オープンモデルに限定したランキングを見ると、推論機能を持つモデルの優位性が明確に表れています。

トップ層の分析

首位のDeepSeek-R1-0528（0.7432）は、全モデル中でも11位という優秀な成績を収めており、オープンモデルの到達点を示す象徴的な存在です。推論機能（reasoning-enabled）を持つことで、複雑なタスクにも対応できる能力を獲得しています。

2位から7位まではQwenシリーズが占めており、Qwen3-14B（0.7233）からQwQ-32B（0.7029）まで、いずれも0.70以上の高スコアを記録しています。Qwenシリーズの充実ぶりは目覚ましく、様々なサイズとバリエーションで高品質なモデルを提供しています。

日本製オープンモデルの躍進

9位のrinna qwq-bakeneko-32b（0.6910）は、日本製オープンモデルとして最高位にランクインしました。推論機能を備えることで、複雑な日本語タスクにも対応できる実力を備えています。

11位のABEJA（0.6866）、13位のELYZA（0.6715）も0.68-0.69台の優れたスコアを獲得しており、日本企業によるLLM開発が着実に成果を上げていることが分かります。

15位、16位にはrinnaとCyberAgentのDeepSeek-R1蒸留版がランクインしており、大規模モデルの知識を効率的に継承する技術の発展も見られます。

モデルサイズの多様性

興味深いのは、小規模モデルでも優れた性能を発揮している点です。10位のQwen3-8B（0.6891、Small）や14位のQwen3-4B（0.6612、Small）は、10B未満のパラメータ数でありながら、多くの大規模モデルを上回る成績を残しています。これは、効率的なアーキテクチャと学習手法の進化を示しています。

推論機能の重要性

上位20モデルのうち、推論機能（reasoning-enabled）を持つモデルが11個を占めており、複雑な推論能力がモデル性能に大きく寄与していることが分かります。この傾向は、今後のオープンLLM開発の方向性を示唆しています。

全体として、オープンLLM市場は、海外勢のQwenとDeepSeekが技術的リードを保つ一方、日本勢も着実に実力を伸ばしており、多様な選択肢が提供される健全な発展を見せています。

次はオープンモデルのコーディングの実力をみてみましょう

オープンモデルコーディングスコアランキング TOP20

順位	モデル名	モデルサイズ	コーディングスコア
1	deepseek-ai/DeepSeek-R1-0528: reasoning-enabled	Large (30B+)	0.5834
2	Qwen/Qwen3-Next-80B-A3B-Instruct	Large (30B+)	0.5707
3	deepseek-ai/DeepSeek-V3-0324	Large (30B+)	0.5396
4	openai/gpt-oss-120b: reasoning-enabled	Large (30B+)	0.5322
5	Qwen/QwQ-32B: reasoning-enabled	Large (30B+)	0.5240
6	elyza/ELYZA-Shortcut-1.0-Qwen-32B	Large (30B+)	0.5134
7	Qwen/Qwen3-14B: reasoning-enabled	Medium (10–30B)	0.5001
8	meta-llama/Llama-4-Maverick-17B-128E-Instruct-FP8	Large (30B+)	0.4981
9	rinna/qwq-bakeneko-32b: reasoning-enabled	Large (30B+)	0.4968
10	rinna/deepseek-r1-distill-qwen2.5-bakeneko-32b: reasoning-enabled	Large (30B+)	0.4802
11	cyberagent/DeepSeek-R1-Distill-Qwen-32B-Japanese	Large (30B+)	0.4799
12	Qwen/Qwen3-235B-A22B: reasoning-enabled	Large (30B+)	0.4786
13	Qwen/Qwen3-32B: reasoning-enabled	Large (30B+)	0.4760
14	rinna/qwen2.5-bakeneko-32b-instruct-v2	Large (30B+)	0.4705
15	abeja/ABEJA-Qwen2.5-32b-Japanese-v1.0	Large (30B+)	0.4679
16	google/gemma-3-27b-it	Medium (10–30B)	0.4522
17	meta-llama/Llama-3.3-70B-Instruct	Large (30B+)	0.4452
18	Qwen/Qwen3-8B: reasoning-enabled	Small (<10B)	0.4403
19	meta-llama/Llama-4-Scout-17B-16E-Instruct	Large (30B+)	0.4312
20	Qwen/Qwen3-30B-A3B: reasoning-enabled	Large (30B+)	0.4155

オープンモデルコーディングスコアの傾向と考察

オープンモデルのコーディング性能に注目すると、DeepSeekとQwenの2つのファミリーが特に優れた成果を上げています。

トップ層の特徴

首位のDeepSeek-R1-0528（0.5834）は、オープンモデルとして際立った性能を示しています。全モデル中でも12位という順位は、商用モデルに匹敵するコード生成能力を持つことを証明しています。

2位のQwen3-Next-80B（0.5707）も優秀で、0.57台という高スコアは多くの商用APIモデルを上回る水準です。

3位のDeepSeek-V3（0.5396）、4位のgpt-oss-120b（0.5322）、5位のQwQ-32B（0.5240）と続き、上位5モデルはすべて0.52以上のスコアを獲得しています。

日本製モデルの実力

6位のELYZA-Shortcut（0.5134）は、日本製オープンモデルとして最高のコーディングスコアを記録しました。0.5を超える唯一の国産OSSモデルとして、開発用途での実用性を示しています。

9位のrinna qwq-bakeneko-32b（0.4968）は0.50に迫るスコアで、推論機能を活かしたコード生成能力を発揮しています。

推論機能とコーディング性能

上位20モデルのうち、推論機能を持つモデルが11個を占めており、コーディングタスクにおいても推論能力が重要であることが分かります。複雑なアルゴリズムやロジックを実装する際に、段階的な思考プロセスが有効に機能していると考えられます。

全体として、オープンモデルのコーディング性能は、商用モデルとの差を着実に縮めており、特にDeepSeekとQwenのモデル群は実務レベルでの利用に十分な能力を備えています。日本製モデルも継続的な改善を重ねており、今後のさらなる発展が期待されます。

さて、次は中規模10B～30B程度のモデルをみてみましょう。

中規模モデルのうれしいところは、個人レベルでも比較的入手しやすいGPUでも実行できるところではないでしょうか。16bitモードや量子化版のモデルをつかえば、 16GByte～48GB 程度のGPUでも推論を動作させることができ、1台のPCに1台のGPUという構成でも利用しやすい点、とっつきやすいモデルといえます。

中規模モデル（10B-30B）総合スコアランキング

順位	モデル名	モデルサイズ	総合スコア
1	Qwen/Qwen3-14B: reasoning-enabled	Medium (10–30B)	0.7233
2	google/gemma-3-27b-it	Medium (10–30B)	0.6285
3	tokyotech-llm/Gemma-2-Llama-Swallow-27b-it-v0.1	Medium (10–30B)	0.6208
4	google/gemma-3-12b-it	Medium (10–30B)	0.5994
5	cyberagent/calm3-22b-chat-selfimprove-experimental	Medium (10–30B)	0.5705
6	google/gemma-3-4b-it	Medium (10–30B)	0.5326

中規模モデル総合スコアの傾向と考察

中規模モデル（10B-30Bパラメータ）のカテゴリでは、限られた計算リソースで効率的に動作しながらも、実用的な性能を実現するモデル群が揃っています。

トップの実力

首位のQwen3-14B（0.7233）は、全体ランキングでも17位に位置する優れたモデルです。推論機能を備えることで、中規模でありながら多くの大規模モデルに匹敵する性能を発揮しています。このスコアは、効率性と性能のバランスが非常に優れていることを示しています。

Googleのgemma-3シリーズ

2位のgemma-3-27b（0.6285）、4位のgemma-3-12b（0.5994）、6位のgemma-3-4b（0.5326）と、Googleのgemma-3シリーズが3つランクインしています。同じアーキテクチャベースで異なるサイズ展開を行うことで、用途に応じた選択肢を提供している点が特徴的です。

日本発の取り組み

3位のTokyo Tech LLM Swallow-27b（0.6208）は、学術機関による中規模モデル開発の成果を示しています。5位のCyberAgent calm3-22b（0.5705）は、企業による実用的なモデル開発の例として注目されます。

中規模モデルは、ローカル環境での実行やコスト効率を重視する用途において、大規模モデルの代替として十分に機能する選択肢となっています。特にQwen3-14Bの高性能は、適切な設計と学習により中規模でも優れた結果が得られることを証明しています。

同様に10B～30Bモデルでのコーディングランキングをみてみましょう

中規模モデル（10B-30B）コーディングスコアランキング

順位	モデル名	モデルサイズ	コーディングスコア
1	Qwen/Qwen3-14B: reasoning-enabled	Medium (10–30B)	0.5001
2	google/gemma-3-27b-it	Medium (10–30B)	0.4522
3	google/gemma-3-12b-it	Medium (10–30B)	0.4176
4	cyberagent/calm3-22b-chat-selfimprove-experimental	Medium (10–30B)	0.3681
5	tokyotech-llm/Gemma-2-Llama-Swallow-27b-it-v0.1	Medium (10–30B)	0.3583
6	google/gemma-3-4b-it	Medium (10–30B)	0.3899

中規模モデルコーディングスコアの傾向と考察

中規模モデルのコーディング性能においても、Qwen3-14Bが圧倒的な強さを見せています。

Qwen3-14Bの優位性

首位のQwen3-14B（0.5001）は、0.5の壁を超える唯一の中規模モデルとして、際立った性能を示しています。推論機能を持つことで、複雑なコーディングタスクにも対応できる能力を獲得しており、中規模モデルでありながら多くの大規模モデルと同等のコード生成品質を実現しています。

その他のモデルの実力

2位のgemma-3-27b（0.4522）は0.45台を記録し、実用的なコーディング支援が可能なレベルに達しています。3位のgemma-3-12b（0.4176）や6位のgemma-3-4b（0.3899）は、より小規模ながら基本的なコード生成タスクには対応できる性能を持っています。

中規模モデルは、特にQwen3-14Bを中心に、限られたリソースで用途によっては使えそうなコーディング支援を実現する選択肢として、今後さらに重要性を増していくと考えられます。

さて、最後小規模モデルもみてみましょう。こうした小型モデルは比較的安価なコンシューマ向けGPUでも動作する点が魅力です

小規模モデル（10B以下）総合スコアランキング

順位	モデル名	モデルサイズ	総合スコア
1	Qwen/Qwen3-8B: reasoning-enabled	Small (<10B)	0.6891
2	Qwen/Qwen3-4B: reasoning-enabled	Small (<10B)	0.6612
3	tokyotech-llm/Gemma-2-Llama-Swallow-9b-it-v0.1	Small (<10B)	0.5982
4	tokyotech-llm/Llama-3.1-Swallow-8B-Instruct-v0.5	Small (<10B)	0.5611
5	Qwen/Qwen3-1.7B: reasoning-enabled	Small (<10B)	0.5513
6	tokyotech-llm/Gemma-2-Llama-Swallow-2b-it-v0.1	Small (<10B)	0.4906
7	Qwen/Qwen3-0.6B: reasoning-enabled	Small (<10B)	0.4089
8	meta-llama/Llama-3.2-3B-Instruct	Small (<10B)	0.4040

小規模モデル総合スコアの傾向と考察

小規模モデル（10B以下のパラメータ）は、エッジデバイスやリソース制約のある環境での利用に適しており、驚くほど高い性能を実現しているモデルも存在します。

Qwenシリーズの卓越性

首位のQwen3-8B（0.6891）は、小規模モデルとして驚異的な性能を示しています。全体ランキングでも31位に位置し、多くの大規模モデルを上回るスコアは、効率的なアーキテクチャ設計と学習手法の成果です。

2位のQwen3-4B（0.6612）も0.66台という優れたスコアを記録しており、わずか4Bのパラメータでこの性能を実現していることは特筆に値します。5位のQwen3-1.7B（0.5513）、7位のQwen3-0.6B（0.4089）と、Qwenは様々なサイズ展開で一貫して高品質なモデルを提供しています。

Tokyo Tech LLMの貢献

3位のSwallow-9b（0.5982）、4位のSwallow-8B（0.5611）、6位のSwallow-2b（0.4906）と、Tokyo Tech LLMのSwallowシリーズが3つランクインしています。

実用性の高さ

上位2モデル（Qwen3-8BとQwen3-4B）は0.66以上のスコアを獲得しており、これは中規模モデルの平均を上回る水準です。スマートフォンやエッジデバイスでの実行が可能な小規模モデルで、このような高性能を実現できることは、AI技術の民主化という観点からも非常に意義深い結果です。

小規模モデルは、クラウド接続が困難なエッジ環境や、コスト削減が求められる場面において、今後ますます重要な選択肢となっていくとおもいます

最後の最後に小規模モデルのコーディング力をはみていきましょう

小規模モデル（10B以下）コーディングスコアランキング

順位	モデル名	モデルサイズ	コーディングスコア
1	Qwen/Qwen3-8B: reasoning-enabled	Small (<10B)	0.4403
2	Qwen/Qwen3-4B: reasoning-enabled	Small (<10B)	0.4135
3	tokyotech-llm/Gemma-2-Llama-Swallow-9b-it-v0.1	Small (<10B)	0.3341
4	tokyotech-llm/Llama-3.1-Swallow-8B-Instruct-v0.5	Small (<10B)	0.3164
5	Qwen/Qwen3-1.7B: reasoning-enabled	Small (<10B)	0.3132
6	tokyotech-llm/Gemma-2-Llama-Swallow-2b-it-v0.1	Small (<10B)	0.2746
7	Qwen/Qwen3-0.6B: reasoning-enabled	Small (<10B)	0.1886
8	meta-llama/Llama-3.2-3B-Instruct	Small (<10B)	0.1350

小規模モデルコーディングスコアの傾向と考察

小規模モデルのコーディング性能において、Qwenシリーズが再び優位性を示しています。

トップ層の実力

首位のQwen3-8B（0.4403）は、小規模モデルとして非常に高いコーディング性能を実現しています。このスコアは、いくつかの大規模モデルを上回る水準であり、8Bという限られたパラメータ数で実用的なコード生成支援が可能であることを示しています。

2位のQwen3-4B（0.4135）も0.41台という優れたスコアを記録し、4Bのモデルサイズでこの性能を実現していることは驚異的です。

用途と限界

小規模モデルのコーディング性能は、大規模モデルと比較すると制約がありますが、シンプルな関数の生成、コードの補完、基本的なアルゴリズムの実装といった用途では使えるかもしれません。特にQwen3-8Bは、ローカル環境でのコーディング支援ツールとして活用できる可能性があります。

効率性の重要性

小規模モデルは、電力消費が少なく、レスポンスが速く、プライバシーを保護できるという利点があります。クラウドAPIに依存しない開発環境を構築したい場合や、教育目的でのコーディング学習支援において、これらの小規模モデルは選択肢となります。

まとめ、本格導入に向けての道しるべ

今回は、Nejumi Leaderboard 4のベンチマークデータから、2025年の日本語対応LLM市場の充実ぶりが明らかになりました。

商用モデルの高水準な競争

Anthropic、OpenAI、xAI、Googleの主要プレイヤーが、0.75-0.80という非常に高いレベルで競争しており、ユーザーにとって多様で優れた選択肢が提供されています。特に「extended-thinking」や「high-effort」といった高度な推論機能を持つモデルが性能をリードしています。

今後の展望

LLM技術は急速に発展を続けており、商用モデルとオープンモデルの両方で継続的な性能向上が期待されます。特に日本語対応モデルの発展は、日本語ユーザーにとってより使いやすく高性能なAIサービスの実現につながるとおもいます。

オープンモデルの躍進

さて、今回特に驚いたのはオープンモデルの躍進ではないでしょうか。

DeepSeek-R1やQwenシリーズに代表されるオープンモデルは、商用モデルに迫る性能を実現しており、セキュリティやカスタマイズ性を重視する用途での選択肢として確立されています。特に推論機能を持つモデルの発展は目覚ましく、複雑なタスクへの対応力を高めています。

モデルサイズ別の特徴

大規模モデル（30B+）: 最高性能を求める用途に最適。DeepSeek-R1やQwen3シリーズが商用モデルに匹敵する性能を実現
中規模モデル（10B-30B）: Qwen3-14Bが0.72という優れたスコアを記録し、効率性と性能のバランスに優れる
小規模モデル（10B以下）: Qwen3-8Bが0.69という驚異的なスコアを獲得。エッジデバイスでの実行が可能でありながら実用的な性能を実現

LLMの本格導入にむけて用途別の最適なモデル選択

さて、これまでみてきたとおり総合スコアとコーディングスコアで異なる順位を示すモデルが多く存在することから、用途に応じた適切なモデル選択が重要です。コーディング用途ではGemini 2.5 ProやClaude Sonnet 4.5、o4-miniなどが特に優れた性能を発揮します。

つまり、用途に応じて最適なモデルを選択することが、LLM活用成功の鍵となります。

しかし、こんな課題はありませんか？

「どのモデルが自社の用途に最適か分からない」
「複数のLLMを契約するのは管理が大変」
「オープンモデルを使いたいが、推論サーバーの構築が難しい」
「機密情報が外部に漏れないか心配」

そんな課題を解決するのが、Bestllam（ベストラム）です。

Bestllamの3つの強み

①複数LLMを一つのプラットフォームで

GPT-4、Claude、Geminiなどの商用モデルに加え、本レポートで紹介したDeepSeek-R1、Qwen3、Llamaなどの高性能オープンモデルまで、10種類以上のLLMを自由に選択可能。複数のLLMに同時に問い合わせて、最適な回答を選ぶこともできます。

契約も一本化されるため、個別に複数のサービスと契約する煩雑さから解放されます。

🔒データを守る、安心のセキュリティ

オープンモデルを活用することで、データを一切海外サーバーに送信しない「越境プロテクションプラン」を実現。公共機関や自治体など、高度な情報管理が求められる環境でも安心してご利用いただけます。

日本国内のデータセンターまたはオンプレミス環境で完全なデータ保護
llm-auditによる入出力監査機能による情報漏洩防止や、
個人情報や機密情報の自動検出・マスキング機能

推論サーバーの構築や運用も不要。Bestllamがすべて管理します。

⚡ 業務効率を劇的に向上

本レポートで上位にランクインしたモデルも利用可能です

用途	推奨モデル（Bestllamで利用可能）
コーディング	Gemini 2.5 Pro、Claude 4.5 Sonnet
総合業務	GPT-5、Claude 4.1 Opus
越境防止	DeepSeek-R1、Qwen3-32B、Llama 4

複数モデルの同時利用により、より正確で信頼性の高い回答を実現します。

こちらから実際に登録なしでつかえるデモ版（機能制限版）ご体験いただけます

↓にて、すぐにデモをご体験可能です

chatstream.net - 最先端LLM体験プラットフォーム

ChatStream は株式会社 Qualiteg が提供する LLM アプリケーション構築ツールキット。高速高負荷対応 LLM サービング、多機能、マルチモーダルチャットUIを備え、ノーコード、ローコードで LLM アプリケーションを構築可能です。

最先端LLM体験プラットフォーム

こんな企業・組織におすすめです

✅ 複数のLLMを効率的に活用したい企業
✅ データの海外流出を防ぎたい公共機関・自治体
✅ 高性能なオープンモデルを簡単に導入したい開発チーム
✅ 従業員のうっかりミスによる情報漏洩を防ぎたい組織
✅ LLM活用の効果を最大化したいすべてのビジネス

まずは詳細をご確認ください

高性能な商用LLMも、最先端のオープンモデルも高度なセキュリティを維持しつつ快適に利用できるBestllamで貴社のAI活用促進をお手伝いいたします！

日本語対応 LLMランキング2025　～ベンチマーク分析レポート～

Qualiteg コンサルティング, Qualiteg プロダクト開発部