日本語対応 LLMランキング2025 ~ベンチマーク分析レポート~

はじめに
本レポートは、Nejumi Leaderboard 4のベンチマークデータ(2025/10/11版)に基づいて、日本語対応LLMの性能を総合的に分析したものです。
Nejumi Leaderboard 4は、日本語タスクにおけるLLMの性能を多角的に評価する信頼性の高いベンチマークとして知られています。
本分析では、総合スコアとコーディングスコアの2つの観点から、商用APIモデルとオープンモデルの両方を対象に、それぞれの特徴や傾向を詳しく見ていきます。
オープンソースモデルについて
Weightがオープンなモデルは場合によっては「オープンソースモデル」、「OSSモデル」と呼ばれますが、モデルによっては「オープンソース」と呼ぶには不十分な場合があるため本稿では、「オープンソースモデル」ではなく「オープンモデル」と表現しています。
ベンチマーク分析について
本レポートは、LLM選択の参考情報として、ベンチマークデータから読み取れる傾向や特徴を提示するものです。最終的なモデル選択においては、これらの情報を踏まえつつ、実際の使用環境での検証を行うことをおすすめいたします。
まず 2025/10/11 現在の日本語対応LLMの総合ランキングをみてみましょう。
総合スコアランキング TOP50
順位 | モデル名 | カテゴリ | 総合スコア |
---|---|---|---|
1 | anthropic/claude-opus-4-1-20250805: extended-thinking | api | 0.7992 |
2 | openai/gpt-5-2025-08-07: high-effort | api | 0.7970 |
3 | anthropic/claude-sonnet-4-5-20250929: extended-thinking | api | 0.7954 |
4 | anthropic/claude-sonnet-4-20250514: extended-thinking | api | 0.7918 |
5 | openai/o3-2025-04-16: high-effort | api | 0.7876 |
6 | grok-4 | api | 0.7810 |
7 | anthropic/claude-opus-4-20250514: no-thinking | api | 0.7804 |
8 | openai/o1-2024-12-17: high-effort | api | 0.7753 |
9 | google/gemini-2.5-pro | api | 0.7696 |
10 | openai/o4-mini-2025-04-16 | api | 0.7610 |
11 | deepseek-ai/DeepSeek-R1-0528: reasoning-enabled | Large (30B+) | 0.7432 |
12 | openai/o3-mini-2025-01-31 | api | 0.7430 |
13 | Qwen/Qwen3-Max-Preview | api | 0.7425 |
14 | grok-3-mini | api | 0.7370 |
15 | openai/gpt-4-1-2025-04-14 | api | 0.7261 |
16 | grok-3 | api | 0.7253 |
17 | Qwen/Qwen3-14B: reasoning-enabled | Medium (10–30B) | 0.7233 |
18 | openai/gpt-4o-2024-11-20 | api | 0.7223 |
19 | Qwen/Qwen3-235B-A22B: reasoning-enabled | Large (30B+) | 0.7214 |
20 | anthropic/claude-3.7-sonnet-20250219: no-thinking | api | 0.7177 |
21 | openai/gpt-5-nano-2025-08-07: high-effort | api | 0.7174 |
22 | Qwen/Qwen3-Next-80B-A3B-Instruct | Large (30B+) | 0.7130 |
23 | Qwen/Qwen3-32B: reasoning-enabled | Large (30B+) | 0.7083 |
24 | anthropic/claude-3.5-sonnet-20241022 | api | 0.7058 |
25 | Qwen/Qwen3-30B-A3B: reasoning-enabled | Large (30B+) | 0.7035 |
26 | Qwen/QwQ-32B: reasoning-enabled | Large (30B+) | 0.7029 |
27 | openai/gpt-oss-120b: reasoning-enabled | Large (30B+) | 0.7014 |
28 | openai/gpt-4-1-mini-2025-04-14 | api | 0.6992 |
29 | google/gemini-2.5-flash | api | 0.6969 |
30 | rinna/qwq-bakeneko-32b: reasoning-enabled | Large (30B+) | 0.6910 |
31 | Qwen/Qwen3-8B: reasoning-enabled | Small (<10B) | 0.6891 |
32 | abeja/ABEJA-Qwen2.5-32b-Japanese-v1.0 | Large (30B+) | 0.6866 |
33 | anthropic/claude-3.7-sonnet-20250219: extended-thinking | api | 0.7734 |
34 | deepseek-ai/DeepSeek-V3-0324 | Large (30B+) | 0.6760 |
35 | elyza/ELYZA-Shortcut-1.0-Qwen-32B | Large (30B+) | 0.6715 |
36 | Qwen/Qwen3-4B: reasoning-enabled | Small (<10B) | 0.6612 |
37 | rinna/deepseek-r1-distill-qwen2.5-bakeneko-32b: reasoning-enabled | Large (30B+) | 0.6589 |
38 | cyberagent/DeepSeek-R1-Distill-Qwen-32B-Japanese | Large (30B+) | 0.6579 |
39 | tokyotech-llm/Llama-3.3-Swallow-70B-Instruct-v0.4 | Large (30B+) | 0.6523 |
40 | rinna/qwen2.5-bakeneko-32b-instruct-v2 | Large (30B+) | 0.6485 |
41 | meta-llama/Llama-4-Maverick-17B-128E-Instruct-FP8 | Large (30B+) | 0.6463 |
42 | anthropic/claude-3.5-haiku-20241022 | api | 0.6298 |
43 | google/gemma-3-27b-it | Medium (10–30B) | 0.6285 |
44 | tokyotech-llm/Gemma-2-Llama-Swallow-27b-it-v0.1 | Medium (10–30B) | 0.6208 |
45 | mistral/mistral-large-2411 | api | 0.6196 |
46 | openai/gpt-4-1-nano-2025-04-14 | api | 0.6157 |
47 | openai/gpt-4o-mini-2024-07-18 | api | 0.6146 |
48 | pfn/plamo-2.0-prime | api | 0.6127 |
49 | meta-llama/Llama-4-Scout-17B-16E-Instruct | Large (30B+) | 0.6099 |
50 | meta-llama/Llama-3.3-70B-Instruct | Large (30B+) | 0.6080 |
総合スコアの傾向と考察
2025年の日本語対応LLMベンチマークにおいて、総合スコアの上位陣は商用APIモデルが非常に高い性能を示しています。特にAnthropic、OpenAI、Google、xAIの4社が最先端の技術競争を展開しており、ユーザーにとって優れた選択肢が増えている状況です。
トップ層の特徴
首位のClaude Opus 4.1(extended-thinking)は0.7992という優れたスコアを記録し、僅差でGPT-5、Claude Sonnet 4.5が続いています。これら上位3モデルはいずれも0.795以上のスコアを獲得しており、その性能はほぼ同等と言えるでしょう。
注目すべきは「extended-thinking」機能を持つモデルが上位に多く見られる点で、複雑な推論タスクにおける思考プロセスの可視化が性能向上に寄与していることが分かります。
中堅層の充実
11位にランクインしたDeepSeek-R1-0528は、オープンモデルとして初めてトップ10圏内に迫る0.7432というスコアを記録しました。これは商用APIモデル群に匹敵する性能であり、推論機能を持つOSSモデルの発展を示す象徴的な結果です。またQwenシリーズも13位、17位、19位と複数モデルが上位にランクインし、多様な選択肢が提供されています。
日本製モデルの活躍
日本製のオープンモデル(国内の企業によりトレーニングまたはファインチューニングされたモデルも含む)では、rinnaのqwq-bakeneko-32b(30位)、ABEJA(32位)、ELYZA(35位)が優れた成果を上げています。
モデルサイズと性能の関係
興味深いのは、必ずしも大規模モデルだけが高性能というわけではない点です。10位のo4-miniは「mini」という名称ながら0.7610という高いスコアを記録し、効率性と性能のバランスに優れています。一方で、31位のQwen3-8B(Small)が0.6891を記録するなど、小規模モデルでも適切な学習とアーキテクチャ設計により高い性能を実現できることが示されています。
全体として、2025年のLLM市場は商用大手の技術的進化が続く一方、オープンモデルの着実な成長、特に推論機能を持つモデルの発展が目立つ状況となっています。
ベンチマーク結果の解釈について
本レポートで紹介するスコアは、あくまでもベンチマークテストにおける評価結果です。ベンチマークは、LLMの性能を客観的に比較する有用なツールですが、以下の点にご注意ください。
ベンチマークの特性
- ベンチマークは特定のタスクセットに基づいて評価されるため、そのタスク構成に適したモデルほど高いスコアを獲得する傾向があります
- 実際の業務での使用感や、特定の用途における有用性は、ベンチマークスコアだけでは完全には測れません
- モデルによっては、ベンチマークで測定されていない独自の強みや特徴を持っている場合があります
さて、LLMのキラーユースケースといえばコーディングですね。コーディングの観点からランキングをみてみましょう。
コーディングスコアランキング TOP50
順位 | モデル名 | カテゴリ | コーディングスコア |
---|---|---|---|
1 | google/gemini-2.5-pro | api | 0.6449 |
2 | openai/o4-mini-2025-04-16 | api | 0.6444 |
3 | anthropic/claude-sonnet-4-5-20250929: extended-thinking | api | 0.6409 |
4 | openai/gpt-5-2025-08-07: high-effort | api | 0.6377 |
5 | openai/o3-mini-2025-01-31 | api | 0.6286 |
6 | anthropic/claude-opus-4-1-20250805: extended-thinking | api | 0.5997 |
7 | openai/o3-2025-04-16: high-effort | api | 0.5976 |
8 | anthropic/claude-3.7-sonnet-20250219: extended-thinking | api | 0.5940 |
9 | anthropic/claude-sonnet-4-20250514: extended-thinking | api | 0.5911 |
10 | openai/gpt-4-1-2025-04-14 | api | 0.5817 |
11 | anthropic/claude-sonnet-4-20250514: no-thinking | api | 0.5795 |
12 | deepseek-ai/DeepSeek-R1-0528: reasoning-enabled | Large (30B+) | 0.5834 |
13 | openai/o1-2024-12-17: high-effort | api | 0.5805 |
14 | grok-4 | api | 0.5771 |
15 | Qwen/Qwen3-Next-80B-A3B-Instruct | Large (30B+) | 0.5707 |
16 | Qwen/Qwen3-Max-Preview | api | 0.5660 |
17 | openai/gpt-4o-2024-11-20 | api | 0.5641 |
18 | anthropic/claude-opus-4-20250514: no-thinking | api | 0.5594 |
19 | deepseek-ai/DeepSeek-V3-0324 | Large (30B+) | 0.5396 |
20 | anthropic/claude-3.7-sonnet-20250219: no-thinking | api | 0.5362 |
21 | openai/gpt-oss-120b: reasoning-enabled | Large (30B+) | 0.5322 |
22 | us.amazon.nova-pro-v1:0 | api | 0.5313 |
23 | anthropic/claude-3.5-sonnet-20241022 | api | 0.5278 |
24 | grok-3 | api | 0.5267 |
25 | Qwen/QwQ-32B: reasoning-enabled | Large (30B+) | 0.5240 |
26 | elyza/ELYZA-Shortcut-1.0-Qwen-32B | Large (30B+) | 0.5134 |
27 | grok-3-mini | api | 0.5049 |
28 | mistral/mistral-large-2411 | api | 0.5034 |
29 | openai/gpt-4-1-nano-2025-04-14 | api | 0.5005 |
30 | google/gemini-2.5-flash | api | 0.5004 |
31 | Qwen/Qwen3-14B: reasoning-enabled | Medium (10–30B) | 0.5001 |
32 | meta-llama/Llama-4-Maverick-17B-128E-Instruct-FP8 | Large (30B+) | 0.4981 |
33 | rinna/qwq-bakeneko-32b: reasoning-enabled | Large (30B+) | 0.4968 |
34 | openai/gpt-4o-mini-2024-07-18 | api | 0.4886 |
35 | rinna/deepseek-r1-distill-qwen2.5-bakeneko-32b: reasoning-enabled | Large (30B+) | 0.4802 |
36 | cyberagent/DeepSeek-R1-Distill-Qwen-32B-Japanese | Large (30B+) | 0.4799 |
37 | Qwen/Qwen3-235B-A22B: reasoning-enabled | Large (30B+) | 0.4786 |
38 | anthropic/claude-3.5-haiku-20241022 | api | 0.4782 |
39 | us.amazon.nova-micro-v1:0 | api | 0.4771 |
40 | Qwen/Qwen3-32B: reasoning-enabled | Large (30B+) | 0.4760 |
41 | rinna/qwen2.5-bakeneko-32b-instruct-v2 | Large (30B+) | 0.4705 |
42 | abeja/ABEJA-Qwen2.5-32b-Japanese-v1.0 | Large (30B+) | 0.4679 |
43 | us.amazon.nova-lite-v1:0 | api | 0.4565 |
44 | google/gemma-3-27b-it | Medium (10–30B) | 0.4522 |
45 | openai/gpt-5-nano-2025-08-07: high-effort | api | 0.4504 |
46 | meta-llama/Llama-3.3-70B-Instruct | Large (30B+) | 0.4452 |
47 | Qwen/Qwen3-8B: reasoning-enabled | Small (<10B) | 0.4403 |
48 | openai/gpt-4-1-mini-2025-04-14 | api | 0.5912 |
49 | meta-llama/Llama-4-Scout-17B-16E-Instruct | Large (30B+) | 0.4312 |
50 | google/gemini-2.5-flash-lite | api | 0.4306 |
コーディングスコアの傾向と考察
コーディングタスクにおけるLLMの性能評価では、総合スコアとは異なる興味深い傾向が見られます。注目すべきは、Google Gemini 2.5 Proが首位を獲得した点ですね。
トップ層の構成
Gemini 2.5 Pro(0.6449)とo4-mini(0.6444)がトップ2を占め、Claude Sonnet 4.5(3位、0.6409)とGPT-5(4位、0.6377)が続いています。上位4モデルは0.64台という非常に高い水準で接戦を繰り広げており、コード生成における選択肢が充実していることが分かります。特にo4-miniは「mini」という名称でありながら、(ベンチマーク上は)効率的で高品質なコーディング能力を実現している点が印象的です。
オープンモデルの実力
12位のDeepSeek-R1-0528(0.5834)は、オープンモデルとして最高のコーディングスコアを記録しました。これは総合スコア(11位)と同様の順位であり、このモデルがバランスの取れた高性能を持つことを示しています。
15位のQwen3-Next-80B(0.5707)も注目に値します。大規模OSSモデルとして、多くの商用APIモデルと同等以上の性能を発揮しており、企業がプライベート環境で高品質なコード生成システムを構築する選択肢として有力です。
日本製モデルのコーディング性能
日本製モデルのコーディング性能では、ELYZA-Shortcut(26位、0.5134)が最上位となり、0.5を超える優れた結果を残しています。
rinnaのqwq-bakeneko-32b(33位、0.4968)とdeepseek-r1-distill版(35位、0.4802)は0.48-0.49台でしっかりとした実力を示しており、CyberAgentとABEJAのモデル(36位、42位)もコーディングタスクにおいて着実な成果を上げています。
総合スコアとの相関分析
興味深いのは、総合スコアとコーディングスコアで得意分野が異なるモデルが存在する点です。例えば
- Gemini 2.5 Proは総合9位ながらコーディングで1位を獲得
- o4-miniは総合10位、コーディング2位と両方で優秀
- DeepSeek-V3は総合34位ながらコーディングでは19位と健闘
これは、モデルによって得意とする領域が異なることを示しており、用途に応じた適切なモデル選択の重要性を示唆しています。
実務への示唆
コーディング用途でLLMを選択する際は、総合スコアだけでなく、コーディング特化のベンチマークスコアを参考にすることが重要です。Gemini 2.5 ProやClaude Sonnet 4.5、o4-miniなどは、開発作業において特に優れたパフォーマンスを発揮することが期待できます。
また、オープンモデルであるDeepSeek-R1やQwen3-Next-80Bも、セキュリティやプライバシーを重視する開発環境において、商用モデルに匹敵する選択肢となっています。
次は、オープンモデルに限定して実力をみていきましょう
オープンモデル 総合スコアランキング TOP20
順位 | モデル名 | モデルサイズ | 総合スコア |
---|---|---|---|
1 | deepseek-ai/DeepSeek-R1-0528: reasoning-enabled | Large (30B+) | 0.7432 |
2 | Qwen/Qwen3-14B: reasoning-enabled | Medium (10–30B) | 0.7233 |
3 | Qwen/Qwen3-235B-A22B: reasoning-enabled | Large (30B+) | 0.7214 |
4 | Qwen/Qwen3-Next-80B-A3B-Instruct | Large (30B+) | 0.7130 |
5 | Qwen/Qwen3-32B: reasoning-enabled | Large (30B+) | 0.7083 |
6 | Qwen/Qwen3-30B-A3B: reasoning-enabled | Large (30B+) | 0.7035 |
7 | Qwen/QwQ-32B: reasoning-enabled | Large (30B+) | 0.7029 |
8 | openai/gpt-oss-120b: reasoning-enabled | Large (30B+) | 0.7014 |
9 | rinna/qwq-bakeneko-32b: reasoning-enabled | Large (30B+) | 0.6910 |
10 | Qwen/Qwen3-8B: reasoning-enabled | Small (<10B) | 0.6891 |
11 | abeja/ABEJA-Qwen2.5-32b-Japanese-v1.0 | Large (30B+) | 0.6866 |
12 | deepseek-ai/DeepSeek-V3-0324 | Large (30B+) | 0.6760 |
13 | elyza/ELYZA-Shortcut-1.0-Qwen-32B | Large (30B+) | 0.6715 |
14 | Qwen/Qwen3-4B: reasoning-enabled | Small (<10B) | 0.6612 |
15 | rinna/deepseek-r1-distill-qwen2.5-bakeneko-32b: reasoning-enabled | Large (30B+) | 0.6589 |
16 | cyberagent/DeepSeek-R1-Distill-Qwen-32B-Japanese | Large (30B+) | 0.6579 |
17 | tokyotech-llm/Llama-3.3-Swallow-70B-Instruct-v0.4 | Large (30B+) | 0.6523 |
18 | rinna/qwen2.5-bakeneko-32b-instruct-v2 | Large (30B+) | 0.6485 |
19 | meta-llama/Llama-4-Maverick-17B-128E-Instruct-FP8 | Large (30B+) | 0.6463 |
20 | google/gemma-3-27b-it | Medium (10–30B) | 0.6285 |
オープンモデル総合スコアの傾向と考察
オープンモデルに限定したランキングを見ると、推論機能を持つモデルの優位性が明確に表れています。
トップ層の分析
首位のDeepSeek-R1-0528(0.7432)は、全モデル中でも11位という優秀な成績を収めており、オープンモデルの到達点を示す象徴的な存在です。推論機能(reasoning-enabled)を持つことで、複雑なタスクにも対応できる能力を獲得しています。
2位から7位まではQwenシリーズが占めており、Qwen3-14B(0.7233)からQwQ-32B(0.7029)まで、いずれも0.70以上の高スコアを記録しています。Qwenシリーズの充実ぶりは目覚ましく、様々なサイズとバリエーションで高品質なモデルを提供しています。
日本製オープンモデルの躍進
9位のrinna qwq-bakeneko-32b(0.6910)は、日本製オープンモデルとして最高位にランクインしました。推論機能を備えることで、複雑な日本語タスクにも対応できる実力を備えています。
11位のABEJA(0.6866)、13位のELYZA(0.6715)も0.68-0.69台の優れたスコアを獲得しており、日本企業によるLLM開発が着実に成果を上げていることが分かります。
15位、16位にはrinnaとCyberAgentのDeepSeek-R1蒸留版がランクインしており、大規模モデルの知識を効率的に継承する技術の発展も見られます。
モデルサイズの多様性
興味深いのは、小規模モデルでも優れた性能を発揮している点です。10位のQwen3-8B(0.6891、Small)や14位のQwen3-4B(0.6612、Small)は、10B未満のパラメータ数でありながら、多くの大規模モデルを上回る成績を残しています。これは、効率的なアーキテクチャと学習手法の進化を示しています。
推論機能の重要性
上位20モデルのうち、推論機能(reasoning-enabled)を持つモデルが11個を占めており、複雑な推論能力がモデル性能に大きく寄与していることが分かります。この傾向は、今後のオープンLLM開発の方向性を示唆しています。
全体として、オープンLLM市場は、海外勢のQwenとDeepSeekが技術的リードを保つ一方、日本勢も着実に実力を伸ばしており、多様な選択肢が提供される健全な発展を見せています。
次はオープンモデルのコーディングの実力をみてみましょう
オープンモデル コーディングスコアランキング TOP20
順位 | モデル名 | モデルサイズ | コーディングスコア |
---|---|---|---|
1 | deepseek-ai/DeepSeek-R1-0528: reasoning-enabled | Large (30B+) | 0.5834 |
2 | Qwen/Qwen3-Next-80B-A3B-Instruct | Large (30B+) | 0.5707 |
3 | deepseek-ai/DeepSeek-V3-0324 | Large (30B+) | 0.5396 |
4 | openai/gpt-oss-120b: reasoning-enabled | Large (30B+) | 0.5322 |
5 | Qwen/QwQ-32B: reasoning-enabled | Large (30B+) | 0.5240 |
6 | elyza/ELYZA-Shortcut-1.0-Qwen-32B | Large (30B+) | 0.5134 |
7 | Qwen/Qwen3-14B: reasoning-enabled | Medium (10–30B) | 0.5001 |
8 | meta-llama/Llama-4-Maverick-17B-128E-Instruct-FP8 | Large (30B+) | 0.4981 |
9 | rinna/qwq-bakeneko-32b: reasoning-enabled | Large (30B+) | 0.4968 |
10 | rinna/deepseek-r1-distill-qwen2.5-bakeneko-32b: reasoning-enabled | Large (30B+) | 0.4802 |
11 | cyberagent/DeepSeek-R1-Distill-Qwen-32B-Japanese | Large (30B+) | 0.4799 |
12 | Qwen/Qwen3-235B-A22B: reasoning-enabled | Large (30B+) | 0.4786 |
13 | Qwen/Qwen3-32B: reasoning-enabled | Large (30B+) | 0.4760 |
14 | rinna/qwen2.5-bakeneko-32b-instruct-v2 | Large (30B+) | 0.4705 |
15 | abeja/ABEJA-Qwen2.5-32b-Japanese-v1.0 | Large (30B+) | 0.4679 |
16 | google/gemma-3-27b-it | Medium (10–30B) | 0.4522 |
17 | meta-llama/Llama-3.3-70B-Instruct | Large (30B+) | 0.4452 |
18 | Qwen/Qwen3-8B: reasoning-enabled | Small (<10B) | 0.4403 |
19 | meta-llama/Llama-4-Scout-17B-16E-Instruct | Large (30B+) | 0.4312 |
20 | Qwen/Qwen3-30B-A3B: reasoning-enabled | Large (30B+) | 0.4155 |
オープンモデルコーディングスコアの傾向と考察
オープンモデルのコーディング性能に注目すると、DeepSeekとQwenの2つのファミリーが特に優れた成果を上げています。
トップ層の特徴
首位のDeepSeek-R1-0528(0.5834)は、オープンモデルとして際立った性能を示しています。全モデル中でも12位という順位は、商用モデルに匹敵するコード生成能力を持つことを証明しています。
2位のQwen3-Next-80B(0.5707)も優秀で、0.57台という高スコアは多くの商用APIモデルを上回る水準です。
3位のDeepSeek-V3(0.5396)、4位のgpt-oss-120b(0.5322)、5位のQwQ-32B(0.5240)と続き、上位5モデルはすべて0.52以上のスコアを獲得しています。
日本製モデルの実力
6位のELYZA-Shortcut(0.5134)は、日本製オープンモデルとして最高のコーディングスコアを記録しました。0.5を超える唯一の国産OSSモデルとして、開発用途での実用性を示しています。
9位のrinna qwq-bakeneko-32b(0.4968)は0.50に迫るスコアで、推論機能を活かしたコード生成能力を発揮しています。
推論機能とコーディング性能
上位20モデルのうち、推論機能を持つモデルが11個を占めており、コーディングタスクにおいても推論能力が重要であることが分かります。複雑なアルゴリズムやロジックを実装する際に、段階的な思考プロセスが有効に機能していると考えられます。
全体として、オープンモデルのコーディング性能は、商用モデルとの差を着実に縮めており、特にDeepSeekとQwenのモデル群は実務レベルでの利用に十分な能力を備えています。日本製モデルも継続的な改善を重ねており、今後のさらなる発展が期待されます。
さて、次は中規模10B~30B程度のモデルをみてみましょう。
中規模モデルのうれしいところは、個人レベルでも比較的入手しやすいGPUでも実行できるところではないでしょうか。16bitモードや量子化版のモデルをつかえば、 16GByte~48GB 程度のGPUでも推論を動作させることができ、1台のPCに1台のGPUという構成でも利用しやすい点、とっつきやすいモデルといえます。
中規模モデル(10B-30B)総合スコアランキング
順位 | モデル名 | モデルサイズ | 総合スコア |
---|---|---|---|
1 | Qwen/Qwen3-14B: reasoning-enabled | Medium (10–30B) | 0.7233 |
2 | google/gemma-3-27b-it | Medium (10–30B) | 0.6285 |
3 | tokyotech-llm/Gemma-2-Llama-Swallow-27b-it-v0.1 | Medium (10–30B) | 0.6208 |
4 | google/gemma-3-12b-it | Medium (10–30B) | 0.5994 |
5 | cyberagent/calm3-22b-chat-selfimprove-experimental | Medium (10–30B) | 0.5705 |
6 | google/gemma-3-4b-it | Medium (10–30B) | 0.5326 |
中規模モデル総合スコアの傾向と考察
中規模モデル(10B-30Bパラメータ)のカテゴリでは、限られた計算リソースで効率的に動作しながらも、実用的な性能を実現するモデル群が揃っています。
トップの実力
首位のQwen3-14B(0.7233)は、全体ランキングでも17位に位置する優れたモデルです。推論機能を備えることで、中規模でありながら多くの大規模モデルに匹敵する性能を発揮しています。このスコアは、効率性と性能のバランスが非常に優れていることを示しています。
Googleのgemma-3シリーズ
2位のgemma-3-27b(0.6285)、4位のgemma-3-12b(0.5994)、6位のgemma-3-4b(0.5326)と、Googleのgemma-3シリーズが3つランクインしています。同じアーキテクチャベースで異なるサイズ展開を行うことで、用途に応じた選択肢を提供している点が特徴的です。
日本発の取り組み
3位のTokyo Tech LLM Swallow-27b(0.6208)は、学術機関による中規模モデル開発の成果を示しています。5位のCyberAgent calm3-22b(0.5705)は、企業による実用的なモデル開発の例として注目されます。
中規模モデルは、ローカル環境での実行やコスト効率を重視する用途において、大規模モデルの代替として十分に機能する選択肢となっています。特にQwen3-14Bの高性能は、適切な設計と学習により中規模でも優れた結果が得られることを証明しています。
同様に10B~30Bモデルでのコーディングランキングをみてみましょう
中規模モデル(10B-30B)コーディングスコアランキング
順位 | モデル名 | モデルサイズ | コーディングスコア |
---|---|---|---|
1 | Qwen/Qwen3-14B: reasoning-enabled | Medium (10–30B) | 0.5001 |
2 | google/gemma-3-27b-it | Medium (10–30B) | 0.4522 |
3 | google/gemma-3-12b-it | Medium (10–30B) | 0.4176 |
4 | cyberagent/calm3-22b-chat-selfimprove-experimental | Medium (10–30B) | 0.3681 |
5 | tokyotech-llm/Gemma-2-Llama-Swallow-27b-it-v0.1 | Medium (10–30B) | 0.3583 |
6 | google/gemma-3-4b-it | Medium (10–30B) | 0.3899 |
中規模モデルコーディングスコアの傾向と考察
中規模モデルのコーディング性能においても、Qwen3-14Bが圧倒的な強さを見せています。
Qwen3-14Bの優位性
首位のQwen3-14B(0.5001)は、0.5の壁を超える唯一の中規模モデルとして、際立った性能を示しています。推論機能を持つことで、複雑なコーディングタスクにも対応できる能力を獲得しており、中規模モデルでありながら多くの大規模モデルと同等のコード生成品質を実現しています。
その他のモデルの実力
2位のgemma-3-27b(0.4522)は0.45台を記録し、実用的なコーディング支援が可能なレベルに達しています。3位のgemma-3-12b(0.4176)や6位のgemma-3-4b(0.3899)は、より小規模ながら基本的なコード生成タスクには対応できる性能を持っています。
中規模モデルは、特にQwen3-14Bを中心に、限られたリソースで用途によっては使えそうなコーディング支援を実現する選択肢として、今後さらに重要性を増していくと考えられます。
さて、最後小規模モデルもみてみましょう。こうした小型モデルは比較的安価なコンシューマ向けGPUでも動作する点が魅力です
小規模モデル(10B以下)総合スコアランキング
順位 | モデル名 | モデルサイズ | 総合スコア |
---|---|---|---|
1 | Qwen/Qwen3-8B: reasoning-enabled | Small (<10B) | 0.6891 |
2 | Qwen/Qwen3-4B: reasoning-enabled | Small (<10B) | 0.6612 |
3 | tokyotech-llm/Gemma-2-Llama-Swallow-9b-it-v0.1 | Small (<10B) | 0.5982 |
4 | tokyotech-llm/Llama-3.1-Swallow-8B-Instruct-v0.5 | Small (<10B) | 0.5611 |
5 | Qwen/Qwen3-1.7B: reasoning-enabled | Small (<10B) | 0.5513 |
6 | tokyotech-llm/Gemma-2-Llama-Swallow-2b-it-v0.1 | Small (<10B) | 0.4906 |
7 | Qwen/Qwen3-0.6B: reasoning-enabled | Small (<10B) | 0.4089 |
8 | meta-llama/Llama-3.2-3B-Instruct | Small (<10B) | 0.4040 |
小規模モデル総合スコアの傾向と考察
小規模モデル(10B以下のパラメータ)は、エッジデバイスやリソース制約のある環境での利用に適しており、驚くほど高い性能を実現しているモデルも存在します。
Qwenシリーズの卓越性
首位のQwen3-8B(0.6891)は、小規模モデルとして驚異的な性能を示しています。全体ランキングでも31位に位置し、多くの大規模モデルを上回るスコアは、効率的なアーキテクチャ設計と学習手法の成果です。
2位のQwen3-4B(0.6612)も0.66台という優れたスコアを記録しており、わずか4Bのパラメータでこの性能を実現していることは特筆に値します。5位のQwen3-1.7B(0.5513)、7位のQwen3-0.6B(0.4089)と、Qwenは様々なサイズ展開で一貫して高品質なモデルを提供しています。
Tokyo Tech LLMの貢献
3位のSwallow-9b(0.5982)、4位のSwallow-8B(0.5611)、6位のSwallow-2b(0.4906)と、Tokyo Tech LLMのSwallowシリーズが3つランクインしています。
実用性の高さ
上位2モデル(Qwen3-8BとQwen3-4B)は0.66以上のスコアを獲得しており、これは中規模モデルの平均を上回る水準です。スマートフォンやエッジデバイスでの実行が可能な小規模モデルで、このような高性能を実現できることは、AI技術の民主化という観点からも非常に意義深い結果です。
小規模モデルは、クラウド接続が困難なエッジ環境や、コスト削減が求められる場面において、今後ますます重要な選択肢となっていくとおもいます
最後の最後に小規模モデルのコーディング力をはみていきましょう
小規模モデル(10B以下)コーディングスコアランキング
順位 | モデル名 | モデルサイズ | コーディングスコア |
---|---|---|---|
1 | Qwen/Qwen3-8B: reasoning-enabled | Small (<10B) | 0.4403 |
2 | Qwen/Qwen3-4B: reasoning-enabled | Small (<10B) | 0.4135 |
3 | tokyotech-llm/Gemma-2-Llama-Swallow-9b-it-v0.1 | Small (<10B) | 0.3341 |
4 | tokyotech-llm/Llama-3.1-Swallow-8B-Instruct-v0.5 | Small (<10B) | 0.3164 |
5 | Qwen/Qwen3-1.7B: reasoning-enabled | Small (<10B) | 0.3132 |
6 | tokyotech-llm/Gemma-2-Llama-Swallow-2b-it-v0.1 | Small (<10B) | 0.2746 |
7 | Qwen/Qwen3-0.6B: reasoning-enabled | Small (<10B) | 0.1886 |
8 | meta-llama/Llama-3.2-3B-Instruct | Small (<10B) | 0.1350 |
小規模モデルコーディングスコアの傾向と考察
小規模モデルのコーディング性能において、Qwenシリーズが再び優位性を示しています。
トップ層の実力
首位のQwen3-8B(0.4403)は、小規模モデルとして非常に高いコーディング性能を実現しています。このスコアは、いくつかの大規模モデルを上回る水準であり、8Bという限られたパラメータ数で実用的なコード生成支援が可能であることを示しています。
2位のQwen3-4B(0.4135)も0.41台という優れたスコアを記録し、4Bのモデルサイズでこの性能を実現していることは驚異的です。
用途と限界
小規模モデルのコーディング性能は、大規模モデルと比較すると制約がありますが、シンプルな関数の生成、コードの補完、基本的なアルゴリズムの実装といった用途では使えるかもしれません。特にQwen3-8Bは、ローカル環境でのコーディング支援ツールとして活用できる可能性があります。
効率性の重要性
小規模モデルは、電力消費が少なく、レスポンスが速く、プライバシーを保護できるという利点があります。クラウドAPIに依存しない開発環境を構築したい場合や、教育目的でのコーディング学習支援において、これらの小規模モデルは選択肢となります。
まとめ、本格導入に向けての道しるべ
今回は、Nejumi Leaderboard 4のベンチマークデータから、2025年の日本語対応LLM市場の充実ぶりが明らかになりました。
商用モデルの高水準な競争
Anthropic、OpenAI、xAI、Googleの主要プレイヤーが、0.75-0.80という非常に高いレベルで競争しており、ユーザーにとって多様で優れた選択肢が提供されています。特に「extended-thinking」や「high-effort」といった高度な推論機能を持つモデルが性能をリードしています。
今後の展望
LLM技術は急速に発展を続けており、商用モデルとオープンモデルの両方で継続的な性能向上が期待されます。特に日本語対応モデルの発展は、日本語ユーザーにとってより使いやすく高性能なAIサービスの実現につながるとおもいます。
オープンモデルの躍進
さて、今回特に驚いたのはオープンモデルの躍進ではないでしょうか。
DeepSeek-R1やQwenシリーズに代表されるオープンモデルは、商用モデルに迫る性能を実現しており、セキュリティやカスタマイズ性を重視する用途での選択肢として確立されています。特に推論機能を持つモデルの発展は目覚ましく、複雑なタスクへの対応力を高めています。
モデルサイズ別の特徴
- 大規模モデル(30B+): 最高性能を求める用途に最適。DeepSeek-R1やQwen3シリーズが商用モデルに匹敵する性能を実現
- 中規模モデル(10B-30B): Qwen3-14Bが0.72という優れたスコアを記録し、効率性と性能のバランスに優れる
- 小規模モデル(10B以下): Qwen3-8Bが0.69という驚異的なスコアを獲得。エッジデバイスでの実行が可能でありながら実用的な性能を実現
LLMの本格導入にむけて用途別の最適なモデル選択
さて、これまでみてきたとおり総合スコアとコーディングスコアで異なる順位を示すモデルが多く存在することから、用途に応じた適切なモデル選択が重要です。コーディング用途ではGemini 2.5 ProやClaude Sonnet 4.5、o4-miniなどが特に優れた性能を発揮します。
つまり、用途に応じて最適なモデルを選択することが、LLM活用成功の鍵となります。
しかし、こんな課題はありませんか?
- 「どのモデルが自社の用途に最適か分からない」
- 「複数のLLMを契約するのは管理が大変」
- 「オープンモデルを使いたいが、推論サーバーの構築が難しい」
- 「機密情報が外部に漏れないか心配」
そんな課題を解決するのが、Bestllam(ベストラム)です。
Bestllamの3つの強み
①複数LLMを一つのプラットフォームで
GPT-4、Claude、Geminiなどの商用モデルに加え、本レポートで紹介したDeepSeek-R1、Qwen3、Llamaなどの高性能オープンモデルまで、10種類以上のLLMを自由に選択可能。複数のLLMに同時に問い合わせて、最適な回答を選ぶこともできます。
契約も一本化されるため、個別に複数のサービスと契約する煩雑さから解放されます。
🔒データを守る、安心のセキュリティ
オープンモデルを活用することで、データを一切海外サーバーに送信しない「越境プロテクションプラン」を実現。公共機関や自治体など、高度な情報管理が求められる環境でも安心してご利用いただけます。
- 日本国内のデータセンターまたはオンプレミス環境で完全なデータ保護
- llm-auditによる入出力監査機能による情報漏洩防止や、
- 個人情報や機密情報の自動検出・マスキング機能
推論サーバーの構築や運用も不要。Bestllamがすべて管理します。
⚡ 業務効率を劇的に向上
本レポートで上位にランクインしたモデルも利用可能です
用途 | 推奨モデル(Bestllamで利用可能) |
---|---|
コーディング | Gemini 2.5 Pro、Claude 4.5 Sonnet |
総合業務 | GPT-5、Claude 4.1 Opus |
越境防止 | DeepSeek-R1、Qwen3-32B、Llama 4 |
複数モデルの同時利用により、より正確で信頼性の高い回答を実現します。
こちらから実際に登録なしでつかえるデモ版(機能制限版)ご体験いただけます
↓にて、すぐにデモをご体験可能です
こんな企業・組織におすすめです
✅ 複数のLLMを効率的に活用したい企業
✅ データの海外流出を防ぎたい公共機関・自治体
✅ 高性能なオープンモデルを簡単に導入したい開発チーム
✅ 従業員のうっかりミスによる情報漏洩を防ぎたい組織
✅ LLM活用の効果を最大化したいすべてのビジネス
まずは詳細をご確認ください
高性能な商用LLMも、最先端のオープンモデルも高度なセキュリティを維持しつつ快適に利用できるBestllamで貴社のAI活用促進をお手伝いいたします!
