日本語対応 LLMランキング2025 ~ベンチマーク分析レポート~

日本語対応 LLMランキング2025 ~ベンチマーク分析レポート~

はじめに

本レポートは、Nejumi Leaderboard 4のベンチマークデータ(2025/10/11版)に基づいて、日本語対応LLMの性能を総合的に分析したものです。

Nejumi Leaderboard 4は、日本語タスクにおけるLLMの性能を多角的に評価する信頼性の高いベンチマークとして知られています。

本分析では、総合スコアとコーディングスコアの2つの観点から、商用APIモデルとオープンモデルの両方を対象に、それぞれの特徴や傾向を詳しく見ていきます。

オープンソースモデルについて

Weightがオープンなモデルは場合によっては「オープンソースモデル」、「OSSモデル」と呼ばれますが、モデルによっては「オープンソース」と呼ぶには不十分な場合があるため本稿では、「オープンソースモデル」ではなく「オープンモデル」と表現しています。

ベンチマーク分析について

本レポートは、LLM選択の参考情報として、ベンチマークデータから読み取れる傾向や特徴を提示するものです。最終的なモデル選択においては、これらの情報を踏まえつつ、実際の使用環境での検証を行うことをおすすめいたします。


まず 2025/10/11 現在の日本語対応LLMの総合ランキングをみてみましょう。

総合スコアランキング TOP50

順位 モデル名 カテゴリ 総合スコア
1 anthropic/claude-opus-4-1-20250805: extended-thinking api 0.7992
2 openai/gpt-5-2025-08-07: high-effort api 0.7970
3 anthropic/claude-sonnet-4-5-20250929: extended-thinking api 0.7954
4 anthropic/claude-sonnet-4-20250514: extended-thinking api 0.7918
5 openai/o3-2025-04-16: high-effort api 0.7876
6 grok-4 api 0.7810
7 anthropic/claude-opus-4-20250514: no-thinking api 0.7804
8 openai/o1-2024-12-17: high-effort api 0.7753
9 google/gemini-2.5-pro api 0.7696
10 openai/o4-mini-2025-04-16 api 0.7610
11 deepseek-ai/DeepSeek-R1-0528: reasoning-enabled Large (30B+) 0.7432
12 openai/o3-mini-2025-01-31 api 0.7430
13 Qwen/Qwen3-Max-Preview api 0.7425
14 grok-3-mini api 0.7370
15 openai/gpt-4-1-2025-04-14 api 0.7261
16 grok-3 api 0.7253
17 Qwen/Qwen3-14B: reasoning-enabled Medium (10–30B) 0.7233
18 openai/gpt-4o-2024-11-20 api 0.7223
19 Qwen/Qwen3-235B-A22B: reasoning-enabled Large (30B+) 0.7214
20 anthropic/claude-3.7-sonnet-20250219: no-thinking api 0.7177
21 openai/gpt-5-nano-2025-08-07: high-effort api 0.7174
22 Qwen/Qwen3-Next-80B-A3B-Instruct Large (30B+) 0.7130
23 Qwen/Qwen3-32B: reasoning-enabled Large (30B+) 0.7083
24 anthropic/claude-3.5-sonnet-20241022 api 0.7058
25 Qwen/Qwen3-30B-A3B: reasoning-enabled Large (30B+) 0.7035
26 Qwen/QwQ-32B: reasoning-enabled Large (30B+) 0.7029
27 openai/gpt-oss-120b: reasoning-enabled Large (30B+) 0.7014
28 openai/gpt-4-1-mini-2025-04-14 api 0.6992
29 google/gemini-2.5-flash api 0.6969
30 rinna/qwq-bakeneko-32b: reasoning-enabled Large (30B+) 0.6910
31 Qwen/Qwen3-8B: reasoning-enabled Small (<10B) 0.6891
32 abeja/ABEJA-Qwen2.5-32b-Japanese-v1.0 Large (30B+) 0.6866
33 anthropic/claude-3.7-sonnet-20250219: extended-thinking api 0.7734
34 deepseek-ai/DeepSeek-V3-0324 Large (30B+) 0.6760
35 elyza/ELYZA-Shortcut-1.0-Qwen-32B Large (30B+) 0.6715
36 Qwen/Qwen3-4B: reasoning-enabled Small (<10B) 0.6612
37 rinna/deepseek-r1-distill-qwen2.5-bakeneko-32b: reasoning-enabled Large (30B+) 0.6589
38 cyberagent/DeepSeek-R1-Distill-Qwen-32B-Japanese Large (30B+) 0.6579
39 tokyotech-llm/Llama-3.3-Swallow-70B-Instruct-v0.4 Large (30B+) 0.6523
40 rinna/qwen2.5-bakeneko-32b-instruct-v2 Large (30B+) 0.6485
41 meta-llama/Llama-4-Maverick-17B-128E-Instruct-FP8 Large (30B+) 0.6463
42 anthropic/claude-3.5-haiku-20241022 api 0.6298
43 google/gemma-3-27b-it Medium (10–30B) 0.6285
44 tokyotech-llm/Gemma-2-Llama-Swallow-27b-it-v0.1 Medium (10–30B) 0.6208
45 mistral/mistral-large-2411 api 0.6196
46 openai/gpt-4-1-nano-2025-04-14 api 0.6157
47 openai/gpt-4o-mini-2024-07-18 api 0.6146
48 pfn/plamo-2.0-prime api 0.6127
49 meta-llama/Llama-4-Scout-17B-16E-Instruct Large (30B+) 0.6099
50 meta-llama/Llama-3.3-70B-Instruct Large (30B+) 0.6080

総合スコアの傾向と考察

2025年の日本語対応LLMベンチマークにおいて、総合スコアの上位陣は商用APIモデルが非常に高い性能を示しています。特にAnthropic、OpenAI、Google、xAIの4社が最先端の技術競争を展開しており、ユーザーにとって優れた選択肢が増えている状況です。

トップ層の特徴

首位のClaude Opus 4.1(extended-thinking)は0.7992という優れたスコアを記録し、僅差でGPT-5、Claude Sonnet 4.5が続いています。これら上位3モデルはいずれも0.795以上のスコアを獲得しており、その性能はほぼ同等と言えるでしょう。

注目すべきは「extended-thinking」機能を持つモデルが上位に多く見られる点で、複雑な推論タスクにおける思考プロセスの可視化が性能向上に寄与していることが分かります。

中堅層の充実

11位にランクインしたDeepSeek-R1-0528は、オープンモデルとして初めてトップ10圏内に迫る0.7432というスコアを記録しました。これは商用APIモデル群に匹敵する性能であり、推論機能を持つOSSモデルの発展を示す象徴的な結果です。またQwenシリーズも13位、17位、19位と複数モデルが上位にランクインし、多様な選択肢が提供されています。

日本製モデルの活躍

日本製のオープンモデル(国内の企業によりトレーニングまたはファインチューニングされたモデルも含む)では、rinnaのqwq-bakeneko-32b(30位)、ABEJA(32位)、ELYZA(35位)が優れた成果を上げています。

モデルサイズと性能の関係

興味深いのは、必ずしも大規模モデルだけが高性能というわけではない点です。10位のo4-miniは「mini」という名称ながら0.7610という高いスコアを記録し、効率性と性能のバランスに優れています。一方で、31位のQwen3-8B(Small)が0.6891を記録するなど、小規模モデルでも適切な学習とアーキテクチャ設計により高い性能を実現できることが示されています。

全体として、2025年のLLM市場は商用大手の技術的進化が続く一方、オープンモデルの着実な成長、特に推論機能を持つモデルの発展が目立つ状況となっています。

ベンチマーク結果の解釈について

本レポートで紹介するスコアは、あくまでもベンチマークテストにおける評価結果です。ベンチマークは、LLMの性能を客観的に比較する有用なツールですが、以下の点にご注意ください。

ベンチマークの特性

  • ベンチマークは特定のタスクセットに基づいて評価されるため、そのタスク構成に適したモデルほど高いスコアを獲得する傾向があります
  • 実際の業務での使用感や、特定の用途における有用性は、ベンチマークスコアだけでは完全には測れません
  • モデルによっては、ベンチマークで測定されていない独自の強みや特徴を持っている場合があります

さて、LLMのキラーユースケースといえばコーディングですね。コーディングの観点からランキングをみてみましょう。

コーディングスコアランキング TOP50

順位 モデル名 カテゴリ コーディングスコア
1 google/gemini-2.5-pro api 0.6449
2 openai/o4-mini-2025-04-16 api 0.6444
3 anthropic/claude-sonnet-4-5-20250929: extended-thinking api 0.6409
4 openai/gpt-5-2025-08-07: high-effort api 0.6377
5 openai/o3-mini-2025-01-31 api 0.6286
6 anthropic/claude-opus-4-1-20250805: extended-thinking api 0.5997
7 openai/o3-2025-04-16: high-effort api 0.5976
8 anthropic/claude-3.7-sonnet-20250219: extended-thinking api 0.5940
9 anthropic/claude-sonnet-4-20250514: extended-thinking api 0.5911
10 openai/gpt-4-1-2025-04-14 api 0.5817
11 anthropic/claude-sonnet-4-20250514: no-thinking api 0.5795
12 deepseek-ai/DeepSeek-R1-0528: reasoning-enabled Large (30B+) 0.5834
13 openai/o1-2024-12-17: high-effort api 0.5805
14 grok-4 api 0.5771
15 Qwen/Qwen3-Next-80B-A3B-Instruct Large (30B+) 0.5707
16 Qwen/Qwen3-Max-Preview api 0.5660
17 openai/gpt-4o-2024-11-20 api 0.5641
18 anthropic/claude-opus-4-20250514: no-thinking api 0.5594
19 deepseek-ai/DeepSeek-V3-0324 Large (30B+) 0.5396
20 anthropic/claude-3.7-sonnet-20250219: no-thinking api 0.5362
21 openai/gpt-oss-120b: reasoning-enabled Large (30B+) 0.5322
22 us.amazon.nova-pro-v1:0 api 0.5313
23 anthropic/claude-3.5-sonnet-20241022 api 0.5278
24 grok-3 api 0.5267
25 Qwen/QwQ-32B: reasoning-enabled Large (30B+) 0.5240
26 elyza/ELYZA-Shortcut-1.0-Qwen-32B Large (30B+) 0.5134
27 grok-3-mini api 0.5049
28 mistral/mistral-large-2411 api 0.5034
29 openai/gpt-4-1-nano-2025-04-14 api 0.5005
30 google/gemini-2.5-flash api 0.5004
31 Qwen/Qwen3-14B: reasoning-enabled Medium (10–30B) 0.5001
32 meta-llama/Llama-4-Maverick-17B-128E-Instruct-FP8 Large (30B+) 0.4981
33 rinna/qwq-bakeneko-32b: reasoning-enabled Large (30B+) 0.4968
34 openai/gpt-4o-mini-2024-07-18 api 0.4886
35 rinna/deepseek-r1-distill-qwen2.5-bakeneko-32b: reasoning-enabled Large (30B+) 0.4802
36 cyberagent/DeepSeek-R1-Distill-Qwen-32B-Japanese Large (30B+) 0.4799
37 Qwen/Qwen3-235B-A22B: reasoning-enabled Large (30B+) 0.4786
38 anthropic/claude-3.5-haiku-20241022 api 0.4782
39 us.amazon.nova-micro-v1:0 api 0.4771
40 Qwen/Qwen3-32B: reasoning-enabled Large (30B+) 0.4760
41 rinna/qwen2.5-bakeneko-32b-instruct-v2 Large (30B+) 0.4705
42 abeja/ABEJA-Qwen2.5-32b-Japanese-v1.0 Large (30B+) 0.4679
43 us.amazon.nova-lite-v1:0 api 0.4565
44 google/gemma-3-27b-it Medium (10–30B) 0.4522
45 openai/gpt-5-nano-2025-08-07: high-effort api 0.4504
46 meta-llama/Llama-3.3-70B-Instruct Large (30B+) 0.4452
47 Qwen/Qwen3-8B: reasoning-enabled Small (<10B) 0.4403
48 openai/gpt-4-1-mini-2025-04-14 api 0.5912
49 meta-llama/Llama-4-Scout-17B-16E-Instruct Large (30B+) 0.4312
50 google/gemini-2.5-flash-lite api 0.4306

コーディングスコアの傾向と考察

コーディングタスクにおけるLLMの性能評価では、総合スコアとは異なる興味深い傾向が見られます。注目すべきは、Google Gemini 2.5 Proが首位を獲得した点ですね。

トップ層の構成

Gemini 2.5 Pro(0.6449)とo4-mini(0.6444)がトップ2を占め、Claude Sonnet 4.5(3位、0.6409)とGPT-5(4位、0.6377)が続いています。上位4モデルは0.64台という非常に高い水準で接戦を繰り広げており、コード生成における選択肢が充実していることが分かります。特にo4-miniは「mini」という名称でありながら、(ベンチマーク上は)効率的で高品質なコーディング能力を実現している点が印象的です。

オープンモデルの実力

12位のDeepSeek-R1-0528(0.5834)は、オープンモデルとして最高のコーディングスコアを記録しました。これは総合スコア(11位)と同様の順位であり、このモデルがバランスの取れた高性能を持つことを示しています。

15位のQwen3-Next-80B(0.5707)も注目に値します。大規模OSSモデルとして、多くの商用APIモデルと同等以上の性能を発揮しており、企業がプライベート環境で高品質なコード生成システムを構築する選択肢として有力です。

日本製モデルのコーディング性能

日本製モデルのコーディング性能では、ELYZA-Shortcut(26位、0.5134)が最上位となり、0.5を超える優れた結果を残しています。

rinnaのqwq-bakeneko-32b(33位、0.4968)とdeepseek-r1-distill版(35位、0.4802)は0.48-0.49台でしっかりとした実力を示しており、CyberAgentとABEJAのモデル(36位、42位)もコーディングタスクにおいて着実な成果を上げています。

総合スコアとの相関分析

興味深いのは、総合スコアとコーディングスコアで得意分野が異なるモデルが存在する点です。例えば

  • Gemini 2.5 Proは総合9位ながらコーディングで1位を獲得
  • o4-miniは総合10位、コーディング2位と両方で優秀
  • DeepSeek-V3は総合34位ながらコーディングでは19位と健闘

これは、モデルによって得意とする領域が異なることを示しており、用途に応じた適切なモデル選択の重要性を示唆しています。

実務への示唆

コーディング用途でLLMを選択する際は、総合スコアだけでなく、コーディング特化のベンチマークスコアを参考にすることが重要です。Gemini 2.5 ProやClaude Sonnet 4.5、o4-miniなどは、開発作業において特に優れたパフォーマンスを発揮することが期待できます。

また、オープンモデルであるDeepSeek-R1やQwen3-Next-80Bも、セキュリティやプライバシーを重視する開発環境において、商用モデルに匹敵する選択肢となっています。


次は、オープンモデルに限定して実力をみていきましょう

オープンモデル 総合スコアランキング TOP20

順位 モデル名 モデルサイズ 総合スコア
1 deepseek-ai/DeepSeek-R1-0528: reasoning-enabled Large (30B+) 0.7432
2 Qwen/Qwen3-14B: reasoning-enabled Medium (10–30B) 0.7233
3 Qwen/Qwen3-235B-A22B: reasoning-enabled Large (30B+) 0.7214
4 Qwen/Qwen3-Next-80B-A3B-Instruct Large (30B+) 0.7130
5 Qwen/Qwen3-32B: reasoning-enabled Large (30B+) 0.7083
6 Qwen/Qwen3-30B-A3B: reasoning-enabled Large (30B+) 0.7035
7 Qwen/QwQ-32B: reasoning-enabled Large (30B+) 0.7029
8 openai/gpt-oss-120b: reasoning-enabled Large (30B+) 0.7014
9 rinna/qwq-bakeneko-32b: reasoning-enabled Large (30B+) 0.6910
10 Qwen/Qwen3-8B: reasoning-enabled Small (<10B) 0.6891
11 abeja/ABEJA-Qwen2.5-32b-Japanese-v1.0 Large (30B+) 0.6866
12 deepseek-ai/DeepSeek-V3-0324 Large (30B+) 0.6760
13 elyza/ELYZA-Shortcut-1.0-Qwen-32B Large (30B+) 0.6715
14 Qwen/Qwen3-4B: reasoning-enabled Small (<10B) 0.6612
15 rinna/deepseek-r1-distill-qwen2.5-bakeneko-32b: reasoning-enabled Large (30B+) 0.6589
16 cyberagent/DeepSeek-R1-Distill-Qwen-32B-Japanese Large (30B+) 0.6579
17 tokyotech-llm/Llama-3.3-Swallow-70B-Instruct-v0.4 Large (30B+) 0.6523
18 rinna/qwen2.5-bakeneko-32b-instruct-v2 Large (30B+) 0.6485
19 meta-llama/Llama-4-Maverick-17B-128E-Instruct-FP8 Large (30B+) 0.6463
20 google/gemma-3-27b-it Medium (10–30B) 0.6285

オープンモデル総合スコアの傾向と考察

オープンモデルに限定したランキングを見ると、推論機能を持つモデルの優位性が明確に表れています。

トップ層の分析

首位のDeepSeek-R1-0528(0.7432)は、全モデル中でも11位という優秀な成績を収めており、オープンモデルの到達点を示す象徴的な存在です。推論機能(reasoning-enabled)を持つことで、複雑なタスクにも対応できる能力を獲得しています。

2位から7位まではQwenシリーズが占めており、Qwen3-14B(0.7233)からQwQ-32B(0.7029)まで、いずれも0.70以上の高スコアを記録しています。Qwenシリーズの充実ぶりは目覚ましく、様々なサイズとバリエーションで高品質なモデルを提供しています。

日本製オープンモデルの躍進

9位のrinna qwq-bakeneko-32b(0.6910)は、日本製オープンモデルとして最高位にランクインしました。推論機能を備えることで、複雑な日本語タスクにも対応できる実力を備えています。

11位のABEJA(0.6866)、13位のELYZA(0.6715)も0.68-0.69台の優れたスコアを獲得しており、日本企業によるLLM開発が着実に成果を上げていることが分かります。

15位、16位にはrinnaとCyberAgentのDeepSeek-R1蒸留版がランクインしており、大規模モデルの知識を効率的に継承する技術の発展も見られます。

モデルサイズの多様性

興味深いのは、小規模モデルでも優れた性能を発揮している点です。10位のQwen3-8B(0.6891、Small)や14位のQwen3-4B(0.6612、Small)は、10B未満のパラメータ数でありながら、多くの大規模モデルを上回る成績を残しています。これは、効率的なアーキテクチャと学習手法の進化を示しています。

推論機能の重要性

上位20モデルのうち、推論機能(reasoning-enabled)を持つモデルが11個を占めており、複雑な推論能力がモデル性能に大きく寄与していることが分かります。この傾向は、今後のオープンLLM開発の方向性を示唆しています。

全体として、オープンLLM市場は、海外勢のQwenとDeepSeekが技術的リードを保つ一方、日本勢も着実に実力を伸ばしており、多様な選択肢が提供される健全な発展を見せています。


次はオープンモデルのコーディングの実力をみてみましょう

オープンモデル コーディングスコアランキング TOP20

順位 モデル名 モデルサイズ コーディングスコア
1 deepseek-ai/DeepSeek-R1-0528: reasoning-enabled Large (30B+) 0.5834
2 Qwen/Qwen3-Next-80B-A3B-Instruct Large (30B+) 0.5707
3 deepseek-ai/DeepSeek-V3-0324 Large (30B+) 0.5396
4 openai/gpt-oss-120b: reasoning-enabled Large (30B+) 0.5322
5 Qwen/QwQ-32B: reasoning-enabled Large (30B+) 0.5240
6 elyza/ELYZA-Shortcut-1.0-Qwen-32B Large (30B+) 0.5134
7 Qwen/Qwen3-14B: reasoning-enabled Medium (10–30B) 0.5001
8 meta-llama/Llama-4-Maverick-17B-128E-Instruct-FP8 Large (30B+) 0.4981
9 rinna/qwq-bakeneko-32b: reasoning-enabled Large (30B+) 0.4968
10 rinna/deepseek-r1-distill-qwen2.5-bakeneko-32b: reasoning-enabled Large (30B+) 0.4802
11 cyberagent/DeepSeek-R1-Distill-Qwen-32B-Japanese Large (30B+) 0.4799
12 Qwen/Qwen3-235B-A22B: reasoning-enabled Large (30B+) 0.4786
13 Qwen/Qwen3-32B: reasoning-enabled Large (30B+) 0.4760
14 rinna/qwen2.5-bakeneko-32b-instruct-v2 Large (30B+) 0.4705
15 abeja/ABEJA-Qwen2.5-32b-Japanese-v1.0 Large (30B+) 0.4679
16 google/gemma-3-27b-it Medium (10–30B) 0.4522
17 meta-llama/Llama-3.3-70B-Instruct Large (30B+) 0.4452
18 Qwen/Qwen3-8B: reasoning-enabled Small (<10B) 0.4403
19 meta-llama/Llama-4-Scout-17B-16E-Instruct Large (30B+) 0.4312
20 Qwen/Qwen3-30B-A3B: reasoning-enabled Large (30B+) 0.4155

オープンモデルコーディングスコアの傾向と考察

オープンモデルのコーディング性能に注目すると、DeepSeekとQwenの2つのファミリーが特に優れた成果を上げています。

トップ層の特徴

首位のDeepSeek-R1-0528(0.5834)は、オープンモデルとして際立った性能を示しています。全モデル中でも12位という順位は、商用モデルに匹敵するコード生成能力を持つことを証明しています。

2位のQwen3-Next-80B(0.5707)も優秀で、0.57台という高スコアは多くの商用APIモデルを上回る水準です。

3位のDeepSeek-V3(0.5396)、4位のgpt-oss-120b(0.5322)、5位のQwQ-32B(0.5240)と続き、上位5モデルはすべて0.52以上のスコアを獲得しています。

日本製モデルの実力

6位のELYZA-Shortcut(0.5134)は、日本製オープンモデルとして最高のコーディングスコアを記録しました。0.5を超える唯一の国産OSSモデルとして、開発用途での実用性を示しています。

9位のrinna qwq-bakeneko-32b(0.4968)は0.50に迫るスコアで、推論機能を活かしたコード生成能力を発揮しています。

推論機能とコーディング性能

上位20モデルのうち、推論機能を持つモデルが11個を占めており、コーディングタスクにおいても推論能力が重要であることが分かります。複雑なアルゴリズムやロジックを実装する際に、段階的な思考プロセスが有効に機能していると考えられます。

全体として、オープンモデルのコーディング性能は、商用モデルとの差を着実に縮めており、特にDeepSeekとQwenのモデル群は実務レベルでの利用に十分な能力を備えています。日本製モデルも継続的な改善を重ねており、今後のさらなる発展が期待されます。


さて、次は中規模10B~30B程度のモデルをみてみましょう。

中規模モデルのうれしいところは、個人レベルでも比較的入手しやすいGPUでも実行できるところではないでしょうか。16bitモードや量子化版のモデルをつかえば、 16GByte~48GB 程度のGPUでも推論を動作させることができ、1台のPCに1台のGPUという構成でも利用しやすい点、とっつきやすいモデルといえます。

中規模モデル(10B-30B)総合スコアランキング

順位 モデル名 モデルサイズ 総合スコア
1 Qwen/Qwen3-14B: reasoning-enabled Medium (10–30B) 0.7233
2 google/gemma-3-27b-it Medium (10–30B) 0.6285
3 tokyotech-llm/Gemma-2-Llama-Swallow-27b-it-v0.1 Medium (10–30B) 0.6208
4 google/gemma-3-12b-it Medium (10–30B) 0.5994
5 cyberagent/calm3-22b-chat-selfimprove-experimental Medium (10–30B) 0.5705
6 google/gemma-3-4b-it Medium (10–30B) 0.5326

中規模モデル総合スコアの傾向と考察

中規模モデル(10B-30Bパラメータ)のカテゴリでは、限られた計算リソースで効率的に動作しながらも、実用的な性能を実現するモデル群が揃っています。

トップの実力

首位のQwen3-14B(0.7233)は、全体ランキングでも17位に位置する優れたモデルです。推論機能を備えることで、中規模でありながら多くの大規模モデルに匹敵する性能を発揮しています。このスコアは、効率性と性能のバランスが非常に優れていることを示しています。

Googleのgemma-3シリーズ

2位のgemma-3-27b(0.6285)、4位のgemma-3-12b(0.5994)、6位のgemma-3-4b(0.5326)と、Googleのgemma-3シリーズが3つランクインしています。同じアーキテクチャベースで異なるサイズ展開を行うことで、用途に応じた選択肢を提供している点が特徴的です。

日本発の取り組み

3位のTokyo Tech LLM Swallow-27b(0.6208)は、学術機関による中規模モデル開発の成果を示しています。5位のCyberAgent calm3-22b(0.5705)は、企業による実用的なモデル開発の例として注目されます。

中規模モデルは、ローカル環境での実行やコスト効率を重視する用途において、大規模モデルの代替として十分に機能する選択肢となっています。特にQwen3-14Bの高性能は、適切な設計と学習により中規模でも優れた結果が得られることを証明しています。


同様に10B~30Bモデルでのコーディングランキングをみてみましょう

中規模モデル(10B-30B)コーディングスコアランキング

順位 モデル名 モデルサイズ コーディングスコア
1 Qwen/Qwen3-14B: reasoning-enabled Medium (10–30B) 0.5001
2 google/gemma-3-27b-it Medium (10–30B) 0.4522
3 google/gemma-3-12b-it Medium (10–30B) 0.4176
4 cyberagent/calm3-22b-chat-selfimprove-experimental Medium (10–30B) 0.3681
5 tokyotech-llm/Gemma-2-Llama-Swallow-27b-it-v0.1 Medium (10–30B) 0.3583
6 google/gemma-3-4b-it Medium (10–30B) 0.3899

中規模モデルコーディングスコアの傾向と考察

中規模モデルのコーディング性能においても、Qwen3-14Bが圧倒的な強さを見せています。

Qwen3-14Bの優位性

首位のQwen3-14B(0.5001)は、0.5の壁を超える唯一の中規模モデルとして、際立った性能を示しています。推論機能を持つことで、複雑なコーディングタスクにも対応できる能力を獲得しており、中規模モデルでありながら多くの大規模モデルと同等のコード生成品質を実現しています。

その他のモデルの実力

2位のgemma-3-27b(0.4522)は0.45台を記録し、実用的なコーディング支援が可能なレベルに達しています。3位のgemma-3-12b(0.4176)や6位のgemma-3-4b(0.3899)は、より小規模ながら基本的なコード生成タスクには対応できる性能を持っています。

中規模モデルは、特にQwen3-14Bを中心に、限られたリソースで用途によっては使えそうなコーディング支援を実現する選択肢として、今後さらに重要性を増していくと考えられます。


さて、最後小規模モデルもみてみましょう。こうした小型モデルは比較的安価なコンシューマ向けGPUでも動作する点が魅力です

小規模モデル(10B以下)総合スコアランキング

順位 モデル名 モデルサイズ 総合スコア
1 Qwen/Qwen3-8B: reasoning-enabled Small (<10B) 0.6891
2 Qwen/Qwen3-4B: reasoning-enabled Small (<10B) 0.6612
3 tokyotech-llm/Gemma-2-Llama-Swallow-9b-it-v0.1 Small (<10B) 0.5982
4 tokyotech-llm/Llama-3.1-Swallow-8B-Instruct-v0.5 Small (<10B) 0.5611
5 Qwen/Qwen3-1.7B: reasoning-enabled Small (<10B) 0.5513
6 tokyotech-llm/Gemma-2-Llama-Swallow-2b-it-v0.1 Small (<10B) 0.4906
7 Qwen/Qwen3-0.6B: reasoning-enabled Small (<10B) 0.4089
8 meta-llama/Llama-3.2-3B-Instruct Small (<10B) 0.4040

小規模モデル総合スコアの傾向と考察

小規模モデル(10B以下のパラメータ)は、エッジデバイスやリソース制約のある環境での利用に適しており、驚くほど高い性能を実現しているモデルも存在します。

Qwenシリーズの卓越性

首位のQwen3-8B(0.6891)は、小規模モデルとして驚異的な性能を示しています。全体ランキングでも31位に位置し、多くの大規模モデルを上回るスコアは、効率的なアーキテクチャ設計と学習手法の成果です。

2位のQwen3-4B(0.6612)も0.66台という優れたスコアを記録しており、わずか4Bのパラメータでこの性能を実現していることは特筆に値します。5位のQwen3-1.7B(0.5513)、7位のQwen3-0.6B(0.4089)と、Qwenは様々なサイズ展開で一貫して高品質なモデルを提供しています。

Tokyo Tech LLMの貢献

3位のSwallow-9b(0.5982)、4位のSwallow-8B(0.5611)、6位のSwallow-2b(0.4906)と、Tokyo Tech LLMのSwallowシリーズが3つランクインしています。

実用性の高さ

上位2モデル(Qwen3-8BとQwen3-4B)は0.66以上のスコアを獲得しており、これは中規模モデルの平均を上回る水準です。スマートフォンやエッジデバイスでの実行が可能な小規模モデルで、このような高性能を実現できることは、AI技術の民主化という観点からも非常に意義深い結果です。

小規模モデルは、クラウド接続が困難なエッジ環境や、コスト削減が求められる場面において、今後ますます重要な選択肢となっていくとおもいます


最後の最後に小規模モデルのコーディング力をはみていきましょう

小規模モデル(10B以下)コーディングスコアランキング

順位 モデル名 モデルサイズ コーディングスコア
1 Qwen/Qwen3-8B: reasoning-enabled Small (<10B) 0.4403
2 Qwen/Qwen3-4B: reasoning-enabled Small (<10B) 0.4135
3 tokyotech-llm/Gemma-2-Llama-Swallow-9b-it-v0.1 Small (<10B) 0.3341
4 tokyotech-llm/Llama-3.1-Swallow-8B-Instruct-v0.5 Small (<10B) 0.3164
5 Qwen/Qwen3-1.7B: reasoning-enabled Small (<10B) 0.3132
6 tokyotech-llm/Gemma-2-Llama-Swallow-2b-it-v0.1 Small (<10B) 0.2746
7 Qwen/Qwen3-0.6B: reasoning-enabled Small (<10B) 0.1886
8 meta-llama/Llama-3.2-3B-Instruct Small (<10B) 0.1350

小規模モデルコーディングスコアの傾向と考察

小規模モデルのコーディング性能において、Qwenシリーズが再び優位性を示しています。

トップ層の実力

首位のQwen3-8B(0.4403)は、小規模モデルとして非常に高いコーディング性能を実現しています。このスコアは、いくつかの大規模モデルを上回る水準であり、8Bという限られたパラメータ数で実用的なコード生成支援が可能であることを示しています。

2位のQwen3-4B(0.4135)も0.41台という優れたスコアを記録し、4Bのモデルサイズでこの性能を実現していることは驚異的です。

用途と限界

小規模モデルのコーディング性能は、大規模モデルと比較すると制約がありますが、シンプルな関数の生成、コードの補完、基本的なアルゴリズムの実装といった用途では使えるかもしれません。特にQwen3-8Bは、ローカル環境でのコーディング支援ツールとして活用できる可能性があります。

効率性の重要性

小規模モデルは、電力消費が少なく、レスポンスが速く、プライバシーを保護できるという利点があります。クラウドAPIに依存しない開発環境を構築したい場合や、教育目的でのコーディング学習支援において、これらの小規模モデルは選択肢となります。


まとめ、本格導入に向けての道しるべ

今回は、Nejumi Leaderboard 4のベンチマークデータから、2025年の日本語対応LLM市場の充実ぶりが明らかになりました。

商用モデルの高水準な競争

Anthropic、OpenAI、xAI、Googleの主要プレイヤーが、0.75-0.80という非常に高いレベルで競争しており、ユーザーにとって多様で優れた選択肢が提供されています。特に「extended-thinking」や「high-effort」といった高度な推論機能を持つモデルが性能をリードしています。

今後の展望

LLM技術は急速に発展を続けており、商用モデルとオープンモデルの両方で継続的な性能向上が期待されます。特に日本語対応モデルの発展は、日本語ユーザーにとってより使いやすく高性能なAIサービスの実現につながるとおもいます。

オープンモデルの躍進

さて、今回特に驚いたのはオープンモデルの躍進ではないでしょうか。

DeepSeek-R1やQwenシリーズに代表されるオープンモデルは、商用モデルに迫る性能を実現しており、セキュリティやカスタマイズ性を重視する用途での選択肢として確立されています。特に推論機能を持つモデルの発展は目覚ましく、複雑なタスクへの対応力を高めています。

モデルサイズ別の特徴

  • 大規模モデル(30B+): 最高性能を求める用途に最適。DeepSeek-R1やQwen3シリーズが商用モデルに匹敵する性能を実現
  • 中規模モデル(10B-30B): Qwen3-14Bが0.72という優れたスコアを記録し、効率性と性能のバランスに優れる
  • 小規模モデル(10B以下): Qwen3-8Bが0.69という驚異的なスコアを獲得。エッジデバイスでの実行が可能でありながら実用的な性能を実現

LLMの本格導入にむけて用途別の最適なモデル選択


さて、これまでみてきたとおり総合スコアとコーディングスコアで異なる順位を示すモデルが多く存在することから、用途に応じた適切なモデル選択が重要です。コーディング用途ではGemini 2.5 ProやClaude Sonnet 4.5、o4-miniなどが特に優れた性能を発揮します。

つまり、用途に応じて最適なモデルを選択することが、LLM活用成功の鍵となります。

しかし、こんな課題はありませんか?

  • 「どのモデルが自社の用途に最適か分からない」
  • 「複数のLLMを契約するのは管理が大変」
  • 「オープンモデルを使いたいが、推論サーバーの構築が難しい」
  • 「機密情報が外部に漏れないか心配」

そんな課題を解決するのが、Bestllam(ベストラム)です。

Bestllamの3つの強み

①複数LLMを一つのプラットフォームで

GPT-4、Claude、Geminiなどの商用モデルに加え、本レポートで紹介したDeepSeek-R1、Qwen3、Llamaなどの高性能オープンモデルまで、10種類以上のLLMを自由に選択可能。複数のLLMに同時に問い合わせて、最適な回答を選ぶこともできます。

契約も一本化されるため、個別に複数のサービスと契約する煩雑さから解放されます。

🔒データを守る、安心のセキュリティ

オープンモデルを活用することで、データを一切海外サーバーに送信しない「越境プロテクションプラン」を実現。公共機関や自治体など、高度な情報管理が求められる環境でも安心してご利用いただけます。

  • 日本国内のデータセンターまたはオンプレミス環境で完全なデータ保護
  • llm-auditによる入出力監査機能による情報漏洩防止や、
  • 個人情報や機密情報の自動検出・マスキング機能

推論サーバーの構築や運用も不要。Bestllamがすべて管理します。

⚡ 業務効率を劇的に向上

本レポートで上位にランクインしたモデルも利用可能です

用途推奨モデル(Bestllamで利用可能)
コーディングGemini 2.5 Pro、Claude 4.5 Sonnet
総合業務GPT-5、Claude 4.1 Opus
越境防止DeepSeek-R1、Qwen3-32B、Llama 4

複数モデルの同時利用により、より正確で信頼性の高い回答を実現します。

こちらから実際に登録なしでつかえるデモ版(機能制限版)ご体験いただけます

↓にて、すぐにデモをご体験可能です

chatstream.net - 最先端LLM体験プラットフォーム
ChatStream は 株式会社 Qualiteg が提供する LLM アプリケーション構築ツールキット。高速高負荷対応 LLM サービング、多機能、マルチモーダルチャットUIを備え、ノーコード、ローコードで LLM アプリケーションを構築可能です。

こんな企業・組織におすすめです

✅ 複数のLLMを効率的に活用したい企業
✅ データの海外流出を防ぎたい公共機関・自治体
✅ 高性能なオープンモデルを簡単に導入したい開発チーム
✅ 従業員のうっかりミスによる情報漏洩を防ぎたい組織
✅ LLM活用の効果を最大化したいすべてのビジネス

まずは詳細をご確認ください

高性能な商用LLMも、最先端のオープンモデルも高度なセキュリティを維持しつつ快適に利用できるBestllamで貴社のAI活用促進をお手伝いいたします!

Bestllam - エンタープライズ向け統合型LLMプラットフォーム
複数のLLMを同時に活用できる革新的なAIサービス。エンタープライズグレードのセキュリティと認証機能を完備

Read more

大企業のAIセキュリティを支える基盤技術 - 今こそ理解するActive Directory 第4回 プロキシサーバーと統合Windows認証

大企業のAIセキュリティを支える基盤技術 - 今こそ理解するActive Directory 第4回 プロキシサーバーと統合Windows認証

11月に入り、朝晩の冷え込みが本格的になってきましたね。オフィスでも暖房を入れ始めた方も多いのではないでしょうか。 温かいコーヒーを片手に、シリーズ第4回「プロキシサーバーと統合Windows認証」をお届けします。 さて、前回(第3回)は、クライアントPCやサーバーをドメインに参加させる際の「信頼関係」の確立について深掘りしました。コンピューターアカウントが120文字のパスワードで自動認証される仕組みを理解いただけたことで、今回のプロキシサーバーの話もスムーズに入っていけるはずです。 ChatGPTやClaudeへのアクセスを監視する中間プロキシを構築する際、最も重要なのが「確実なユーザー特定」です。せっかくHTTPS通信をインターセプトして入出力内容を記録できても、アクセス元が「tanaka_t」なのか「yamada_h」なのかが分からなければ、監査ログとしての価値は半減してしまいます。 今回は、プロキシサーバー自体をドメインメンバーとして動作させることで、Kerberosチケットの検証を可能にし、透過的なユーザー認証を実現する方法を詳しく解説します。Windows版Squid

By Qualiteg AIセキュリティチーム
エンジニアリングは「趣味」になってしまうのか

エンジニアリングは「趣味」になってしまうのか

こんにちは! 本日は vibe coding(バイブコーディング、つまりAIが自動的にソフトウェアを作ってくれる)と私たちエンジニアの将来について論じてみたいとおもいます。 ちなみに、自分で作るべきか、vibe codingでAIまかせにすべきか、といった二元論的な結論は出せていません。 悩みながらいったりきたり考えてる思考過程をツラツラと書かせていただきました。 「作る喜び」の変質 まずvibe codingという言葉についてです。 2025年2月、Andrej Karpathy氏(OpenAI創設メンバー)が「vibe coding」という言葉を広めました。 彼は自身のX(旧Twitter)投稿で、 「完全にバイブに身を任せ、コードの存在すら忘れる」 と表現しています。 つまり、LLMを相棒に自然言語でコードを生成させる、そんな新しい開発スタイルを指します。 確かにその生産性は圧倒的です。Y Combinatorの2025年冬バッチでは、同社の発表によれば参加スタートアップの約25%がコードの95%をAIで生成していたとされています(TechCrunch, 2

By Qualiteg プロダクト開発部
発話音声からリアルなリップシンクを生成する技術 第5回(後編):Transformerの実装と実践的な技術選択

発話音声からリアルなリップシンクを生成する技術 第5回(後編):Transformerの実装と実践的な技術選択

なぜGPTで成功したTransformerが、リップシンクでは簡単に使えないのか?データ量・計算量・過学習という3つの課題を深掘りし、LSTMとTransformerの実践的な使い分け方を解説。さらに転移学習という第三の選択肢まで、CEATEC 2025で見せた「アバター」の舞台裏を、クオ先生とマナブ君の対話でわかりやすく紐解きます。

By Qualiteg プロダクト開発部
(株)Qualiteg、CEATEC 2025 出展レポート

(株)Qualiteg、CEATEC 2025 出展レポート

こんにちは! 2025年10月14日から17日までの4日間、幕張メッセで開催されたアジア最大級の総合展示会「CEATEC 2025」(主催者発表、総来場者数98,884名)に、株式会社Qualitegとして出展してまいりました! プレスリリース 株式会社Qualiteg、CEATEC 2025に出展 ― AIアバター動画生成サービス「MotionVox®」最新版を実体験株式会社Qualitegのプレスリリース(2025年10月10日 08時50分)株式会社Qualiteg、CEATEC 2025に出展 ― AIアバター動画生成サービス「MotionVox®」最新版を実体験PR TIMES株式会社Qualiteg CEATEC 2025 出展概要 当社は幕張メッセのホール6にあるネクストジェネレーションパークというエリアの 6H207 にブースを構えました。 「Innovation for All」というCEATECのテーマにあわせ、今回は、 AIアバター動画生成サービスMotionVoxを中心に当社の革新的なAIソリューションを展示させていただきました。 展示内容紹介に

By Qualiteg ビジネス開発本部 | マーケティング部, Qualiteg ニュース