日本語対応 LLMランキング2025 ~ベンチマーク分析レポート~(12月18日版)

日本語対応 LLMランキング2025 ~ベンチマーク分析レポート~(12月18日版)

はじめに

本レポートは、Nejumi Leaderboard 4のベンチマークデータ(2025/12/18版)に基づいて、日本語対応LLMの性能を総合的に分析したものです。

前回は 2025/10/12 版の分析レポートを公開しましたが、たった2か月で劇的な変化がありました!

(定期的に最新LLMランキングを更新してまいります。当社のX(旧Twitter)をフォローいただくことで更新情報を受け取り可能です)

Nejumi Leaderboard 4は、日本語タスクにおけるLLMの性能を多角的に評価する信頼性の高いベンチマークとして知られています。

本分析では、商用APIモデルとオープンモデルの両方を対象に、それぞれの特徴や傾向を詳しく見ていきます。

オープンソースモデルについて

Weightがオープンなモデルは場合によっては「オープンソースモデル」、「OSSモデル」と呼ばれますが、モデルによっては「オープンソース」と呼ぶには不十分な場合があるため本稿では、「オープンソースモデル」ではなく「オープンモデル」と表現しています。

ベンチマーク分析について

本レポートは、LLM選択の参考情報として、ベンチマークデータから読み取れる傾向や特徴を提示するものです。最終的なモデル選択においては、これらの情報を踏まえつつ、実際の使用環境での検証を行うことをおすすめいたします。


まず 2025/12/18 現在の日本語対応LLMの総合ランキングをみてみましょう。

総合スコアランキング TOP50

順位 モデル名 カテゴリ 総合スコア
1 openai/gpt-5.2-2025-12-11: xhigh-effort api 0.8285
2 google/gemini-3-pro-preview api 0.8134
3 openai/gpt-5.1-2025-11-13: high-effort api 0.8085
4 anthropic/claude-opus-4.5-20251125: extended-thinking api 0.8064
5 anthropic/claude-opus-4-1-20250805: extended-thinking api 0.7992
6 openai/gpt-5-2025-08-07: high-effort api 0.7970
7 anthropic/claude-sonnet-4-5-20250929: extended-thinking api 0.7954
8 anthropic/claude-sonnet-4-20250514: extended-thinking api 0.7918
9 deepseek/DeepSeek-V3.2 (Thinking Mode) api 0.7905
10 anthropic/claude-haiku-4-5-20251001: extended-thinking api 0.7879
11 openai/o3-2025-04-16: high-effort api 0.7876
12 grok-4 api 0.7810
13 anthropic/claude-opus-4-20250514: no-thinking api 0.7804
14 openai/o1-2024-12-17: high-effort api 0.7753
15 anthropic/claude-3.7-sonnet-20250219: extended-thinking api 0.7734
16 google/gemini-2.5-pro api 0.7696
17 x-ai/grok-4-1-fast-reasoning api 0.7646
18 Qwen/Qwen3-235B-A22B-Thinking-2507: reasoning-enabled Large (30B+) 0.7638
19 openai/o4-mini-2025-04-16 api 0.7610
20 deepseek-ai/DeepSeek-R1-0528: reasoning-enabled Large (30B+) 0.7432
21 openai/o3-mini-2025-01-31 api 0.7430
22 Qwen/Qwen3-Max-Preview api 0.7425
23 openai/gpt-5.1-2025-11-13: none-effort api 0.7412
24 grok-3-mini api 0.7370
25 Qwen/Qwen3-Next-80B-A3B-Thinking: reasoning-enabled Large (30B+) 0.7356
26 zai-org/GLM-4.6-FP8: reasoning-enabled Large (30B+) 0.7337
27 moonshotai/kimi-k2-thinking api 0.7332
28 anthropic/claude-opus-4.5-20251125: no-thinking api 0.7320
29 Qwen/Qwen3-VL-32B-Thinking Large (30B+) 0.7287
30 upstage-karakuri/syn-pro reasoning api 0.7273
31 openai/gpt-4-1-2025-04-14 api 0.7261
32 grok-3 api 0.7253
33 Qwen/Qwen3-14B: reasoning-enabled Medium (10–30B) 0.7233
34 openai/gpt-4o-2024-11-20 api 0.7223
35 Qwen/Qwen3-235B-A22B: reasoning-enabled Large (30B+) 0.7214
36 anthropic/claude-3.7-sonnet-20250219: no-thinking api 0.7177
37 openai/gpt-5-nano-2025-08-07: high-effort api 0.7174
38 anthropic/claude-sonnet-4-20250514: no-thinking api 0.7155
39 Qwen/Qwen3-Next-80B-A3B-Instruct Large (30B+) 0.7130
40 MiniMaxAI/MiniMax-M2: reasoning-enabled Large (30B+) 0.7126
41 Qwen/Qwen3-30B-A3B-Thinking-2507: reasoning-enabled Large (30B+) 0.7093
42 Qwen/Qwen3-32B: reasoning-enabled Large (30B+) 0.7083
43 anthropic/claude-3.5-sonnet-20241022 api 0.7058
44 zai-org/GLM-4.5-Air Large (30B+) 0.7045
45 Qwen/Qwen3-30B-A3B: reasoning-enabled Large (30B+) 0.7035
46 Qwen/QwQ-32B: reasoning-enabled Large (30B+) 0.7029
47 openai/gpt-oss-120b: reasoning-enabled Large (30B+) 0.7014
48 openai/gpt-4-1-mini-2025-04-14 api 0.6992
49 google/gemini-2.5-flash api 0.6969
50 rinna/qwq-bakeneko-32b: reasoning-enabled Large (30B+) 0.6910

総合スコアの傾向と考察

今回は、2025年12月の日本語対応LLMベンチマークにおいて、

史上初めて総合スコア0.80の壁を突破するモデルが複数登場!

しました。

これは前回(10月のLLMランキング)からわずか2ヶ月での大きな進歩であり、LLM技術の急速な発展を示しています。
Anthropic、OpenAI、Googleの3強はもちろん、今回はDeepSeekがxAIのGrokを抜いて9位に浮上しました。わずか2ヶ月で順位が入れ替わるほど、競争は激しさを増しています。

トップ層の特徴

OpenAI GPTシリーズの意地

首位のGPT-5.2(xhigh-effort)0.8285という驚異的なスコアを記録し、初めて0.82を超えました。なお、3位にランクした1つまえのGPT-5.1 も0.80を超えています。

さて、GPT-5.2には少々ドラマがありますので少し経緯をご紹介いたします。

ご存じの方もいらっしゃるかとおもいますが、2025年12月初旬にGoogleがGemini 3 Proを発表し、LMArenaのリーダーボードで首位を獲得しました。

当時GPT-5.1は6位に甘んじており、OpenAIのCEO Sam Altman氏は社内で「Code Red(緊急事態)」を宣言しました。

これを受けてOpenAIは開発を加速させ、当初の予定より前倒しでGPT-5.2をリリースする形となりました。そして、本ベンチマークでもしっかり1位を奪還していますね。

ちなみに、GPT-5.2(xhigh-effort)high-effort というのは GPT-5.2の「xhigh」モードのことで、一言でいうと「これまで以上にLLMにじっくり考えさせるモード」 です。

このモードは複雑な分析や推論が得意ですが、めちゃくちゃ考える(内部では何度もぐるぐるとLLMの推論実行をしているような感じです)ので遅くなったり、API利用時は費用が増えるっていうトレードオフも覚えておきたいところです。

覇王色を纏(まと)いつつあるGoogle Gemini

続く2位のGemini 3 Pro Preview(0.8134)も0.81台という高水準です。圧倒的な高性能で業界、メディア、SNSをさわがせています。
Gemini 3 Proは2025年11月19日にGoogleが発表した最新モデルで、「複雑な推論」と「自律的なエージェント能力」において次元の違う性能を持つと評されています。特に注目すべきなのは「Deep Think」モード(じっくり考えさせるモード)の搭載で、数学・論理・科学分野の高度な推論タスクに強みを発揮します。また、100万トークンのコンテキストウィンドウでテキスト・画像・動画・音声・コードをシームレスに統合処理できるマルチモーダル性能も大きな特徴です。

玄人好みの静かなる実力者 Anthropic Claude

4位にランクしたClaude Opus 4.5は2025年11月25日にAnthropicがリリースした最上位フラッグシップモデルで、特にコーディング性能では業界トップクラスを誇ります。SWE-bench Verified(実世界のソフトウェアエンジニアリング能力を測るベンチマーク)では80.9%を記録し、Gemini 3 Pro(76.2%)やGPT-5.1(76.3%)を上回る結果を出しています。
LMArenaのWebDev(Web開発)リーダーボードでも1位を獲得するなど、「開発者のための最強モデル」としての地位を確立しています。
なお、API価格が従来の約1/3に引き下げられたことで、日常的な業務利用も現実的になりました。

さて、今回の上位陣は驚くべきことに、TOP4がすべて0.80以上という未曾有の高水準であることです。

前回首位だったClaude Opus 4.1(0.7992)は今回5位となりましたが、これはスコアが下がったのではなく、競合モデルの性能向上が著しかったためです。

最近は、メディア・SNSでは「もうGoogle Gemini が独り勝ちになるのでは?」のような話を耳にしますが、まだまだトップ層のハイレベルな競争は当面続いていくとおもいます。

強力な新顔たち

さて、今回のランキングで登場した注目すべき新顔をいくつか紹介いたします

  • DeepSeek V3.2(Thinking Mode): 9位(0.7905)にランクイン。数学オリンピックでゴールドメダル級の成績を叩き出しながら、API利用料金はGPT-5.1の約7分の1。高性能と低コストを両立した中国発モデルとして、業界に衝撃をあたえています。また、オープンモデルとしても利用できるためLLM研究者、LLMエンジニア界隈でも熱狂を呼んでいます
  • Claude Haiku 4.5: こちらは10位(0.7879)という驚きの成績でした。何が驚きかっていいますと「Haiku」という軽量モデルの名称ながら、前回のトップモデルに匹敵する性能を実現してる点です。
  • GLM-4.6-FP8: 26位(0.7337)で中国のZhipu AI(智譜AI)が開発したオープンモデルでコーディング性能が高く、Claude Code、Cline、Roo Code※などのAIコーディングツールでの実用性能が向上、推論能力も強化されているようです。
    ※AIコーディングツールの種類や特徴についてはこちらのブログで詳しく解説しています。
  • MiniMax-M2: 40位(0.7126)で新規参入ながら健闘しています。このモデルは、中国のMiniMaxが開発した「エージェントとコーディングのために生まれた」オープンソースモデルでClaude Sonnetの8%の価格で2倍速いのが売りのようです

このように今回登場した注目すべき新顔モデルは Claude をのぞき中国発のオープンモデルで、有料モデル(ClaudeやGPT)に迫る性能を無料(または低コスト)で提供しているモデルも多いのが注目点です。

モデルサイズと性能の関係

また、今回、興味深いのは、軽量モデルの性能向上ではないでしょうか。前述しましたが、Claude Haiku 4.5が10位にランクインしたことは、最先端の商用モデルも効率性と性能の両立が進んでいることを示しているのではないでしょうか。
また、前回も上位だった33位のQwen3-14B(Medium)も0.7233という高性能を記録しているとおり、小中規模モデルでも高い性能を実現できることが示されています。

ベンチマーク結果の解釈について

本レポートで紹介するスコアは、あくまでもベンチマークテストにおける評価結果です。ベンチマークは、LLMの性能を客観的に比較する有用なツールですが、以下の点にご注意ください。

ベンチマークの特性

  • ベンチマークは特定のタスクセットに基づいて評価されるため、そのタスク構成に適したモデルほど高いスコアを獲得する傾向があります
  • 実際の業務での使用感や、特定の用途における有用性は、ベンチマークスコアだけでは完全には測れません
  • モデルによっては、ベンチマークで測定されていない独自の強みや特徴を持っている場合があります

次は、オープンモデルに限定して実力をみていきましょう。

オープンモデル 総合スコアランキング TOP20

順位 モデル名 モデルサイズ 総合スコア
1 deepseek/DeepSeek-V3.2 (Thinking Mode) Large (30B+) 0.7905
2 Qwen/Qwen3-235B-A22B-Thinking-2507: reasoning-enabled Large (30B+) 0.7638
3 deepseek-ai/DeepSeek-R1-0528: reasoning-enabled Large (30B+) 0.7432
4 Qwen/Qwen3-Next-80B-A3B-Thinking: reasoning-enabled Large (30B+) 0.7356
5 zai-org/GLM-4.6-FP8: reasoning-enabled Large (30B+) 0.7337
6 Qwen/Qwen3-VL-32B-Thinking Large (30B+) 0.7287
7 Qwen/Qwen3-14B: reasoning-enabled Medium (10–30B) 0.7233
8 Qwen/Qwen3-235B-A22B: reasoning-enabled Large (30B+) 0.7214
9 Qwen/Qwen3-Next-80B-A3B-Instruct Large (30B+) 0.7130
10 MiniMaxAI/MiniMax-M2: reasoning-enabled Large (30B+) 0.7126
11 Qwen/Qwen3-30B-A3B-Thinking-2507: reasoning-enabled Large (30B+) 0.7093
12 Qwen/Qwen3-32B: reasoning-enabled Large (30B+) 0.7083
13 zai-org/GLM-4.5-Air Large (30B+) 0.7045
14 Qwen/Qwen3-30B-A3B: reasoning-enabled Large (30B+) 0.7035
15 Qwen/QwQ-32B: reasoning-enabled Large (30B+) 0.7029
16 openai/gpt-oss-120b: reasoning-enabled Large (30B+) 0.7014
17 rinna/qwq-bakeneko-32b: reasoning-enabled Large (30B+) 0.6910
18 Qwen/Qwen3-8B: reasoning-enabled Small (<10B) 0.6891
19 abeja/ABEJA-Qwen2.5-32b-Japanese-v1.0 Large (30B+) 0.6866
20 Qwen/Qwen3-VL-8B-Thinking Small (<10B) 0.6853

オープンモデル総合スコアの傾向と考察

オープンモデルに限定したランキングを見ると、Qwenシリーズの圧倒的な存在感新興勢力の台頭が特徴的です。

トップ層の分析

DeepSeek V3.2の衝撃

今回特筆すべきはDeepSeek V3.2(Thinking Mode) の登場です。総合スコア0.7905は、オープンモデルとして見るとダントツの首位となる驚異的な数値です。APIとしても提供されていますが、モデルの重みが公開されているオープンモデルでもあるため、オンプレミス環境での利用も可能です。

この0.79というスコアは、商用APIモデルの多くを上回る水準であり、オープンモデルが商用モデルに匹敵どころか凌駕し始めていることを示す象徴的な結果といえます。

2位のQwen3-235B-A22B-Thinking-2507(0.7638) は、前回首位だったDeepSeek-R1-0528を抜いており、中国発モデル間の競争でもDeepSeekだけが最強というわけではありません。また、本モデルは「Thinking」バージョンの追加により、推論能力が大幅に強化されています。

全体ランキングで、すでにご紹介しましたが、注目すべき新顔として、Zhipu AI(智譜AI)のGLM-4.6-FP8(5位、0.7337)GLM-4.5-Air(13位、0.7045) が登場しています。
Zhipu AI(智譜AI)は中国・清華大学の知識工学研究室(KEG)から誕生した会社で、現在は中国の「AIタイガー」企業の1つとして認識されています。このGLMシリーズが日本語タスクでも高い性能を発揮しています。

また、MiniMax-M2(10位、0.7126) も新規参入ながら健闘しており、オープンモデル市場の多様化が進んでいます。さて、MiniMax社ですが、こちらは「大学発」ではなく、中国最大級のAI企業SenseTime社のエキスパートたちが独立して作った「企業発」のスタートアップです。こちらも、「AIタイガー」企業の企業の1つとして認識されています。

このように中国発AI企業の層の厚さは本当に驚かされます。

ビジョンモデルの台頭

ほかにも、今回のランキングで目立つのは、ビジョン対応モデル(VL系)の好成績ではないでしょうか。

  • Qwen3-VL-32B-Thinking: 6位(0.7287)
  • Qwen3-VL-8B-Thinking: 20位(0.6853)

マルチモーダル対応でありながら、テキストタスクでも高い性能を維持している点は注目に値します。

日本製オープンモデル

ひきつづき、17位のrinna qwq-bakeneko-32b(0.6910) は、日本発オープンモデルとして最高位を維持。19位のabeja/ABEJA-Qwen2.5-32b-Japanese-v1.0(0.6866) と上位をキープしつつ是前回からランクダウンをしております。

というのも、中国発AI企業が次々と高性能な新顔モデルを投入しているという現実が垣間見えます。

推論機能の重要性

上位20モデルのうち、16モデルが推論機能(reasoning-enabled/Thinking)を備えている点は前回と同様の傾向です。複雑な推論能力がモデル性能に大きく寄与していることが改めて確認されました。


さて、次は中規模10B~30B程度のモデルをみてみましょう。

中規模モデルのうれしいところは、個人レベルでも比較的入手しやすいGPUでも実行できるところではないでしょうか。16bitモードや量子化版のモデルをつかえば、16GByte~48GB程度のGPUでも推論を動作させることができ、1台のPCに1台のGPUという構成でも利用しやすい点、とっつきやすいモデルといえます。

中規模モデル(10B-30B)総合スコアランキング

順位 モデル名 モデルサイズ 総合スコア
1 Qwen/Qwen3-14B: reasoning-enabled Medium (10–30B) 0.7233
2 google/gemma-3-27b-it Medium (10–30B) 0.6285
3 tokyotech-llm/Gemma-2-Llama-Swallow-27b-it-v0.1 Medium (10–30B) 0.6208
4 google/gemma-3-12b-it Medium (10–30B) 0.5995
5 cyberagent/calm3-22b-chat-selfimprove-experimental Medium (10–30B) 0.5705
6 mistralai/Ministral-3-14B-Reasoning-2512 Medium (10–30B) 0.5608
7 google/gemma-3-4b-it Medium (10–30B) 0.5326

中規模モデル総合スコアの傾向と考察

中規模モデル(10B-30Bパラメータ)のカテゴリでは、Qwen3-14Bの圧倒的な強さが際立っています。

Qwen3-14Bの独走

前回に引き続き、首位のQwen3-14B(0.7233)は、全体ランキングでも33位に位置する優れたモデルです。2位のgemma-3-27b(0.6285)との差は約0.10ポイントと大きく、中規模モデルとしては異次元の性能を発揮しています。

新顔:Ministral-3-14B

6位にMinistral-3-14B-Reasoning-2512(0.5608) が新たにランクインしました。Mistral AIによる中規模推論モデルとして、日本語タスクでも一定の性能を示しています。


さて、最後に小規模モデルもみてみましょう。こうした小型モデルは比較的安価なコンシューマ向けGPUでも動作する点が魅力です。

小規模モデル(10B以下)総合スコアランキング

順位 モデル名 モデルサイズ 総合スコア
1 Qwen/Qwen3-8B: reasoning-enabled Small (<10B) 0.6891
2 Qwen/Qwen3-VL-8B-Thinking Small (<10B) 0.6853
3 Qwen/Qwen3-4B-Thinking-2507: reasoning-enabled Small (<10B) 0.6718
4 Qwen/Qwen3-4B: reasoning-enabled Small (<10B) 0.6612
5 Qwen/Qwen3-VL-4B-Thinking Small (<10B) 0.6604
6 tokyotech-llm/Gemma-2-Llama-Swallow-9b-it-v0.1 Small (<10B) 0.5982
7 tokyotech-llm/Llama-3.1-Swallow-8B-Instruct-v0.5 Small (<10B) 0.5611
8 Qwen/Qwen3-1.7B: reasoning-enabled Small (<10B) 0.5513
9 mistralai/Ministral-3-8B-Reasoning-2512 Small (<10B) 0.5443
10 tokyotech-llm/Gemma-2-Llama-Swallow-2b-it-v0.1 Small (<10B) 0.4906
11 mistralai/Ministral-3-3B-Reasoning-2512 Small (<10B) 0.4571
12 Qwen/Qwen3-0.6B: reasoning-enabled Small (<10B) 0.4089
13 meta-llama/Llama-3.2-3B-Instruct Small (<10B) 0.4040

小規模モデル総合スコアの傾向と考察

小規模モデル(10B以下のパラメータ)は、エッジデバイスやリソース制約のある環境での利用に適しており、驚くほど高い性能を実現しているモデルも存在します。

Qwenシリーズの卓越性

なんと上位5モデルをすべてQwenシリーズが占めています。特に注目すべきは

  • Qwen3-VL-8B-Thinking(2位、0.6853): ビジョン対応でありながら高い総合性能
  • Qwen3-4B-Thinking-2507(3位、0.6718): わずか4Bで0.67超え

新顔:Ministral-3シリーズ

Ministral-3-8B-Reasoning-2512(9位、0.5443)Ministral-3-3B-Reasoning-2512(11位、0.4571) が新たにランクインしました。Mistral AIによる小規模推論モデルとして、日本語タスクでの可能性を示しています。


まとめ、本格導入に向けての道しるべ

前回に引き続き今回も、Nejumi Leaderboard 4のベンチマークデータを分析いたしました。本日(2025年12月18日時点)は、前回の分析から約2か月経っておりますが、たった2か月の間でも、日本語対応LLMの劇的な進化を感じていただけたのではないでしょうか。

史上初の0.80超え時代到来

今回の重要なポイントは、4モデルが総合スコア0.80を突破したことです。
GPT-5.2(0.8285)、Gemini 3 Pro Preview(0.8134)、Claude Opus 4.5(0.8064)という3強体制があらためて確認されました。

わずか2か月前には0.80超えのモデルは存在しなかったことを考えると、技術進歩のスピードは驚異的です。

軽量モデルの革命

Claude Haiku 4.5が総合10位(0.7879)、コーディング10位(0.6130) という結果は、軽量モデルの概念を覆すものです。「軽量」と「高性能」の両立が現実のものとなっています。シレっとランクインしましたが、これはAnthropic社の相当な戦略的リソース投下による技術革新があるとおもわれます。

オープンモデルの新時代と中国発LLMの存在感

オープンモデルの躍進も見逃せません。今回、DeepSeek V3.2(Thinking Mode) が総合0.7905でオープンモデルの総合首位を獲得し、Qwen3-235B-A22B-Thinking-2507が2位。MiniMax-M2やGLM-4.6といった新興勢力も上位に食い込んできました。

興味深いのは、これらの多くが中国発のモデルだという点です。
本レポートは日本語対応LLMの性能を測るベンチマークの分析ですが、中国語と日本語は漢字を共有しているため、中国製モデルには構造的なアドバンテージがある面もあります。とはいえ、それを差し引いても、無料で使えるオープンモデルが有料の商用APIに迫る性能を叩き出しているのは驚きです。

  • DeepSeek V3.2(Thinking Mode) が総合0.7905、コーディング0.6187でオープンモデル最強
  • Qwen3-235B-A22B-Thinking-2507がDeepSeek R1超えでオープンモデル総合2位
  • MiniMax-M2など新興勢力の台頭

モデルサイズ別の特徴

モデルサイズの観点でも、モデルサイズは小さくなりつつも、性能はあがっているという技術進歩が確認されました

カテゴリ 推奨モデル 特徴
大規模 (30B+) Qwen3-235B-Thinking, GLM-4.6 最高性能、商用APIに匹敵
中規模 (10-30B) Qwen3-14B 0.72という異次元の効率性
小規模 (<10B) Qwen3-8B, Qwen3-VL-8B-Thinking エッジ対応でも0.69達成

LLMの本格導入にむけて:用途別の最適なモデル選択

今回もわかりやすく総合スコアでのランキングをもとに解説を進めてまいりましたが、もちろんベンチマークのスコアがすべてではありません。
ビジネス、業務で活用する際に、数値には表れない使い勝手の良さや、特定の業務に特化した強みを持つモデルも存在します。だからこそ、用途に応じた適切なモデル選択が重要になってきます。

しかし、こんな課題はありませんか?

  • 「どのモデルが自社の用途に最適か分からない」
  • 「複数のLLMを契約するのは管理が大変」
  • 「オープンモデルを使いたいが、推論サーバーの構築やメンテが難しい」
  • 「機密情報が外部に漏れないか心配」

そんな課題を解決するのが、Bestllam(ベストラム)です。

Bestllamの3つの強み

①複数LLMを一つのプラットフォームで

GPT-5.2、Claude 4.5 Opus、Gemini 3 Proなどの最新・最高性能の商用モデルに加え、本レポートで紹介したDeepSeek、Qwen、GLMやLlamaなどの高性能オープンモデルまで、20種類以上のLLMを自由に選択可能。複数のLLMに同時に問い合わせて、最適な回答を選ぶこともできます。

また、契約も一本化されるため、個別に複数のサービスと契約する煩雑さから解放されます。

②🔒データを守る、安心のセキュリティ

オープンモデルを活用することで、データを一切海外サーバーに送信しない「越境プロテクションプラン」も選択可能。公共機関や自治体など、高度な情報管理が求められる環境でも安心してご利用いただけます。
また最高性能の商用LLMを選択した場合も、入出力監査機能により情報漏洩を防止することが可能です。

  • 日本国内のデータセンターまたはオンプレミス環境で完全なデータ保護
  • llm-audit による入出力監査機能による情報漏洩防止
  • 個人情報や機密情報の自動検出・マスキング機能
  • 推論サーバーの構築や運用も不要。Bestllamがすべて管理します。

③⚡ 業務効率を劇的に向上

本レポートで上位にランクインしたモデルを活用して、企業・自治体の業務効率を劇的に向上します。

用途 推奨モデル(Bestllamで利用可能)
総合業務 GPT-5.2、Claude Opus 4.5、GPT-5.2
分析・コーディング Gemini 3 Pro、Claude Opus 4.5、Claude Haiku 4.5
画像生成 Gemini 3 Pro Image(Nano Banan Pro)
越境防止 DeepSeek V3.2、Qwen3-235B-Thinking、GLM-4.6

これらのモデルはマルチタスク機能により複数の同時利用が可能で、複数のLLMに問い合わせることで、より正確で信頼性の高い回答を実現します。

また、テキストチャットだけでなく、話題の Nano Banan Proを使った高品質の画像生成などマルチモーダルで利用いただけます。

さらに、経営分析や業務フローを自動化するツール連携(MCP)、社内ドキュメントから必要な情報を探し出すAI検索にも対応。Bestllamひとつで、企業のあらゆるAI活用ニーズに応えます。

こんな企業・組織におすすめです

✅ 複数のLLMを効率的に活用したい企業
✅ データの海外流出を防ぎたい公共機関・自治体
✅ 高性能なオープンモデルを簡単に導入したい開発チーム
✅ 従業員のうっかりミスによる情報漏洩を防ぎたい組織
✅ LLM活用の効果を最大化したいすべてのビジネス

まずは詳細をご確認ください

高性能な商用LLMも、最先端のオープンモデルも高度なセキュリティを維持しつつ快適に利用できるBestllamで貴社のAI活用促進をお手伝いいたします!

Bestllam - エンタープライズ向け統合型LLMプラットフォーム
複数のLLMを同時に活用できる革新的なAIサービス。エンタープライズグレードのセキュリティと認証機能を完備

Read more

DockerビルドでPythonをソースからビルドするとGCCがSegmentation faultする話

DockerビルドでPythonをソースからビルドするとGCCがSegmentation faultする話

こんにちは!Qualitegプロダクト開発部です! 本日は Docker環境でPythonをソースからビルドした際に発生した、GCCの内部コンパイラエラー(Segmentation fault) について共有します。 一見すると「リソース不足」や「Docker特有の問題」に見えますが、実際には PGO(Profile Guided Optimization)とLTO(Link Time Optimization)を同時に有効にした場合に、GCC自身がクラッシュするケースでした。 ただ、今回はDockerによって問題が隠れやすいという点もきづいたので、あえてDockerを織り交ぜた構成でのPythonソースビルドとGCCクラッシュについて実際に発生した題材をもとに共有させていただこうとおもいます 同様の構成でビルドしている方の参考になれば幸いです TL;DR * Docker内でPythonを --enable-optimizations --with-lto 付きでソースビルドすると GCCが internal compiler error(Segmentati

By Qualiteg プロダクト開発部
サブスクビジネス完全攻略 第2回~「解約率5%」が1年後に半分の顧客を消す恐怖と、それを防ぐ科学

サブスクビジネス完全攻略 第2回~「解約率5%」が1年後に半分の顧客を消す恐怖と、それを防ぐ科学

こんにちは! Qualitegコンサルティングです! 前回の第1回では、サブスクリプションビジネスの基本構造と、LTV・ユニットエコノミクスという革命的な考え方を解説しました。「LTV > 3 × CAC」という黄金律、覚えていますか? サブスクビジネス完全攻略 第1回~『アープがさぁ...』『チャーンがさぁ...』にもう困らない完全ガイドなぜサブスクリプションモデルが世界を変えているのか、でもAI台頭でSaaSは終わってしまうの? こんにちは! Qualitegコンサルティングです! 新規事業戦略コンサルタントとして日々クライアントと向き合う中で、ここ最近特に増えているのがSaaSビジネスに関する相談です。興味深いのは、その背景にある動機の多様性です。純粋に収益モデルを改善したい企業もあれば、 「SaaS化を通じて、うちもデジタルネイティブ企業として見られたい」 という願望を持つ伝統的な大企業も少なくありません。 SaaSという言葉が日本のビジネスシーンに本格的に浸透し始めたのは2010年代前半。それから約15年が経ち、今やSaaSは「先進的な企業の証」のように扱われています。

By Qualiteg コンサルティング
Google GenAI SDK のストリーミングでマルチターン画像編集🍌が不安定になる問題と対処法

Google GenAI SDK のストリーミングでマルチターン画像編集🍌が不安定になる問題と対処法

こんにちは! Gemini 3 Pro Image (Nano banana Pro)を使ったマルチターン画像編集機能を実装していたところ、動いたり動かなかったりするという厄介な問題に遭遇しました。 本記事では、この問題の現象、原因調査の過程、そして解決策を共有します。 問題の現象 実行環境 Google GenAI SDKライブラリ(pip): google-genai 1.56.0 期待する動作 1. ユーザー: 「かわいい子猫の画像を生成して」 2. Gemini: 子猫の画像を生成 3. ユーザー: 「この子にメガネをかけて」 4. Gemini: 同じ子猫にメガネをかけた画像を生成 実際に起きた現象 1. ユーザー: 「かわいい子猫の画像を生成して」 2. Gemini: 茶色の子猫の画像を生成 3. ユーザー: 「この子にメガネをかけて」 4. Gemini: メガネをかけた女の子の画像を生成

By Qualiteg プロダクト開発部
【出展報告】TOKYO DIGICONX 2026

【出展報告】TOKYO DIGICONX 2026

こんにちは! 先日、「TOKYO DIGICONX 2026」に出展してまいりましたのでレポートさせていただきます! TOKYO DIGICONX 2026 TOKYO DIGICONX 2026は、2026年1月8日(木)~10日(土)に東京ビッグサイト 南3・4ホールで開催された、XR・メタバース・AI・Web3をテーマにした総合展示会です。 正式名称は「第3回 TOKYO XR・メタバース&コンテンツビジネスワールド」で、東京都、XRコンソーシアム、Metaverse Japan、東京商工会議所で構成されるXR・メタバース等産業展実行委員会が主催しています。 180社以上のスタートアップや企業が出展し、ビジネスデイ(8日・9日)とパブリックデイ(10日)の3日間にわたり、XR・メタバース・AI分野の最前線を体感できるイベントとなりました。 冬の東京ビッグサイト 新年明けて間もない1月の東京ビッグサイト。お正月気分もそこそこに、気合を入れて会場入りしました�

By Qualiteg ビジネス開発本部 | マーケティング部