【2024/5/14更新】LLM 推論 API 料金と推論速度

【2024/5/14更新】LLM 推論 API 料金と推論速度

LLM を API から利用するときに従量課金される料金と生成速度一覧まとめました。順次更新予定です。

【API 料金】 は 100万トークンあたりのアウトプット側 利用料を表示しています。

【生成速度】 は1秒間に何トークン生成できるかを示す " tokens/s"( tokens per second )で表示します。
(生成速度は入出力プロンプトの量・内容によって変動しますので、あくまで参考情報として表示しています)

OpenAI GPT シリーズ

  • OpenAI GPTシリーズ
    • gpt-4o、100万トークンあたり $15.00 (約2250円)、 70 tokens/s
    • gpt-4-turbo-2024-04-09: 100万トークンあたり $30.00 (約4500円)、 45 tokens/s
Credit:OpenAI
    • gpt-3.5-turbo-0125: 100万トークンあたり $1.5 (約225円)、100 tokens/sc

Amazon Bedrock

  • Amazon Bedrock
    • Claude3 Opus: 100万トークンあたり $75 (約11250円)
    • Claude3 Sonnet: 100万トークンあたり $15 (約2250円)
    • Claude3 Haiku: 100万トークンあたり $1.25(約188円)、生成速度 120 tokens/s
    • Llama3 70B: 100万トークンあたり $3.5 (約525円)、生成速度 36.5 tokens/s
    • Llama3 8B: 100万とーくんあたり 生成速度 77.8 tokens/s
credit:Amazon Bedrock

Llama3-8B-instruct を Amazon Bedrock の Playground で動作させ生成速度(tokens/sec)を確認

Llama3-70B-instruct を Amazon Bedrock の Playground で動作させ生成速度(tokens/sec)を確認

Groq

  • Groq
    • Llama3 70B: 100万トークンあたり $0.79(約119円) 、生成速度 302 tokens/s
    • Llama3 8B: 100万トークンあたり $0.1 (約15円)、生成速度 900 tokens/s
Credit:groq.com

Llama3-8B-instruct を Groq で動作させ生成速度(tokens/sec)を確認

Llama3-70B-instruct を Groq で動作させ生成速度(tokens/sec)を確認

fireworks.ai

  • fireworks.ai
    • 16Bモデル: 100万トークンあたり、$0.20 (約30円)、
      例) Llama3-8B-Instruct 269 tokens/sec
    • 80Bモデル: 100万トークンあたり、$0.90 (約135円)、
      例) Llama3-70B-Instruct 200 tokens/sec
credit:fireworks.ai

Llama3-70B-instruct を fireworks.ai で動作させ生成速度(tokens/sec)を確認

Llama3-8B-instruct を fireworks.ai で動作させ生成速度(tokens/sec)を確認

deepseek.com

  • deepseek.com
    • 236Bモデル: 100万トークンあたり、$0.28 (約42円)、
      DeepSeek-V2-Chat ≒25 tokens/sec

Deepseek V2 Chat

まとめ

2024/05/13 に GPT-4o が発表され、100万トークンあたりこれまでの GPT-4-Turboの半額となりクローズドLLMの性能・コスト競争がさらに激しくなっています。

オープンLLMでは、推論速度の点では、2024年5月現在、Groq が頭一つ抜け出ています。コストの点でもオープンな LLM の利用を前提とするならば Groq が優れています。

ただし、チューニングできるポイントやサポートの提供、過去の技術アセット、ノウハウ、人材調達の観点で総合的に判断して採用を決めるものですので採用に際しては総合的判断となるとおもいます。当社でも 上記内容ふくめ幅広い知見・経験をもとにしたLLM サービス構築コンサルティングを行っております。

LLM API を活用して最速でチャットボットを構築する

当社のLLMサービス開発ソリューション ChatStream をご利用いただくと、 LLM API を使用してノーコード・ローコードで本格的な UI を備えたチャットボットを構築可能です。(APIを使用せず、独自のオープンソースLLMをホスティング使用した推論サーバーソリューションも利用可能です)

LLMサービス開発、チャットボット開発についてご興味、ご関心のある方は以下よりお問い合わせくださいませ。
https://qualiteg.com/contact

Read more

一文の依頼で、調査から資料作成まで。AIエージェント「Bestllam」のデモ動画を公開しました

一文の依頼で、調査から資料作成まで。AIエージェント「Bestllam」のデモ動画を公開しました

こんにちは! 本日は当社の統合AIプラットフォーム "Bestllam®" の AIエージェント機能のデモをご紹介いたします! 「指示は出せても、AIが本当に仕事を仕上げてくれるのか」 生成AIを業務に取り入れる企業が増えています。 しかし現場からは、こんな本音も聞こえてきます。 「使い方を覚えるより、自分でやったほうが早い」 「指示を細かく出し直しているうちに、結局時間がかかる」 「便利なのは分かるが、機密情報を入力していいのか不安」 AIを"個人の便利ツール"の域から、"部門の成果"へと引き上げる。 これが当社の法人向け統合AIプラットフォーム Bestllam(ベストラム) が掲げるテーマです。 今回、そのAIエージェント機能を実際の操作画面とともに紹介する動画を公開しました。 たった一文の依頼が、7枚のレポートになるまで 動画のデモはシンプルです。エージェントに、こう入力します。 「先月の売上を年代別に分析し、資料にまとめてください」 これだけです。すると、エージェントはまず自分でTODOリストを組み立て、何をどの順番で進めるかという段取りを示します

By Qualiteg ビジネス開発本部 | マーケティング部
NCCL error: unhandled cuda error が出たら ─ WSL2 + マルチGPU + vLLM で詰まった話

NCCL error: unhandled cuda error が出たら ─ WSL2 + マルチGPU + vLLM で詰まった話

こんにちは! Qualitegプロダクト開発部です! 今日は、Windows + WSL2 のマシンに RTX 4090 を2枚挿して、大規模なオープンモデルを vLLM で動かそうとしたら、NCCL の初期化で見事に詰まった話を書きます。 世の中に断片的にしか情報がなく、抜けるまでにかなり粘ったので、同じ構成で消耗している方の時間を少しでも節約できれば嬉しいです。 経緯 今回の目的は、次々と登場する最新のオープンモデル(オープンウェイトのLLM)を、手元で評価することでした。 オープンモデルは数週間単位で新しいものが出てきます。ベンチマークの数字だけでなく、自分たちのユースケースに対して実際にどう振る舞うのか——出力の質、速度、量子化したときの劣化具合、エージェント的なタスクの得手不得手——を、手を動かして確かめています 今回の環境は Windows + WSL2(Ubuntu) に RTX 4090 を2枚(各24GB)挿したマシンです。 nvidia-smi 上の CUDA Version は 12.8。 動かすのは大規模オープンモデルを

By Qualiteg プロダクト開発部
Claude Codeで「The model's tool call could not be parsed」が頻発する問題の原因分析と対策

Claude Codeで「The model's tool call could not be parsed」が頻発する問題の原因分析と対策

こんにちは!Qualitegプロダクト開発部です。 Claude Code(CLI)を使った開発中に、次のようなエラーが繰り返し表示されて作業が止まる現象に遭遇しました。 ● The model's tool call could not be parsed (retry also failed). リトライしても直らず、/clear で会話をリセットしても、しばらく作業を続けるとまた同じエラーが出るという状況です。本記事では、実際のセッションログ(jsonl)を解析して特定した原因と、その対策について共有します。 結論から書くと、これは利用者側の設定ミスやコンテキスト枯渇が原因ではなく、 Opus 4.7(1Mコンテキスト)+ extended thinking の組み合わせで発生する、モデル応答側のストリーミングバグ でした。 現象 エラーが発生した環境は以下のとおりです。 * Claude Code 2.1.148 * モデル: Opus 4.

By Qualiteg プロダクト開発部
Mythos(ミュトス)レベルのオープンモデルはいつ出るのか

Mythos(ミュトス)レベルのオープンモデルはいつ出るのか

こんにちは! 本日は、ここ最近のAI業界で一番ざわついている話題、「Claude Mythos(ミュトス)」とその周辺について書きます。 発表から1ヶ月半が経って、ホワイトハウスの反対、日本のメガバンクの動き、AISIの追加評価、Anthropicの方針転換と、状況がかなり動いてきました。ここで一度、「で、結局オープンソースで同じものが使えるようになるのはいつなの?」という素朴な問いに、数字で答えてみます。 2026年4月7日、AnthropicはClaude Mythos Previewを発表しました。 サイバーセキュリティ能力で人類トップ層に到達したとされる、フロンティアモデルです。 Anthropicは"gated research preview"として、Project Glasswingのローンチパートナー(AWS、Apple、Cisco、CrowdStrike、Google、JPMorganChase、Microsoft、NVIDIAなど)に加え、重要ソフトウェアインフラを担う40超の追加組織に限定して提供しており、一般公開はしていません(Anthropic公式)

By Qualiteg 研究部, Qualiteg コンサルティング