【2024/5/14更新】LLM 推論 API 料金と推論速度

【2024/5/14更新】LLM 推論 API 料金と推論速度

LLM を API から利用するときに従量課金される料金と生成速度一覧まとめました。順次更新予定です。

【API 料金】 は 100万トークンあたりのアウトプット側 利用料を表示しています。

【生成速度】 は1秒間に何トークン生成できるかを示す " tokens/s"( tokens per second )で表示します。
(生成速度は入出力プロンプトの量・内容によって変動しますので、あくまで参考情報として表示しています)

OpenAI GPT シリーズ

  • OpenAI GPTシリーズ
    • gpt-4o、100万トークンあたり $15.00 (約2250円)、 70 tokens/s
    • gpt-4-turbo-2024-04-09: 100万トークンあたり $30.00 (約4500円)、 45 tokens/s
Credit:OpenAI
    • gpt-3.5-turbo-0125: 100万トークンあたり $1.5 (約225円)、100 tokens/sc

Amazon Bedrock

  • Amazon Bedrock
    • Claude3 Opus: 100万トークンあたり $75 (約11250円)
    • Claude3 Sonnet: 100万トークンあたり $15 (約2250円)
    • Claude3 Haiku: 100万トークンあたり $1.25(約188円)、生成速度 120 tokens/s
    • Llama3 70B: 100万トークンあたり $3.5 (約525円)、生成速度 36.5 tokens/s
    • Llama3 8B: 100万とーくんあたり 生成速度 77.8 tokens/s
credit:Amazon Bedrock

Llama3-8B-instruct を Amazon Bedrock の Playground で動作させ生成速度(tokens/sec)を確認

Llama3-70B-instruct を Amazon Bedrock の Playground で動作させ生成速度(tokens/sec)を確認

Groq

  • Groq
    • Llama3 70B: 100万トークンあたり $0.79(約119円) 、生成速度 302 tokens/s
    • Llama3 8B: 100万トークンあたり $0.1 (約15円)、生成速度 900 tokens/s
Credit:groq.com

Llama3-8B-instruct を Groq で動作させ生成速度(tokens/sec)を確認

Llama3-70B-instruct を Groq で動作させ生成速度(tokens/sec)を確認

fireworks.ai

  • fireworks.ai
    • 16Bモデル: 100万トークンあたり、$0.20 (約30円)、
      例) Llama3-8B-Instruct 269 tokens/sec
    • 80Bモデル: 100万トークンあたり、$0.90 (約135円)、
      例) Llama3-70B-Instruct 200 tokens/sec
credit:fireworks.ai

Llama3-70B-instruct を fireworks.ai で動作させ生成速度(tokens/sec)を確認

Llama3-8B-instruct を fireworks.ai で動作させ生成速度(tokens/sec)を確認

deepseek.com

  • deepseek.com
    • 236Bモデル: 100万トークンあたり、$0.28 (約42円)、
      DeepSeek-V2-Chat ≒25 tokens/sec

Deepseek V2 Chat

まとめ

2024/05/13 に GPT-4o が発表され、100万トークンあたりこれまでの GPT-4-Turboの半額となりクローズドLLMの性能・コスト競争がさらに激しくなっています。

オープンLLMでは、推論速度の点では、2024年5月現在、Groq が頭一つ抜け出ています。コストの点でもオープンな LLM の利用を前提とするならば Groq が優れています。

ただし、チューニングできるポイントやサポートの提供、過去の技術アセット、ノウハウ、人材調達の観点で総合的に判断して採用を決めるものですので採用に際しては総合的判断となるとおもいます。当社でも 上記内容ふくめ幅広い知見・経験をもとにしたLLM サービス構築コンサルティングを行っております。

LLM API を活用して最速でチャットボットを構築する

当社のLLMサービス開発ソリューション ChatStream をご利用いただくと、 LLM API を使用してノーコード・ローコードで本格的な UI を備えたチャットボットを構築可能です。(APIを使用せず、独自のオープンソースLLMをホスティング使用した推論サーバーソリューションも利用可能です)

LLMサービス開発、チャットボット開発についてご興味、ご関心のある方は以下よりお問い合わせくださいませ。
https://qualiteg.com/contact

Read more

PyCharmで npm start 実行時にIDEがサイレントクラッシュした事例と切り分け

PyCharmで npm start 実行時にIDEがサイレントクラッシュした事例と切り分け

こんにちは!Qualitegプロダクト開発部です! PyCharmの内蔵npmツールで npm start を実行した瞬間、何のエラーメッセージもなくIDEが消える。 再起動してもう一度試すとまた落ちる。ログを見ても手がかりがない——。 今回はこの「サイレントクラッシュ」に遭遇し、原因の絞り込みから回避策の確立まで至った過程を書き残しておきます。同じ現象で困っている方の参考になれば幸いです。 環境 項目 内容 OS Windows 10/11 PyCharm 2026.1(2023.1.6時代から連綿とUpdateをした状態) Python 3.11.4(venv使用) Node.js v25.2.1 プロジェクト Python + Node.js 混合構成 上記のとおり、PyCharmは執筆時点の最新版(2026.1)となります。 確認できたこと・推測していること まず最初に、

By Qualiteg プロダクト開発部
大企業のAIセキュリティを支える基盤技術 - 今こそ理解するActive Directory 第6回 よくある問題と解決方法

大企業のAIセキュリティを支える基盤技術 - 今こそ理解するActive Directory 第6回 よくある問題と解決方法

こんにちは、今回はシリーズ第6回トラブルシューティング - よくある問題と解決方法 について解説いたします! さて、前回(第5回)は、統合Windows認証がブラウザでどのように動作するかを解説しました。 「イントラネットゾーン」という概念を理解することで、同じサーバーでもURLの書き方(NetBIOS名、FQDN、IPアドレス)によって認証動作が変わる理由が明確になったかと思います。また、Chrome/Firefoxではデフォルトで統合認証が無効になっている理由と、グループポリシーによる一括設定方法も学びました。 しかし、設定が完璧なはずなのに「なぜかうまく動かない」という場面は、実際の現場では必ず訪れます。 「最近、ファイルサーバーへのアクセスが遅い」「金曜日は使えたのに、月曜日の朝にログインできない」「特定のサービスだけKerberosが失敗する」——これらはヘルプデスクに日々寄せられる典型的な問い合わせです。 原因はKerberosの失敗、時刻のずれ、SPNの設定ミス、DNS関連の問題など多岐にわたりますが、体系的にトラブルシューティングすることで必ず解決できます。

By Qualiteg コンサルティング, Qualiteg AIセキュリティチーム
AIエージェントを"事業に載せる"ために【第2回】AIエージェントの責任分解はなぜ難しいのか

AIエージェントを"事業に載せる"ために【第2回】AIエージェントの責任分解はなぜ難しいのか

— AI導入を"事業に載せる"ために、いま設計すべきこと(全3回) こんにちは!Qualitegコンサルティングチームです! 前回(第1回)では、Replit/Lemkin事件とDeloitte豪州政府報告書問題を通じて、AIエージェント導入の課題がモデル性能ではなく「権限・監査・責任の設計不在」にあることを見ました。 では、実際に事故が起きたとき、責任は誰が負うのでしょうか。第2回となる本記事では、法務・契約・組織の3つの観点から、AIエージェントの責任分解がなぜ難しいのかを構造的に整理します。 結論を先に言えば、法務だけでも契約だけでも組織論だけでも足りません。この3つを接続して設計しなければ、AIエージェントの責任分解は実務上機能しません。 1. 法的フレームワーク:複数の法理論が並走している AIエージェントが損害を出したとき、どの法理論で責任が問われるかについて、現時点でグローバルなコンセンサスは形成されていません。 Clifford Chanceの論考は、この状況の根本的な難しさを整理しています。法律は歴史的に、有害な行為がいつどのように発生したかを特定でき

By Qualiteg コンサルティング
AIエージェントを"事業に載せる"ために【第1回】

AIエージェントを"事業に載せる"ために【第1回】

AI導入事故は何を示しているのか — AI導入を"事業に載せる"ために、いま設計すべきこと(全3回) こんにちは!Qualitegコンサルティングチームです! AIエージェントを導入する企業が増える一方で、 「試してみる」段階から「事業に載せる」段階へ進める難しさ が、はっきり見え始めています。 本シリーズでは、AIエージェント導入を技術論だけでなく、責任分解・監査可能性・契約・運用統制を含む業務設計の問題として整理します。 全3回を通じて、「AIが賢いかどうか」ではなく、「AIを業務に載せるために何を設計するか」を考えていきます。 第1回となる本記事では、2025年に起きた2つの事例を出発点に、なぜいま「責任設計」が問題になっているのかを見ていきます。 上図は、本シリーズ全体で扱う論点の全体像です。 AIエージェントの導入は、技術的なモデル選定だけでは完結せず、権限設計、契約、監査、品質監視、保険、異常時対応まで含めた設計が必要になります。 第1回ではまず、なぜこうした設計が求められるようになったのかを、実際の事例から見ていきたいとおもいます なお、本シリー

By Qualiteg コンサルティング