Gemini 2.5 Pro/Flashにおけるマルチモーダルトークン(画像のトークン数、動画のトークン数など)計算ガイド

Gemini 2.5 Pro/Flashにおけるマルチモーダルトークン(画像のトークン数、動画のトークン数など)計算ガイド
Photo by Towfiqu barbhuiya / Unsplash

こんにちは!

本日は、Gemini 2.5 ProおよびGemini 2.5 Flashを使用する際、料金計算やコンテキストウィンドウの管理において、トークン数の正確な把握は非常に重要です。本記事では、画像、動画、音声といったマルチモーダルコンテンツのトークン計算方法について詳しく解説します。

基本概念:トークンとは

Gemini 2.5シリーズにおいて、1トークンは約4文字に相当し、100トークンは約60-80語(英語)に相当します。すべての入力と出力はトークン単位で処理され、課金もトークン数に基づいて行われます。

Gemini 2.5シリーズのモデルと料金

利用可能なモデル

  • Gemini 2.5 Pro: 高度な推論能力を持つフラグシップモデル
  • Gemini 2.5 Flash: コスト効率に優れた高速モデル
  • Gemini 2.5 Flash Image: 画像生成専用モデル

コンテキストウィンドウ

両モデルとも1,000,000トークンの大規模なコンテキストウィンドウを提供します。

料金体系(プレビュー段階)

モデル 入力料金 出力料金
Gemini 2.5 Pro $4/100万トークン $20/100万トークン
Gemini 2.5 Flash $0.30/100万トークン $2.50/100万トークン
Gemini 2.5 Flash Image - 1画像あたり1290トークン(約$0.039)

画像のトークン計算

動的タイリングシステム

Gemini 2.5シリーズでは、画像サイズに応じた動的なタイリングシステムを採用しています。

小さい画像(384ピクセル以下)

  • 両方の寸法が384ピクセル以下の画像:258トークン固定

大きい画像(384ピクセル超)

  • 768×768ピクセルのタイルに分割
  • 各タイル:258トークン
  • 総トークン数 = タイル数 × 258

実装例

from google import genai

client = genai.Client()
prompt = "この画像について説明してください"

# 画像ファイルをアップロード
image_file = client.files.upload(file="sample_image.jpg")

# トークン数をカウント
token_count = client.models.count_tokens(
    model="gemini-2.5-flash",
    contents=[prompt, image_file]
)
print(f"総トークン数: {token_count}")
# 例: 小さい画像の場合 → total_tokens: 263(テキスト5 + 画像258)

タイル数の計算方法

def calculate_image_tokens(width, height):
    if width <= 384 and height <= 384:
        return 258
    else:
        tiles_width = (width + 767) // 768
        tiles_height = (height + 767) // 768
        return tiles_width * tiles_height * 258

重要なポイント

  • File APIでアップロードした画像とインラインデータとして提供した画像で、トークン数は同じ
  • 画像の解像度に応じてトークン数が変動するため、事前の確認が重要

動画のトークン計算

固定レート方式

動画は時間ベースの固定レートでトークン化されます。

レート:1秒あたり263トークン

計算例

import time
from google import genai

client = genai.Client()
prompt = "この動画の内容を要約してください"

# 動画ファイルをアップロード
video_file = client.files.upload(file="sample_video.mp4")

# 動画処理の完了を待つ
while video_file.state.name != "ACTIVE":
    print("動画を処理中...")
    time.sleep(5)
    video_file = client.files.get(name=video_file.name)

# トークン数をカウント
token_count = client.models.count_tokens(
    model="gemini-2.5-flash",
    contents=[prompt, video_file]
)
print(f"総トークン数: {token_count}")

動画長とトークン数の関係

動画の長さ トークン数
1秒 263
10秒 2,630
1分 15,780
5分 78,900

音声のトークン計算

固定レート方式

音声も時間ベースの固定レートでトークン化されます。

レート:1秒あたり32トークン

音声長とトークン数の関係

音声の長さ トークン数
1秒 32
10秒 320
1分 1,920
5分 9,600

実践的な使用例:使用メタデータの活用

generate_contentを呼び出した後、usage_metadataから詳細なトークン情報を取得できます。

response = client.models.generate_content(
    model="gemini-2.5-flash",
    contents=[prompt, media_file]
)

# 詳細なトークン情報を取得
metadata = response.usage_metadata
print(f"入力トークン: {metadata.prompt_token_count}")
print(f"出力トークン: {metadata.candidates_token_count}")
print(f"総トークン数: {metadata.total_token_count}")

# キャッシュトークンの取得(利用可能な場合)
if hasattr(metadata, 'cached_content_token_count'):
    print(f"キャッシュトークン: {metadata.cached_content_token_count}")

# 思考トークンの取得(思考モデルを使用している場合のみ)
if hasattr(metadata, 'thoughts_token_count'):
    print(f"思考トークン: {metadata.thoughts_token_count}")

コスト最適化のベストプラクティス

1. 事前のトークン数確認

# generate_contentを呼ぶ前にトークン数を確認
estimated_tokens = client.models.count_tokens(
    model="gemini-2.5-flash",
    contents=contents
)
if estimated_tokens > threshold:
    # コンテンツを調整または警告を表示
    pass

2. 画像の最適化

  • 不必要に大きい画像は避ける(タイル数が増えるため)
  • 384ピクセル以下の画像は258トークン固定なので、小さいサムネイルで十分な場合は活用

3. 動画・音声の長さ管理

  • 動画:必要な部分のみを切り出して使用
  • 音声:動画より効率的(同じ1秒で32トークン vs 263トークン)

4. コンテキストキャッシング

Gemini 2.5シリーズでは、コンテキストキャッシングを活用することでトークン使用量を削減できます。キャッシュされたトークンは通常の半額で課金されます。

5. モデルの使い分け

  • 複雑なタスク:Gemini 2.5 Pro
  • 高速処理が必要な場合:Gemini 2.5 Flash
  • コスト重視:Gemini 2.5 Flash(Proの約1/7の入力コスト)

まとめ

Gemini 2.5 Pro/Flashのマルチモーダルトークン計算は以下のルールに従います。

  • 画像: 384px以下は258トークン、それ以上はタイル数×258トークン
  • 動画: 1秒あたり263トークン
  • 音声: 1秒あたり32トークン
  • コンテキストウィンドウ: 両モデルとも100万トークン

これらの計算方法を理解することで、APIの使用コストを予測し、コンテキストウィンドウを効率的に管理できます。特に大規模なマルチモーダルアプリケーションを開発する際は、事前のトークン数確認とコンテンツの最適化が重要です。

参考リンク

より詳細な情報については、Gemini API公式ドキュメントをご参照ください。

関連情報

・OpenAI GPTシリーズの画像トークン消費量計算

【OpenAI API】Vision対応LLMの画像トークン消費量計算法 2025年最新版
こんにちは! OpenAIのVision対応(つまり画像も入力できるLLM)モデルは、画像をトークンに変換する際に2つの異なる計算方式を採用しています。 最新のGPT-5系列やGPT-4.1系列では、従来のタイル方式とは異なるパッチベース方式が導入されました。この変更により、画像処理の効率性が大幅に向上し、より細かな制御が可能になっています。 2つの計算方式の違い OpenAIは現在、パッチベース方式とタイルベース方式という2つの計算方法を並行して運用しています。 パッチベース方式は、GPT-4.1-mini、GPT-4.1-nano、GPT-5-mini、GPT-5-nano、o4-miniといった新世代モデルで採用されています。この方式では画像を32×32ピクセルという非常に小さなパッチに分割します。従来のタイル方式が512×512ピクセルだったことを考えると、約256分の1のサイズで処理することになり、より精密な画像理解が可能になりました。 一方、GPT-4o、GPT-4.1、GPT-5、o1、o3などの主力モデルは引き続きタイルベース方式を採用しています。こちらは

・Anthropic Claudeシリーズの画像トークン消費量計算

Claude 4.5 APIにおける画像入力のトークン数計算と最適化ガイド
こんにちは! 今回は、Claude 4.5 sonnet/haiku、Claude 4.1 OpusをAPIからつかうときの画像のトークン数計算方法について詳しく解説します。 画像トークン数の計算方法 Claude 4.5 APIに送信する画像は、テキストと同様にトークンとしてカウントされ、料金計算の基礎となります。画像がAPIのサイズ制限内でリサイズ不要な場合、以下の簡単な計算式でトークン数を推定できます。 基本計算式 トークン数 = (横幅px × 縦幅px) ÷ 750 この計算式を使用することで、アップロード前にコストを予測し、必要に応じて画像を最適化することが可能になります。例えば、1000×1000ピクセルの画像は約1334トークンを消費し、Claude 4.5の料金体系では、画像1枚あたりのコストを事前に計算できます。1092×1092ピクセル(1.19メガピクセル)の画像であれば約1590トークンとなり、これを基準にバッチ処理のコストも見積もることが可能です。 画像サイズの制限と最適化 Claude 4.5 APIには画像サイズに関するいくつかの重要な

Read more

AIエージェントを"事業に載せる"ために【第1回】

AIエージェントを"事業に載せる"ために【第1回】

AI導入事故は何を示しているのか — AI導入を"事業に載せる"ために、いま設計すべきこと(全3回) こんにちは!Qualitegコンサルティングチームです! AIエージェントを導入する企業が増える一方で、 「試してみる」段階から「事業に載せる」段階へ進める難しさ が、はっきり見え始めています。 本シリーズでは、AIエージェント導入を技術論だけでなく、責任分解・監査可能性・契約・運用統制を含む業務設計の問題として整理します。 全3回を通じて、「AIが賢いかどうか」ではなく、「AIを業務に載せるために何を設計するか」を考えていきます。 第1回となる本記事では、2025年に起きた2つの事例を出発点に、なぜいま「責任設計」が問題になっているのかを見ていきます。 上図は、本シリーズ全体で扱う論点の全体像です。 AIエージェントの導入は、技術的なモデル選定だけでは完結せず、権限設計、契約、監査、品質監視、保険、異常時対応まで含めた設計が必要になります。 第1回ではまず、なぜこうした設計が求められるようになったのかを、実際の事例から見ていきたいとおもいます なお、本シリー

By Qualiteg コンサルティング
PII検出の混同行列では見えないもの ― 認識器間衝突と統合テスト

PII検出の混同行列では見えないもの ― 認識器間衝突と統合テスト

こんにちは!Qualiteg研究部です! 個人情報(PII: Personally Identifiable Information)の自動検出は、テキスト中から特定の表現を抽出し、それがどの種類のPIIに当たるかを判定する問題として捉えることができます。 電話番号、人名、口座番号、金額表現など、検出対象のPIIタイプが増えるにつれて、単一の手法ではカバーしきれなくなり、性質の異なる複数の認識器(Recognizer)を組み合わせるマルチレイヤー構成が採用されるのが一般的です。 本稿で想定しているのは、ユーザーが海外製LLMにチャットを送信する直前に、その内容に個人情報や機密情報が含まれていないかをリアルタイムに検査するユースケースです。 この場面では、検出精度だけでなく、送信体験を損ねない速度が不可欠です。 高精度なLLMやBERT系モデル、NERベースの手法は有力ですが、送信前チェックの第一層として常時適用するには、レイテンシやコストの面で不利になることがあります。 そのため、本システムでは、正規表現、辞書、軽量なルールベース認識器を組み合わせた超高速な第一層を設け、そ

By Qualiteg 研究部, Qualiteg AIセキュリティチーム
日本語対応 LLMランキング2026 ~ベンチマーク分析レポート~(3月6日版)

日本語対応 LLMランキング2026 ~ベンチマーク分析レポート~(3月6日版)

はじめに 本レポートは、Nejumi Leaderboard 4のベンチマークデータ(2026/3/6版)に基づいて、日本語対応LLMの性能を総合的に分析したものです。 前回は 2025/12/18 版の分析レポート を公開しましたが、約3か月でまたもや大きな変動がありました! (定期的に最新LLMランキングを更新してまいります。当社のX(旧Twitter)をフォローいただくことで更新情報を受け取り可能です) Nejumi Leaderboard 4は、日本語タスクにおけるLLMの性能を多角的に評価する信頼性の高いベンチマークとして知られています。 本分析では、商用APIモデルとオープンモデルの両方を対象に、それぞれの特徴や傾向を詳しく見ていきます。 オープンソースモデルについて Weightがオープンなモデルは場合によっては「オープンソースモデル」、「OSSモデル」と呼ばれますが、モデルによっては「オープンソース」と呼ぶには不十分な場合があるため本稿では、「オープンソースモデル」ではなく「オープンモデル」と表現しています。 ベンチマーク分析について 本レポートは

By Qualiteg コンサルティング, Qualiteg プロダクト開発部
日経トレンディ 2026年4月号に Bestllam の広告を掲載しました

日経トレンディ 2026年4月号に Bestllam の広告を掲載しました

こんにちは! このたび、日経トレンディ 2026年4月号(2026年3月4日発売、雑誌)に、当社のエンタープライズ向け統合型AIプラットフォーム「Bestllam」を掲載しました。 日経トレンディ(雑誌)は全国の書店・コンビニエンスストアにてお買い求めいただけますので、お手に取った際はぜひご覧くださいませ。 Bestllam とは? Bestllam は、「チャットで指示するだけ。仕事が終わっている。」をコンセプトに開発した、エンタープライズ向けの統合型AIプラットフォームです。 主な特長 20種類以上のLLMを、契約一本で OpenAI GPT、Anthropic Claude、Google Gemini をはじめ、DeepSeek、Qwen、Llama など商用・オープンソース合わせて20種類以上のLLMを1つの契約で利用できます。各プロバイダと個別に契約を結ぶ手間が不要になります。 6つのLLMに同時質問して、最適な答えを選択 同じ質問を複数のLLMに一括投げかけ、回答を比較・検討できます。各モデルの得意・不得意を活かすことで、重要な意思決定や精度が求められる業

By Qualiteg ビジネス開発本部 | マーケティング部