Gemini 2.5 Pro/Flashにおけるマルチモーダルトークン(画像のトークン数、動画のトークン数など)計算ガイド

Gemini 2.5 Pro/Flashにおけるマルチモーダルトークン(画像のトークン数、動画のトークン数など)計算ガイド
Photo by Towfiqu barbhuiya / Unsplash

こんにちは!

本日は、Gemini 2.5 ProおよびGemini 2.5 Flashを使用する際、料金計算やコンテキストウィンドウの管理において、トークン数の正確な把握は非常に重要です。本記事では、画像、動画、音声といったマルチモーダルコンテンツのトークン計算方法について詳しく解説します。

基本概念:トークンとは

Gemini 2.5シリーズにおいて、1トークンは約4文字に相当し、100トークンは約60-80語(英語)に相当します。すべての入力と出力はトークン単位で処理され、課金もトークン数に基づいて行われます。

Gemini 2.5シリーズのモデルと料金

利用可能なモデル

  • Gemini 2.5 Pro: 高度な推論能力を持つフラグシップモデル
  • Gemini 2.5 Flash: コスト効率に優れた高速モデル
  • Gemini 2.5 Flash Image: 画像生成専用モデル

コンテキストウィンドウ

両モデルとも1,000,000トークンの大規模なコンテキストウィンドウを提供します。

料金体系(プレビュー段階)

モデル 入力料金 出力料金
Gemini 2.5 Pro $4/100万トークン $20/100万トークン
Gemini 2.5 Flash $0.30/100万トークン $2.50/100万トークン
Gemini 2.5 Flash Image - 1画像あたり1290トークン(約$0.039)

画像のトークン計算

動的タイリングシステム

Gemini 2.5シリーズでは、画像サイズに応じた動的なタイリングシステムを採用しています。

小さい画像(384ピクセル以下)

  • 両方の寸法が384ピクセル以下の画像:258トークン固定

大きい画像(384ピクセル超)

  • 768×768ピクセルのタイルに分割
  • 各タイル:258トークン
  • 総トークン数 = タイル数 × 258

実装例

from google import genai

client = genai.Client()
prompt = "この画像について説明してください"

# 画像ファイルをアップロード
image_file = client.files.upload(file="sample_image.jpg")

# トークン数をカウント
token_count = client.models.count_tokens(
    model="gemini-2.5-flash",
    contents=[prompt, image_file]
)
print(f"総トークン数: {token_count}")
# 例: 小さい画像の場合 → total_tokens: 263(テキスト5 + 画像258)

タイル数の計算方法

def calculate_image_tokens(width, height):
    if width <= 384 and height <= 384:
        return 258
    else:
        tiles_width = (width + 767) // 768
        tiles_height = (height + 767) // 768
        return tiles_width * tiles_height * 258

重要なポイント

  • File APIでアップロードした画像とインラインデータとして提供した画像で、トークン数は同じ
  • 画像の解像度に応じてトークン数が変動するため、事前の確認が重要

動画のトークン計算

固定レート方式

動画は時間ベースの固定レートでトークン化されます。

レート:1秒あたり263トークン

計算例

import time
from google import genai

client = genai.Client()
prompt = "この動画の内容を要約してください"

# 動画ファイルをアップロード
video_file = client.files.upload(file="sample_video.mp4")

# 動画処理の完了を待つ
while video_file.state.name != "ACTIVE":
    print("動画を処理中...")
    time.sleep(5)
    video_file = client.files.get(name=video_file.name)

# トークン数をカウント
token_count = client.models.count_tokens(
    model="gemini-2.5-flash",
    contents=[prompt, video_file]
)
print(f"総トークン数: {token_count}")

動画長とトークン数の関係

動画の長さ トークン数
1秒 263
10秒 2,630
1分 15,780
5分 78,900

音声のトークン計算

固定レート方式

音声も時間ベースの固定レートでトークン化されます。

レート:1秒あたり32トークン

音声長とトークン数の関係

音声の長さ トークン数
1秒 32
10秒 320
1分 1,920
5分 9,600

実践的な使用例:使用メタデータの活用

generate_contentを呼び出した後、usage_metadataから詳細なトークン情報を取得できます。

response = client.models.generate_content(
    model="gemini-2.5-flash",
    contents=[prompt, media_file]
)

# 詳細なトークン情報を取得
metadata = response.usage_metadata
print(f"入力トークン: {metadata.prompt_token_count}")
print(f"出力トークン: {metadata.candidates_token_count}")
print(f"総トークン数: {metadata.total_token_count}")

# キャッシュトークンの取得(利用可能な場合)
if hasattr(metadata, 'cached_content_token_count'):
    print(f"キャッシュトークン: {metadata.cached_content_token_count}")

# 思考トークンの取得(思考モデルを使用している場合のみ)
if hasattr(metadata, 'thoughts_token_count'):
    print(f"思考トークン: {metadata.thoughts_token_count}")

コスト最適化のベストプラクティス

1. 事前のトークン数確認

# generate_contentを呼ぶ前にトークン数を確認
estimated_tokens = client.models.count_tokens(
    model="gemini-2.5-flash",
    contents=contents
)
if estimated_tokens > threshold:
    # コンテンツを調整または警告を表示
    pass

2. 画像の最適化

  • 不必要に大きい画像は避ける(タイル数が増えるため)
  • 384ピクセル以下の画像は258トークン固定なので、小さいサムネイルで十分な場合は活用

3. 動画・音声の長さ管理

  • 動画:必要な部分のみを切り出して使用
  • 音声:動画より効率的(同じ1秒で32トークン vs 263トークン)

4. コンテキストキャッシング

Gemini 2.5シリーズでは、コンテキストキャッシングを活用することでトークン使用量を削減できます。キャッシュされたトークンは通常の半額で課金されます。

5. モデルの使い分け

  • 複雑なタスク:Gemini 2.5 Pro
  • 高速処理が必要な場合:Gemini 2.5 Flash
  • コスト重視:Gemini 2.5 Flash(Proの約1/7の入力コスト)

まとめ

Gemini 2.5 Pro/Flashのマルチモーダルトークン計算は以下のルールに従います。

  • 画像: 384px以下は258トークン、それ以上はタイル数×258トークン
  • 動画: 1秒あたり263トークン
  • 音声: 1秒あたり32トークン
  • コンテキストウィンドウ: 両モデルとも100万トークン

これらの計算方法を理解することで、APIの使用コストを予測し、コンテキストウィンドウを効率的に管理できます。特に大規模なマルチモーダルアプリケーションを開発する際は、事前のトークン数確認とコンテンツの最適化が重要です。

参考リンク

より詳細な情報については、Gemini API公式ドキュメントをご参照ください。

関連情報

・OpenAI GPTシリーズの画像トークン消費量計算

【OpenAI API】Vision対応LLMの画像トークン消費量計算法 2025年最新版
こんにちは! OpenAIのVision対応(つまり画像も入力できるLLM)モデルは、画像をトークンに変換する際に2つの異なる計算方式を採用しています。 最新のGPT-5系列やGPT-4.1系列では、従来のタイル方式とは異なるパッチベース方式が導入されました。この変更により、画像処理の効率性が大幅に向上し、より細かな制御が可能になっています。 2つの計算方式の違い OpenAIは現在、パッチベース方式とタイルベース方式という2つの計算方法を並行して運用しています。 パッチベース方式は、GPT-4.1-mini、GPT-4.1-nano、GPT-5-mini、GPT-5-nano、o4-miniといった新世代モデルで採用されています。この方式では画像を32×32ピクセルという非常に小さなパッチに分割します。従来のタイル方式が512×512ピクセルだったことを考えると、約256分の1のサイズで処理することになり、より精密な画像理解が可能になりました。 一方、GPT-4o、GPT-4.1、GPT-5、o1、o3などの主力モデルは引き続きタイルベース方式を採用しています。こちらは

・Anthropic Claudeシリーズの画像トークン消費量計算

Claude 4.5 APIにおける画像入力のトークン数計算と最適化ガイド
こんにちは! 今回は、Claude 4.5 sonnet/haiku、Claude 4.1 OpusをAPIからつかうときの画像のトークン数計算方法について詳しく解説します。 画像トークン数の計算方法 Claude 4.5 APIに送信する画像は、テキストと同様にトークンとしてカウントされ、料金計算の基礎となります。画像がAPIのサイズ制限内でリサイズ不要な場合、以下の簡単な計算式でトークン数を推定できます。 基本計算式 トークン数 = (横幅px × 縦幅px) ÷ 750 この計算式を使用することで、アップロード前にコストを予測し、必要に応じて画像を最適化することが可能になります。例えば、1000×1000ピクセルの画像は約1334トークンを消費し、Claude 4.5の料金体系では、画像1枚あたりのコストを事前に計算できます。1092×1092ピクセル(1.19メガピクセル)の画像であれば約1590トークンとなり、これを基準にバッチ処理のコストも見積もることが可能です。 画像サイズの制限と最適化 Claude 4.5 APIには画像サイズに関するいくつかの重要な

Read more

主要LLMプロバイダーのAPI料金表 — Claude / GPT / Gemini/Grok 【2026年5月13日時点】

主要LLMプロバイダーのAPI料金表 — Claude / GPT / Gemini/Grok 【2026年5月13日時点】

こんにちは、 今回は、主要LLMプロバイダー( Claude / GPT /Gemini/Grok)のAPI料金表  をまとめてみました。(2026年5月13日時点) プロバイダ別 料金一覧 まずは各社の現行ラインナップを縦に並べた一覧をご紹介します。価格はすべて per 1M tokens、円表記は 1ドル=160円換算です。 Anthropic(Claude) モデル Status Context Input Output Cached Input Claude Opus 4.7 Fast Mode Beta(Opus専用) 1M $30.00<br>(¥4,800) $150.00<br>

By Qualiteg プロダクト開発部
コーディングエージェントの現状と未来への展望 【第3回】"書くAI"から"指揮するAI"へ──2026年の開発現場で起きている変化

コーディングエージェントの現状と未来への展望 【第3回】"書くAI"から"指揮するAI"へ──2026年の開発現場で起きている変化

こんにちは! コーディングエージェントシリーズ、ついに最終回です! 2026年に入り、Claude Code、Cursor 3、GitHub Copilot Coding Agentはいずれも、単なるコード補完やチャット型支援を超え、複数エージェントを使った開発ワークフローへ進化しつつあります。本稿では、AIコーディングエージェントの最新動向を、Claude CodeのAuto Memory / Subagents、Cursor 3のAgents Window、GitHub CopilotのCoding Agent、そしてSWE-benchの読み方まで含めて整理します。 第1回では、2025年12月時点で百花繚乱状態にあったAIコーディングエージェントの全体像を俯瞰し、商用からOSSまで20以上のツールを「CLIベース」「IDE統合型」「AI特化IDE型」「自律型」の4つのカテゴリに整理しました。 第2回では、Claude Code・Codex CLI・Aiderを詳細比較したうえで、現在のコーディングエージェントが共通して抱える構造的課題——コンテキストウィンドウの限界、セッ

By Qualiteg コンサルティング
Windows版 Claude Code を irm でインストールして「claude is not recognized」を直すまで

Windows版 Claude Code を irm でインストールして「claude is not recognized」を直すまで

こんにちは! 公式PowerShellインストーラー(irm https://claude.ai/install.ps1 | iex)で Claude Code を入れたのに、claude --version を叩くと「The term 'claude' is not recognized as a name of a cmdlet...」と怒られるときがあります これは Anthropic 公式 GitHub にも報告されている 既知のバグで、インストーラーが PATH の追加を忘れています。実際にインストール作業をやって詰まったので、最短の解決手順をまとめます。 環境 * Windows 11 * PowerShell 7.x(コードは PowerShell

By Qualiteg プロダクト開発部
Claude Opus 4.7 完全ガイド — 公式情報で読み解くモデル仕様とClaude Codeでの実践ノウハウ

Claude Opus 4.7 完全ガイド — 公式情報で読み解くモデル仕様とClaude Codeでの実践ノウハウ

こんにちは! Qualitegプロダクト開発部です! 2026年4月に、AnthropicからClaude Opus 4.7がリリースされました。 今回のアップデートは、単にベンチマークが上がったという話ではありません。命令の解釈の仕方、応答長、ツール呼び出しの頻度、subagentの起動方針まで、モデルの振る舞いそのものが変わっています。 それに伴い、4.6までに作り込んだプロンプトや設定の一部は、外したり再評価したりする必要があります。本記事では、そうした移行時の落とし穴と、4.7時代に合わせた運用作法を、できるだけ実践的にまとめました。 この記事では、まずOpus 4.7で何が変わったのかを確認し、そのうえでClaude Code CLI版とClaude Code Web版でどう使いこなすべきかを見ていきます。 (通常のclaude.aiチャットUIは対象外です。) なお、けっこう長めの記事になっているので、 頭から通読していただく必要はありません。 下の目次から、気になるところや今すぐ困っているところだけ拾い読みしていただいて大丈夫です。 たとえば「とりあえず4.

By Qualiteg プロダクト開発部