LLM

Gemini 2.5 Pro/Flashにおけるマルチモーダルトークン(画像のトークン数、動画のトークン数など）計算ガイド

Qualiteg プロダクト開発部

2025年4月20日 — 6 min read

こんにちは！

本日は、Gemini 2.5 ProおよびGemini 2.5 Flashを使用する際、料金計算やコンテキストウィンドウの管理において、トークン数の正確な把握は非常に重要です。本記事では、画像、動画、音声といったマルチモーダルコンテンツのトークン計算方法について詳しく解説します。

基本概念：トークンとは

Gemini 2.5シリーズにおいて、1トークンは約4文字に相当し、100トークンは約60-80語（英語）に相当します。すべての入力と出力はトークン単位で処理され、課金もトークン数に基づいて行われます。

Gemini 2.5シリーズのモデルと料金

利用可能なモデル

Gemini 2.5 Pro: 高度な推論能力を持つフラグシップモデル
Gemini 2.5 Flash: コスト効率に優れた高速モデル
Gemini 2.5 Flash Image: 画像生成専用モデル

コンテキストウィンドウ

両モデルとも1,000,000トークンの大規模なコンテキストウィンドウを提供します。

料金体系（プレビュー段階）

モデル	入力料金	出力料金
Gemini 2.5 Pro	$4/100万トークン	$20/100万トークン
Gemini 2.5 Flash	$0.30/100万トークン	$2.50/100万トークン
Gemini 2.5 Flash Image	-	1画像あたり1290トークン（約$0.039）

画像のトークン計算

動的タイリングシステム

Gemini 2.5シリーズでは、画像サイズに応じた動的なタイリングシステムを採用しています。

小さい画像（384ピクセル以下）

両方の寸法が384ピクセル以下の画像：258トークン固定

大きい画像（384ピクセル超）

768×768ピクセルのタイルに分割
各タイル：258トークン
総トークン数 = タイル数 × 258

実装例

from google import genai

client = genai.Client()
prompt = "この画像について説明してください"

# 画像ファイルをアップロード
image_file = client.files.upload(file="sample_image.jpg")

# トークン数をカウント
token_count = client.models.count_tokens(
    model="gemini-2.5-flash",
    contents=[prompt, image_file]
)
print(f"総トークン数: {token_count}")
# 例: 小さい画像の場合 → total_tokens: 263（テキスト5 + 画像258）

タイル数の計算方法

def calculate_image_tokens(width, height):
    if width <= 384 and height <= 384:
        return 258
    else:
        tiles_width = (width + 767) // 768
        tiles_height = (height + 767) // 768
        return tiles_width * tiles_height * 258

重要なポイント

File APIでアップロードした画像とインラインデータとして提供した画像で、トークン数は同じ
画像の解像度に応じてトークン数が変動するため、事前の確認が重要

動画のトークン計算

固定レート方式

動画は時間ベースの固定レートでトークン化されます。

レート：1秒あたり263トークン

計算例

import time
from google import genai

client = genai.Client()
prompt = "この動画の内容を要約してください"

# 動画ファイルをアップロード
video_file = client.files.upload(file="sample_video.mp4")

# 動画処理の完了を待つ
while video_file.state.name != "ACTIVE":
    print("動画を処理中...")
    time.sleep(5)
    video_file = client.files.get(name=video_file.name)

# トークン数をカウント
token_count = client.models.count_tokens(
    model="gemini-2.5-flash",
    contents=[prompt, video_file]
)
print(f"総トークン数: {token_count}")

動画長とトークン数の関係

動画の長さ	トークン数
1秒	263
10秒	2,630
1分	15,780
5分	78,900

音声のトークン計算

固定レート方式

音声も時間ベースの固定レートでトークン化されます。

レート：1秒あたり32トークン

音声長とトークン数の関係

音声の長さ	トークン数
1秒	32
10秒	320
1分	1,920
5分	9,600

実践的な使用例：使用メタデータの活用

generate_contentを呼び出した後、usage_metadataから詳細なトークン情報を取得できます。

response = client.models.generate_content(
    model="gemini-2.5-flash",
    contents=[prompt, media_file]
)

# 詳細なトークン情報を取得
metadata = response.usage_metadata
print(f"入力トークン: {metadata.prompt_token_count}")
print(f"出力トークン: {metadata.candidates_token_count}")
print(f"総トークン数: {metadata.total_token_count}")

# キャッシュトークンの取得（利用可能な場合）
if hasattr(metadata, 'cached_content_token_count'):
    print(f"キャッシュトークン: {metadata.cached_content_token_count}")

# 思考トークンの取得（思考モデルを使用している場合のみ）
if hasattr(metadata, 'thoughts_token_count'):
    print(f"思考トークン: {metadata.thoughts_token_count}")

コスト最適化のベストプラクティス

1. 事前のトークン数確認

# generate_contentを呼ぶ前にトークン数を確認
estimated_tokens = client.models.count_tokens(
    model="gemini-2.5-flash",
    contents=contents
)
if estimated_tokens > threshold:
    # コンテンツを調整または警告を表示
    pass

2. 画像の最適化

不必要に大きい画像は避ける（タイル数が増えるため）
384ピクセル以下の画像は258トークン固定なので、小さいサムネイルで十分な場合は活用

3. 動画・音声の長さ管理

動画：必要な部分のみを切り出して使用
音声：動画より効率的（同じ1秒で32トークン vs 263トークン）

4. コンテキストキャッシング

Gemini 2.5シリーズでは、コンテキストキャッシングを活用することでトークン使用量を削減できます。キャッシュされたトークンは通常の半額で課金されます。

5. モデルの使い分け

複雑なタスク：Gemini 2.5 Pro
高速処理が必要な場合：Gemini 2.5 Flash
コスト重視：Gemini 2.5 Flash（Proの約1/7の入力コスト）

まとめ

Gemini 2.5 Pro/Flashのマルチモーダルトークン計算は以下のルールに従います。

画像: 384px以下は258トークン、それ以上はタイル数×258トークン
動画: 1秒あたり263トークン
音声: 1秒あたり32トークン
コンテキストウィンドウ: 両モデルとも100万トークン

これらの計算方法を理解することで、APIの使用コストを予測し、コンテキストウィンドウを効率的に管理できます。特に大規模なマルチモーダルアプリケーションを開発する際は、事前のトークン数確認とコンテンツの最適化が重要です。

参考リンク

より詳細な情報については、Gemini API公式ドキュメントをご参照ください。

関連情報

・OpenAI GPTシリーズの画像トークン消費量計算

・Anthropic Claudeシリーズの画像トークン消費量計算

日本語対応 LLMランキング2026　～ベンチマーク分析レポート～（7月10日版）

はじめに本レポートは、Nejumi Leaderboard 4のベンチマークデータ（2026/7/10版）に基づいて、日本語対応LLMの性能を総合的に分析したものです。前回は 2026/3/6 版の分析レポートを公開しましたが、約4か月ぶりとなる今回も、上位勢の顔ぶれが大きく入れ替わる激動の回となりました！（定期的に最新LLMランキングを更新してまいります。当社のX(旧Twitter)をフォローいただくことで更新情報を受け取り可能です） Nejumi Leaderboard 4は、日本語タスクにおけるLLMの性能を多角的に評価する信頼性の高いベンチマークとして知られています。汎用的言語性能（GLP）とアラインメント（ALT）の2軸で構成され、翻訳・要約・推論・コーディングから毒性・バイアス・真実性まで、幅広い観点をカバーしているのが特徴です。本分析では、商用APIモデルとオープンモデルの両方を対象に、それぞれの特徴や傾向を詳しく見ていきます。まず、今回の3大トピックを先にご紹介します。 * Claude Opus 4.8がリーダーボード史上初の総合スコア0.8

Claude Fable5 完全ガイド — 公式ドキュメントから読み解くモデル仕様とClaude Code運用ポイント

こんにちは！ 2026年6月に登場した Claude Fable 5 は、公開直後の輸出規制による一時停止、グローバル再展開、そしてサブスクリプション枠からの離脱と、わずか1か月でめまぐるしい動きを見せています。当ブログでもその時々の状況を追ってきました。まず全体像はついに一般公開、Claude Mythos 5 / Fable 5 を実務視点で読み解くで、公開直後の停止騒動は公開から3日で停止──Fable 5／Mythos 5 をめぐる米政府指令が示した、AI の新しい可用性リスクで、料金と今後の見通しは Claude Fable 5 はこれからどうなる？経緯・コスト・今後の見通しで扱っています。本記事は、それらを踏まえた「実務で使うための決定版ガイド」です。とくに 2026年7月12日（日本時間7月13日）を境にサブスクリプション枠から外れ、使用クレジットを有効化しないと使えなくなる (この期限は当初2026年7月7日とされていましたが、のちに5日間延長されて7月12日になりました。

AI時代のデータ漏洩防止の要諦とテクノロジー：第2回従来型DLPを超えて、AI-DLPが解決すべき本質的課題

こんにちは！前回の記事では、AI時代のデータ漏洩防止における技術的な基礎として、HTTPSインターセプトの仕組みと限界について詳しく解説しました。プロキシサーバーによるSSL/TLS通信の復号化、中間CA証明書の運用、そして証明書ピンニングという技術的制約まで、企業がWeb通信を監視する際の技術的な現実を明らかにしました。しかし、これらのプロキシ技術は、実は既存のDLP製品でも広く採用されている一般的な手法です。メール監視、ファイル転送の制御、Webアクセスの監査など、従来型のデータ漏洩防止においても、HTTPSインターセプトは中核的な役割を果たしてきました。では、なぜAI時代において新たにDLPを考え直す必要があるのでしょうか。前回にひきつづき、従来型DLPでは対応できないAI固有の課題と、AI-DLPとして新たに考慮すべき要素に焦点を当て、より本質的な議論を展開していきます。 1. AI時代が要求する新たなDLP要件従来のDLP製品は、クレジットカード番号や社会保障番号といった定型的なパターンの検出において優れた実績を持っています。これらの技術は今後も重要な

Claude Fable 5はこれからどうなる？経緯・コスト・今後の見通しをファクトベースで整理する

こんにちは！ 2026年7月2日(日本時間)、日本からもClaude Fable 5が再び利用できるようになりました。 2026年6月に大きな注目を集めて登場し、わずか3日で米政府の指令により停止、そして7月1日(米国時間)に復活したAnthropicの最上位モデル「Claude Fable 5」。復活と同時に「サブスクで使えるのは7月7日まで」という条件が付いたことで、利用者の間ではコストへの懸念の声も見られます。本記事では、憶測と事実を切り分けながら、 (1)これまでの経緯、 (2)確定している料金体系、 (3)実際のコスト試算、 (4)今後の見通し、の4点を整理します。確定情報(ファクト)と筆者の推測は明確に区別して書きます。 ※本記事の日付は、特記のない限りAnthropicの発表に基づく米国時間を基準としています。なお当ブログでは、Fable 5 / Mythos 5についてリリース直後の技術解説、米政府指令による停止が示した可用性リスクの考察、Fable 5の安全分類器がClaude Code上で実際にどう振る舞ったかの体験記を公開してきました。

基本概念：トークンとは

Gemini 2.5シリーズのモデルと料金

利用可能なモデル

コンテキストウィンドウ

料金体系（プレビュー段階）

画像のトークン計算

動的タイリングシステム

小さい画像（384ピクセル以下）

大きい画像（384ピクセル超）

実装例

タイル数の計算方法

重要なポイント

動画のトークン計算

固定レート方式

計算例

動画長とトークン数の関係

音声のトークン計算

固定レート方式

音声長とトークン数の関係

実践的な使用例：使用メタデータの活用

コスト最適化のベストプラクティス

1. 事前のトークン数確認

2. 画像の最適化

3. 動画・音声の長さ管理

4. コンテキストキャッシング

5. モデルの使い分け

まとめ

参考リンク

関連情報

・OpenAI GPTシリーズの画像トークン消費量計算

・Anthropic Claudeシリーズの画像トークン消費量計算

Read more

日本語対応 LLMランキング2026 ～ベンチマーク分析レポート～（7月10日版）

Claude Fable5 完全ガイド — 公式ドキュメントから読み解くモデル仕様とClaude Code運用ポイント

AI時代のデータ漏洩防止の要諦とテクノロジー：第2回 従来型DLPを超えて、AI-DLPが解決すべき本質的課題

Claude Fable 5はこれからどうなる？ 経緯・コスト・今後の見通しをファクトベースで整理する

日本語対応 LLMランキング2026　～ベンチマーク分析レポート～（7月10日版）

AI時代のデータ漏洩防止の要諦とテクノロジー：第2回従来型DLPを超えて、AI-DLPが解決すべき本質的課題

Claude Fable 5はこれからどうなる？経緯・コスト・今後の見通しをファクトベースで整理する