LLM

Gemini 2.5 Pro/Flashにおけるマルチモーダルトークン(画像のトークン数、動画のトークン数など）計算ガイド

Qualiteg プロダクト開発部

2025年4月20日 — 6 min read

こんにちは！

本日は、Gemini 2.5 ProおよびGemini 2.5 Flashを使用する際、料金計算やコンテキストウィンドウの管理において、トークン数の正確な把握は非常に重要です。本記事では、画像、動画、音声といったマルチモーダルコンテンツのトークン計算方法について詳しく解説します。

基本概念：トークンとは

Gemini 2.5シリーズにおいて、1トークンは約4文字に相当し、100トークンは約60-80語（英語）に相当します。すべての入力と出力はトークン単位で処理され、課金もトークン数に基づいて行われます。

Gemini 2.5シリーズのモデルと料金

利用可能なモデル

Gemini 2.5 Pro: 高度な推論能力を持つフラグシップモデル
Gemini 2.5 Flash: コスト効率に優れた高速モデル
Gemini 2.5 Flash Image: 画像生成専用モデル

コンテキストウィンドウ

両モデルとも1,000,000トークンの大規模なコンテキストウィンドウを提供します。

料金体系（プレビュー段階）

モデル	入力料金	出力料金
Gemini 2.5 Pro	$4/100万トークン	$20/100万トークン
Gemini 2.5 Flash	$0.30/100万トークン	$2.50/100万トークン
Gemini 2.5 Flash Image	-	1画像あたり1290トークン（約$0.039）

画像のトークン計算

動的タイリングシステム

Gemini 2.5シリーズでは、画像サイズに応じた動的なタイリングシステムを採用しています。

小さい画像（384ピクセル以下）

両方の寸法が384ピクセル以下の画像：258トークン固定

大きい画像（384ピクセル超）

768×768ピクセルのタイルに分割
各タイル：258トークン
総トークン数 = タイル数 × 258

実装例

from google import genai

client = genai.Client()
prompt = "この画像について説明してください"

# 画像ファイルをアップロード
image_file = client.files.upload(file="sample_image.jpg")

# トークン数をカウント
token_count = client.models.count_tokens(
    model="gemini-2.5-flash",
    contents=[prompt, image_file]
)
print(f"総トークン数: {token_count}")
# 例: 小さい画像の場合 → total_tokens: 263（テキスト5 + 画像258）

タイル数の計算方法

def calculate_image_tokens(width, height):
    if width <= 384 and height <= 384:
        return 258
    else:
        tiles_width = (width + 767) // 768
        tiles_height = (height + 767) // 768
        return tiles_width * tiles_height * 258

重要なポイント

File APIでアップロードした画像とインラインデータとして提供した画像で、トークン数は同じ
画像の解像度に応じてトークン数が変動するため、事前の確認が重要

動画のトークン計算

固定レート方式

動画は時間ベースの固定レートでトークン化されます。

レート：1秒あたり263トークン

計算例

import time
from google import genai

client = genai.Client()
prompt = "この動画の内容を要約してください"

# 動画ファイルをアップロード
video_file = client.files.upload(file="sample_video.mp4")

# 動画処理の完了を待つ
while video_file.state.name != "ACTIVE":
    print("動画を処理中...")
    time.sleep(5)
    video_file = client.files.get(name=video_file.name)

# トークン数をカウント
token_count = client.models.count_tokens(
    model="gemini-2.5-flash",
    contents=[prompt, video_file]
)
print(f"総トークン数: {token_count}")

動画長とトークン数の関係

動画の長さ	トークン数
1秒	263
10秒	2,630
1分	15,780
5分	78,900

音声のトークン計算

固定レート方式

音声も時間ベースの固定レートでトークン化されます。

レート：1秒あたり32トークン

音声長とトークン数の関係

音声の長さ	トークン数
1秒	32
10秒	320
1分	1,920
5分	9,600

実践的な使用例：使用メタデータの活用

generate_contentを呼び出した後、usage_metadataから詳細なトークン情報を取得できます。

response = client.models.generate_content(
    model="gemini-2.5-flash",
    contents=[prompt, media_file]
)

# 詳細なトークン情報を取得
metadata = response.usage_metadata
print(f"入力トークン: {metadata.prompt_token_count}")
print(f"出力トークン: {metadata.candidates_token_count}")
print(f"総トークン数: {metadata.total_token_count}")

# キャッシュトークンの取得（利用可能な場合）
if hasattr(metadata, 'cached_content_token_count'):
    print(f"キャッシュトークン: {metadata.cached_content_token_count}")

# 思考トークンの取得（思考モデルを使用している場合のみ）
if hasattr(metadata, 'thoughts_token_count'):
    print(f"思考トークン: {metadata.thoughts_token_count}")

コスト最適化のベストプラクティス

1. 事前のトークン数確認

# generate_contentを呼ぶ前にトークン数を確認
estimated_tokens = client.models.count_tokens(
    model="gemini-2.5-flash",
    contents=contents
)
if estimated_tokens > threshold:
    # コンテンツを調整または警告を表示
    pass

2. 画像の最適化

不必要に大きい画像は避ける（タイル数が増えるため）
384ピクセル以下の画像は258トークン固定なので、小さいサムネイルで十分な場合は活用

3. 動画・音声の長さ管理

動画：必要な部分のみを切り出して使用
音声：動画より効率的（同じ1秒で32トークン vs 263トークン）

4. コンテキストキャッシング

Gemini 2.5シリーズでは、コンテキストキャッシングを活用することでトークン使用量を削減できます。キャッシュされたトークンは通常の半額で課金されます。

5. モデルの使い分け

複雑なタスク：Gemini 2.5 Pro
高速処理が必要な場合：Gemini 2.5 Flash
コスト重視：Gemini 2.5 Flash（Proの約1/7の入力コスト）

まとめ

Gemini 2.5 Pro/Flashのマルチモーダルトークン計算は以下のルールに従います。

画像: 384px以下は258トークン、それ以上はタイル数×258トークン
動画: 1秒あたり263トークン
音声: 1秒あたり32トークン
コンテキストウィンドウ: 両モデルとも100万トークン

これらの計算方法を理解することで、APIの使用コストを予測し、コンテキストウィンドウを効率的に管理できます。特に大規模なマルチモーダルアプリケーションを開発する際は、事前のトークン数確認とコンテンツの最適化が重要です。

参考リンク

より詳細な情報については、Gemini API公式ドキュメントをご参照ください。

関連情報

・OpenAI GPTシリーズの画像トークン消費量計算

・Anthropic Claudeシリーズの画像トークン消費量計算

今からはじめるClaude Code

こんにちは！今日は、最近エンジニアの間で話題になっているAIコーディングエージェント「Claude Code」について取り上げます。 AIによるコーディング支援ツールはここ1〜2年で一気に増え、「結局どれを選べばいいのか分からない」と感じている方も多いのではないでしょうか。本記事では、そうした中でClaude Codeを実際に使ってみた所感と、Windows環境での導入・運用の考え方を整理していきます。 AIコーディングツール、どれを使う？ 2025年は、AIコーディング支援が一気に“実用品”になり、選択肢が増えすぎて迷いやすい年になりました。 GitHub Copilot、Cursor、Windsurf、Devin、Aider、Cline、OpenHandsなど、商用からオープンソースまで含めると、軽く20種類を超えます。機能や思想が似ているものも多く、情報を追うだけで疲れてしまう、という方も少なくないと思います。以前、当社ブログでは「AIコーディングエージェント20選」で全体像を整理しました。 AIコーディングエージェント20選！現状と未来への展望【第1回】

日本語対応 LLMランキング2025　～ベンチマーク分析レポート～(12月18日版)

はじめに本レポートは、Nejumi Leaderboard 4のベンチマークデータ（2025/12/18版）に基づいて、日本語対応LLMの性能を総合的に分析したものです。前回は 2025/10/12 版の分析レポートを公開しましたが、たった2か月で劇的な変化がありました！（定期的に最新LLMランキングを更新してまいります。当社のX(旧Twitter)をフォローいただくことで更新情報を受け取り可能です） Nejumi Leaderboard 4は、日本語タスクにおけるLLMの性能を多角的に評価する信頼性の高いベンチマークとして知られています。本分析では、商用APIモデルとオープンモデルの両方を対象に、それぞれの特徴や傾向を詳しく見ていきます。オープンソースモデルについて Weightがオープンなモデルは場合によっては「オープンソースモデル」、「OSSモデル」と呼ばれますが、モデルによっては「オープンソース」と呼ぶには不十分な場合があるため本稿では、「オープンソースモデル」ではなく「オープンモデル」と表現しています。ベンチマーク分析について本レポートは、

AIコーディングエージェント20選！現状と未来への展望【第1回】全体像と基礎

こんにちは！今回は、20種類以上あるまさに百花繚乱なAIコーディングツールを一挙に紹介＆解説していきたいとおもいます！ AIをつかったコーディングはもはや常識となり、日々目まぐるしく新しいツールが登場しています。当社でも自社開発のAIコーディングツールをふくめ複数のツールを活用してソフトウェア開発をすすめていますが、次々とナイスなツールがでてきて興奮しつつも、正直キャッチアップが追いつかない…！という状況です。「結局どれを使えばいいの？」「Claude CodeとCursorって何が違うの？」「オープンソースでも使えるやつあるの？」——そんな疑問を持っている方も多いのではないでしょうか。そこで本シリーズでは、2025年12月時点でのAIコーディングツールを徹底的に整理してみました。商用サービスからオープンソースまで、20以上のツールを比較しながら、それぞれの特徴や使いどころ、そして現時点での限界についても現場視点をいれながら正直にお伝えしていければとおもいます ※「AIコーディングツール」は「コーディングエージェント」といったほうが今風なので記事内ではコーディングエー

【NPM】クラシックトークンが2025年12月9日に完全廃止されたことに伴うパッケージのインストールエラー(403)と対処法

こんにちは！本日は2025年12月9日に行われた npm に関する重要なアップデートについて解説いたします！ 2025年12月9日、npmがセキュリティ強化のためclassic tokenを完全に無効化しました。この影響で、プライベートパッケージを使用しているプロジェクトで突然npm installが失敗するケースが発生しています。（パブリックパッケージの使用には影響はありません）本記事では、実際に遭遇したエラーと解決方法についてみていきたいと思います。発生した問題症状プライベートパッケージ（@your-org/package-name形式）を含むプロジェクトで npm install を実行すると、以下のようなエラーが発生パターン1: 404エラー npm ERR! code E404 npm ERR! 404 Not Found - GET https://registry.npmjs.org/@your-org/package-name/... npm ERR! 404 '@your-org/package-name@x.x.

基本概念：トークンとは

Gemini 2.5シリーズのモデルと料金

利用可能なモデル

コンテキストウィンドウ

料金体系（プレビュー段階）

画像のトークン計算

動的タイリングシステム

小さい画像（384ピクセル以下）

大きい画像（384ピクセル超）

実装例

タイル数の計算方法

重要なポイント

動画のトークン計算

固定レート方式

計算例

動画長とトークン数の関係

音声のトークン計算

固定レート方式

音声長とトークン数の関係

実践的な使用例：使用メタデータの活用

コスト最適化のベストプラクティス

1. 事前のトークン数確認

2. 画像の最適化

3. 動画・音声の長さ管理

4. コンテキストキャッシング

5. モデルの使い分け

まとめ

参考リンク

関連情報

・OpenAI GPTシリーズの画像トークン消費量計算

・Anthropic Claudeシリーズの画像トークン消費量計算

Read more

今からはじめるClaude Code

日本語対応 LLMランキング2025 ～ベンチマーク分析レポート～(12月18日版)

AIコーディングエージェント20選！現状と未来への展望 【第1回】全体像と基礎

【NPM】クラシックトークンが2025年12月9日に完全廃止されたことに伴うパッケージのインストールエラー(403)と対処法

日本語対応 LLMランキング2025　～ベンチマーク分析レポート～(12月18日版)

AIコーディングエージェント20選！現状と未来への展望【第1回】全体像と基礎