【解説】Tekken トークナイザーとは何か? 〜 Mistral が採用する新世代トークナイザーの特徴

【解説】Tekken トークナイザーとは何か? 〜 Mistral が採用する新世代トークナイザーの特徴

こんにちは!

本日は、Tekkenについて解説いたします!

皆さま Tekken と聞いて何を思い浮かべますか?

格ゲーの鉄拳でしょうか?

私は、昔プレイした Age of Empires に登場する鉄剣戦士を思い浮かべました🤗
ちょっと古いかもしれませんが、名作です!

さてつかみはこのくらいにして、、
LLMはご存じのとおり驚異的なスピードで進化しています。そんな中でひそかに注目されているのが、トークナイザーの改善です。

たとえば、Meta の Llama 系モデルのトークナイザーは Sentence Piece から BPE系へ進化するなど、LLM業界では従来よりも高効率なトークナイズ(テキスト分割)の方法を導入し始めています。

そして Mistral AI もまた、新たに「Tekken トークナイザー」という仕組みを採用し、大規模言語モデルの性能を底上げしています。

本記事では、Tekken トークナイザーの登場背景や技術的特徴、他のトークナイザーとの違い、さらには Mistral との関係などをわかりやすく解説していきます。


1. Tekken トークナイザーの登場背景

1-1. Mistral AI と長大コンテキストへの挑戦

Mistral AI(以下、Mistral)はLLM業界で最も注目されているスタートアップの1つで、従来モデル(例:Mistral 7B)に続き、大規模なコンテキスト長をサポートするMistral NeMoなどのシリーズをリリースしています。特に Mistral NeMo は 128k にものぼる巨大なコンテキスト長を持つことが特徴です。

先日(2025/1/30)に発表された Mistral Small 3 も32Kコンテクストをもっています。

このように大きなコンテキストを扱う上で非常に重要になるのが、1 トークンあたりの情報量を増やすことです。もしもトークナイザーが非効率だと、実際の入力テキストが “かさばって” しまい、128k トークンのコンテキストがあっても十分に使い切れません。

そこで Mistral は、従来の SentencePiece や BPE(Byte-Pair Encoding)の代わりに、Tekken トークナイザーを開発・導入し、より効率の良いトークナイズを実現しました。

1-2. リリース時期

Tekken トークナイザーが初めて一般公開向けに導入されたのは、2024年7月で、 Mistral AI と NVIDIA が共同開発したモデル群(通称:Mistral NeMo シリーズ)がリリースと同時にはっぴょうされています。


2. Tekken トークナイザーの技術的特徴

2-1. BPEベース + 多言語対応

Tekken トークナイザーは、いわゆる サブワード分割 と呼ばれる手法の一種で、OpenAI の tiktoken をベースにした Byte-Pair Encoding (BPE) を採用しています。これは、多言語やプログラミング言語における文字列を高効率に分割する方式です。

  • 多言語コーパスを大規模に学習しており、100以上の言語に対応
  • ソースコードや特殊文字を含む多種多様なテキストにも対応

特に、英語以外の言語に強い設計となっており、日本語や韓国語、中国語、アラビア語などの言語圏でも、従来のトークナイザーより少ないトークン数で表現できるようになっています。

2-2. 大規模ボキャブラリーと高い圧縮率

従来の LLM 用トークナイザー(たとえば SentencePiece を使う LLaMA など)は、語彙(ボキャブラリー)サイズが 3 万〜 6 万程度という場合が多いです。
一方、Tekken トークナイザーでは、約 13 万語 という非常に大きな語彙サイズを持ち、さらに 1000 個以上の制御トークン も含めることで、トータル 13 万超のトークンを扱えます。

語彙サイズを大きくする利点は、圧縮率(1 単語を何トークンに分割するか)の向上につながる点です。珍しい単語や長い固有名詞、プログラミング言語のキーワードなどをひとまとまりのトークンとして扱えるため、トークン分割後の列がより短くなります。結果として、「128k トークンでより多くの実テキストを読み込める」というわけです。

2-3. 特殊トークン(制御トークン)の導入

Tekken トークナイザーは最初の 10〜 14 個程度のトークンを制御トークンとして予約していることが挙げられます。

  • <unk>(未知語)、<s>(文頭)、</s>(文末) など標準的なもの
  • "[INST]", "[TOOL_RESULTS]", "[/INST]" など、Mistral がプロンプト内で使う特殊タグ

こうした制御トークンを、プロンプト設計の段階から明示的に挿入することで、プロンプトの構造を守りながらモデルとのやり取りが可能になります。また、プロンプトインジェクション対策やツール実行のプロンプト管理に役立つ仕組みもここに含まれており、通常のトークナイザーより高度な役割を担っています。


3. 他のトークナイザーとの違い

Tekken トークナイザーが注目される理由は、その圧倒的なトークン効率多言語・汎用性にあります。
従来モデルで採用されることが多かった SentencePiece や、GPT 系でよく使われる BPE でも十分に高品質ではありますが、Tekken は以下の点で優位性を持つとされています。

  1. 圧縮率が高い
    • 例えば日本語では約 1.5〜 2 倍、アラビア語では 2〜 3 倍効率的にトークン化できる事例が報告されています。
  2. 語彙サイズが大きい
    • およそ 13 万語をカバーしているため、テクニカルタームや複数の言語が混在したテキストも細かく分割し過ぎることなく処理しやすい。
  3. 制御トークンの標準搭載
    • プロンプトの構造管理や対話文脈の明確化に貢献するため、単なる “分かち書き” だけでなく、安全な対話フローの実装を下支えする。

もちろん、トークナイザーのボキャブラリーが大きければ大きいほど学習コストは増える可能性があり、一概に大きければ良いというわけでもありません。しかし、Mistral のように超長コンテキストを扱うモデルであれば、最終的な「使用トークンの総数」や「1 トークンあたりが抱える情報の密度」が向上するため、大きなメリットを得られると考えられます。

4.Tekkenトークナイザーが一番優れたトークナイザーなの?→「こたえはNO」

ここまで書くと、Tekkenが一番優れており、 Sentence Pieceより Tekkenのほうが上、のように勘違いしそうですが、そんなことはありません。

Sentence Piece というエンジンだけが存在するわけではなく、扱う言語をどう効率的に単位分割するか、ということになりますので、たとえば、日本語に特化したLLMを作る場合は、多言語13万トークンを抱えるTekkenよりも、3.2万トークン程度のSentence Piece のほうが、効率が高いということはふつうにあえります。

実際のトークン数をはかってみる

せっかくなので、実際に文章をトークナイズしてみましょう。

# 必要なライブラリのインストール
# !pip install transformers sentencepiece #colab使いたい場合はコメント解除

from transformers import AutoTokenizer
from huggingface_hub import login

# Hugging Faceにログイン
login(token="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")

# Mistral Nemo(Tekken)のトークナイザー
mistral_tokenizer = AutoTokenizer.from_pretrained("mistralai/Mistral-Small-24B-Instruct-2501")

# Llama3のトークナイザー
llama_tokenizer = AutoTokenizer.from_pretrained("tokyotech-llm/Llama-3-Swallow-70B-Instruct-v0.1")

# rinnaのトークナイザー(SentencePieceベース)
rinna_tokenizer = AutoTokenizer.from_pretrained("rinna/japanese-gpt-neox-3.6b")

# テスト用テキスト

text = """
人工知能は急速に進化しており、自然言語処理や機械学習の分野で革新的な成果を上げています。
特に大規模言語モデルの発展により、人間のような自然な対話や文章生成が可能になってきました。
"""
print("=== Tekken(Mistral Nemo)での処理 ===")
# トークナイズしてID列を取得
tokens_tekken = mistral_tokenizer.encode(text)
print("トークンID列:", tokens_tekken)
print("トークン数:", len(tokens_tekken))  # トークン数を表示

# ID列をそのままトークン文字に戻すと"部分バイト"が可視化されるため、文字化けのように見える
decoded_tekken = mistral_tokenizer.decode(tokens_tekken, skip_special_tokens=True)
print("decode()後の文字列:", decoded_tekken)

print("\n=== rinna(SentencePiece)での処理 ===")
tokens_rinna = rinna_tokenizer.encode(text)
print("トークンID列:", tokens_rinna)
print("トークン数:", len(tokens_rinna))  # トークン数を表示
# SentencePiece系はトークン文字列を直接見ても比較的読める形
tokens_rinna_decoded = rinna_tokenizer.convert_ids_to_tokens(tokens_rinna)
print("convert_ids_to_tokens:", tokens_rinna_decoded)
decoded_rinna = rinna_tokenizer.decode(tokens_rinna)
print("decode()後の文字列:", decoded_rinna)

実行結果

はい、このように、日本語特化したrinnaモデルの場合(rinna (japanese-gpt-neox-3.6b など)SentencePiece ベース)、Tekkenよりふつうにトークン効率がいいことがわかりました。

=== Tekken(Mistral Nemo)での処理 ===
トークンID列: [1, 1010, 3405, 26247, 7422, 15928, 2312, 36783, 42135, 2650, 38500, 23403, 5013, 48267, 1749, 43090, 7565, 15199, 5747, 1166, 12894, 5115, 23496, 28883, 1176, 12104, 12904, 1146, 2439, 5020, 23585, 2701, 38980, 11795, 2713, 2768, 5862, 9890, 4187, 66142, 2973, 29062, 1844, 50775, 5368, 47960, 86061, 7565, 15199, 24222, 69030, 2439, 9045, 60288, 74112, 1749, 113283, 2439, 98915, 43090, 2768, 22949, 8888, 5115, 117160, 7360, 5862, 3322, 31470, 52139, 6409, 8294, 25004, 1844]
トークン数: 74
decode()後の文字列: 
人工知能は急速に進化しており、自然言語処理や機械学習の分野で革新的な成果を上げています。
特に大規模言語モデルの発展により、人間のような自然な対話や文章生成が可能になってきました。


=== rinna(SentencePiece)での処理 ===
トークンID列: [263, 30008, 271, 16351, 8152, 1041, 264, 1770, 1920, 3001, 296, 2483, 3744, 16174, 13952, 618, 9655, 15104, 18732, 265, 263, 1085, 9273, 1920, 1120, 8824, 364, 264, 1609, 1976, 1770, 334, 17585, 296, 9572, 5195, 5778, 3642, 454, 5736, 265, 3]
トークン数: 42
convert_ids_to_tokens: ['▁', '人工知能', 'は', '急速に', '進化', 'しており', '、', '自然', '言語', '処理', 'や', '機械', '学習', 'の分野で', '革新', '的な', '成果', 'を上げ', 'ています', '。', '▁', '特に', '大規模', '言語', 'モデル', 'の発展', 'により', '、', '人間', 'のような', '自然', 'な', '対話', 'や', '文章', '生成', 'が可能', 'になって', 'き', 'ました', '。', '</s>']
decode()後の文字列: 人工知能は急速に進化しており、自然言語処理や機械学習の分野で革新的な成果を上げています。 特に大規模言語モデルの発展により、人間のような自然な対話や文章生成が可能になってきました。</s>

またLlama3 (Swallow 70B など)SentencePiece ではなく、GPT 系統の Byte-Pair Encoding (BPE→tiktoken ベース) ですがこれも状況によりトークナイザーの果たすトークン化効率は異なるため、横で比較して Tekken,Llama3,Sentence Piece のどのトークナイザーが優れてるかという事を議論することにあまり意味はないでしょう。(そもそもトークナイザーの効率だけを議論することにあまり意味ないですね)

5. Mistral における採用理由と利用状況

5-1. 多言語モデル性能の向上

Mistral は多言語対応に力を入れており、英語だけでなく、日本語や中国語、韓国語などさまざまな言語で高い性能を目指しています。そのためには、言語ごとのトークナイズが適切であることが不可欠です。Tekken が高い圧縮率と汎用性を備えていることは、多言語モデルで真価を発揮します。

5-2. 長大コンテキストを活用しやすい

前述の通り、Tekken はトークン数を減らせるため、同じコンテキスト長でもより大量の実テキストを扱えます。Mistral NeMo は 128k トークンという長さをサポートするので、従来よりもずっと長い文章やドキュメント、ソースコードを一度に処理するユースケース(例:ドキュメントアナリティクス、コードレビューなど)で大きなアドバンテージを得られます。

5-3. 安全で柔軟なプロンプト構造

Tekken トークナイザーには、プロンプトを構造化するための制御トークンがビルトインされています。これは、Mistral が将来的に進めようとしている「エージェント機能やツール呼び出しの活用」において特に重要です。


エージェントが外部サービスを呼び出して結果を受け取る際、"[TOOL_RESULTS]" のような特殊トークンで区切られたテキストをモデルが安全・確実に扱えるというメリットがあります。これにより、プロンプトインジェクションへの耐性を高めたり、ユーザ入力とツール出力を混同しにくくしたりできるわけですね。


6. まとめ 〜 Tekken トークナイザーがもたらす進化

Tekken トークナイザーは、

  • 多言語・コード対応
  • 高圧縮・大ボキャブラリー
  • 制御トークンによる安全・柔軟なプロンプト構造

といった特徴を兼ね備えた新世代のトークナイザーです。Mistral が大規模コンテキストを活用するうえで、「可能な限り 1 トークン当たりの情報量を増やしたい」という要望を実現し、さらに対話型 AI が活躍する未来のために、プロンプト構造を活用しやすい仕組みを組み込みました。

今後、Mistral 以外のモデルやフレームワークでも Tekken を採用する動きが広がるかもしれません。

Tekken に限らずトークナイズの効率化はモデル性能向上の一端を担いますので、大規模言語モデル業界においては引き続き熱いトピックとなるでしょう!

Read more

[AI新規事業創出]Qualitegオリジナル、アイディア評価、事業アイディア選定方法

[AI新規事業創出]Qualitegオリジナル、アイディア評価、事業アイディア選定方法

Qualiteg blogを訪問してくださった皆様、こんにちは。Micheleです。AIを活用した新規事業やマーケティングを手がけている私には、クライアントからよく寄せられる質問があります。AIを用いた事業展開を検討されている方々が共通して直面するであろう課題に対して、このブログを通じて私なりの解答をご提供したいと思います。 はじめに AI技術の急速な発展は、スタートアップから大企業まで、あらゆるビジネスに新たな可能性をもたらしています。クライアントとの会話の中でも、AIを活用した革新的な事業アイディアに関する相談が増えています。 しかし、多くの企業が「素晴らしいアイディアを思いついた!」と興奮しながらも、そのアイディアを具体化し、成功に導くための方法論に悩んでいるのも事実です。特にAIを用いた事業展開においては、従来のビジネスモデルとは異なる視点が必要となるため、その難しさはさらに増します。 本記事では、Qualitegオリジナルのアイディア評価、事業アイディア選定方法について解説します。特に、AIを用いた事業展開を検討されている方々が共通して直面するであろう課題に対して、

By Join us, Michele on Qualiteg's adventure to innovation
日本語対応!Mistral Small v3 解説

日本語対応!Mistral Small v3 解説

こんにちは! Mistral AIは2025年1月30日、新しい言語モデル「Mistral Small v3」を発表しました。このモデルは、24Bという比較的小規模なパラメータ数ながら、70B以上の大規模モデルに匹敵する性能を実現しています。また日本語対応も謳われており期待の高い小型モデルです! https://huggingface.co/mistralai/Mistral-Small-24B-Instruct-2501 動画 こちら本ブログの解説動画もご覧いただけます😊 きわだってるのは、レイテンシー最適化 Mistral Small 3のめだった特徴は、その処理性能とレイテンシーの絶妙なバランスではないでしょうか。 公開されている以下の性能評価のグラフによると、トークンあたり約11ミリ秒という業界最速レベルのレイテンシーを達成しています。これは、Qwen-2.5 32Bの約15ミリ秒やGemma-2 27Bの約14ミリ秒と比較して、明確な優位性を示しています。さらに注目すべきは、GPT-4o Miniと比較しても、より低いレイテンシーで同等以上の性能を実現し

By Qualiteg プロダクト開発部
[vLLM] To use CUDA with multiprocessing, you must use the 'spawn' start method の対処法

[vLLM] To use CUDA with multiprocessing, you must use the 'spawn' start method の対処法

WSLで vLLM を使用するとき、 tensor parallel を使って複数枚のGPUで1つのLLMをサーブしようとしたとき以下のようなエラーが発生しがちです RuntimeError: Cannot re-initialize CUDA in forked subprocess. To use CUDA with multiprocessing, you must use the 'spawn' start method 遭遇するシーンとしてはvLLMの起動オプションに以下のようにテンソル並列化オプションを指定したときです。 --tensor-parallel-size 2 つまり、マルチプロセッシングでCUDA使うときは、 "fork"じゃなくて"spawn" 使ってね、というエラーです。 これを vLLM に教えるために、以下の2行目のように環境変数を設定してあげるとvLLMが "spawn" を使ってくれるようになります。 export

By Qualiteg プロダクト開発部
「Open Deep Research」技術解説

「Open Deep Research」技術解説

こんにちは!「Deep Research」界隈、にわかに盛り上がりを見せておりますね。 今日は昨日(2025/2/5)発表された、 Open Deep Researchについて、そのアーキテクチャや実装について解説したします! 1. はじめに OpenAIが開発した「GPT Deep Research」が世間をにぎわせていますが、「●● Deep Research」は既出のものをふくめこれから各社がしのぎを削っていくのではないでしょうか。 「Open Deep Research」はHuggingFace 社が開発したオープンソースツールで、その名の通り従来人間がデスクトップで行っていた Web 情報調査の作業を自動化するツールです。 今日は、本ツールの設計思想、 Deep Research ってどうやってるの? っていうところをディープに解説してみたいとおもいます。 あくまでも仕組みの説明にフォーカスしており、使い方説明ではないのでご了承くだすぁい。 1.1. はじめに 近年、情報技術の進歩により扱える情報量は飛躍的に増加しております。デスクトップで Web 情報調

By Qualiteg プロダクト開発部