日々の開発Tips

"triu_tril_cuda_template" not implemented for 'BFloat16' が発生する現象と対処法

Qualiteg プロダクト開発部

2024年4月23日 — 1 min read

モデル読み込みで torch_dtype=torch.bfloat16 を指定したとき "triu_tril_cuda_template" not implemented for 'BFloat16' が発生する場合の対処法です

以下は llama3 で発生したときのログです。

  File "/home/mlu/.virtualenvs/ChatStream/lib/python3.10/site-packages/torch/nn/modules/module.py", line 1501, in _call_impl
    return forward_call(*args, **kwargs)
  File "/home/mlu/.virtualenvs/ChatStream/lib/python3.10/site-packages/transformers/models/llama/modeling_llama.py", line 1208, in forward
    outputs = self.model(
  File "/home/mlu/.virtualenvs/ChatStream/lib/python3.10/site-packages/torch/nn/modules/module.py", line 1501, in _call_impl
    return forward_call(*args, **kwargs)
  File "/home/mlu/.virtualenvs/ChatStream/lib/python3.10/site-packages/transformers/models/llama/modeling_llama.py", line 992, in forward
    causal_mask = self._update_causal_mask(attention_mask, inputs_embeds, cache_position, past_seen_tokens)
  File "/home/mlu/.virtualenvs/ChatStream/lib/python3.10/site-packages/transformers/models/llama/modeling_llama.py", line 1095, in _update_causal_mask
    causal_mask = torch.triu(causal_mask, diagonal=1)
RuntimeError: "triu_tril_cuda_template" not implemented for 'BFloat16'

この問題は、 Pytorch が 2.0.1 以下であるときに発生します。

pip list で torch バージョンを確認してみてください。

pip list

以下のように、 2.0.1 だと triu_tril_cuda_template が文字通り実装されていないためエラーとなります

対処法

Pytorch を最新にすることで問題は解決します

CUDA 12.x

pip install --upgrade torch torchvision torchaudio

CUDA 11.8

pip3 install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118

バージョン指定してもOK

pip install torch==2.3.0 torchvision==0.18.0 torchaudio==2.3.0

"triu_tril_cuda_template" not implemented for 'BFloat16' が発生する現象と対処法

Qualiteg プロダクト開発部

対処法

Read more

TensorRT 10 × Blackwell 移行ガイド【中編】ビルドが通っても正しいとは限らない — 沈黙劣化 5 連発

Claude Opus 5.0 完全ガイド　モデル仕様とAPI・Claude Code運用ポイント

TensorRT 10 × Blackwell 移行ガイド【前編】RTX 50 で推論資産が動かない — 基本と最初の壁

Kimi K3 徹底リサーチ — 2.8兆パラメータ、「史上最大のオープンウェイト」は実現するか

対処法

Read more

TensorRT 10 × Blackwell 移行ガイド【中編】ビルドが通っても正しいとは限らない — 沈黙劣化 5 連発

Claude Opus 5.0 完全ガイド モデル仕様とAPI・Claude Code運用ポイント

TensorRT 10 × Blackwell 移行ガイド【前編】RTX 50 で推論資産が動かない — 基本と最初の壁

Kimi K3 徹底リサーチ — 2.8兆パラメータ、「史上最大のオープンウェイト」は実現するか

Claude Opus 5.0 完全ガイド　モデル仕様とAPI・Claude Code運用ポイント