日々の開発Tips

ONNX RuntimeのCUDAエラー「libcublasLt.so.11: cannot open shared object file」を解決する

Qualiteg プロダクト開発部

2024年8月10日 — 4 min read

こんにちは！
ONNX Runtimeを使用していると、以下のようなエラーに遭遇することがあります

[E:onnxruntime:Default, provider_bridge_ort.cc:1744 TryGetProviderInfo_CUDA] 
Failed to load library libonnxruntime_providers_cuda.so with error: 
libcublasLt.so.11: cannot open shared object file: No such file or directory

[W:onnxruntime:Default, onnxruntime_pybind_state.cc:870 CreateExecutionProviderInstance] 
Failed to create CUDAExecutionProvider.

このエラーは、GPUアクセラレーションが使えずCPUフォールバックで動作している状態を示しています。本記事では、この問題の原因調査から解決までのプロセスを詳しく解説します。

問題の症状

エラーが発生する状況

ONNX Runtimeでモデルを読み込む際に毎回警告が表示される
画像処理や推論処理で処理時間が異常に長い（例：数秒以上）
onnxruntime-gpuをインストールしているのにGPUが使われない
プログラムを実行するたびに同じ警告が繰り返し表示される

パフォーマンスへの影響

# CPU実行時（エラー発生時）
Model A warmup time: 5.071s
Model B warmup time: 0.029s

# GPU実行時（正常時）の期待値
Model A warmup time: 0.5-1.0s  # 5-10倍高速化
Model B warmup time: 0.005-0.01s  # 3-5倍高速化

原因調査のプロセス

ステップ1: 環境の現状確認

まずは、ONNX RuntimeがGPUを認識できているか確認しましょう

# インストール済みパッケージの確認
pip list | grep onnx

出力例

onnx                     1.16.1
onnxruntime-gpu          1.18.0

# GPUの認識状況を確認
python -c "import onnxruntime; print(onnxruntime.get_device()); print(onnxruntime.get_available_providers())"

出力例

GPU
['TensorrtExecutionProvider', 'CUDAExecutionProvider',  'CPUExecutionProvider']

ステップ2: 問題の分析

この時点で興味深い状況が判明しました

onnxruntime.get_device() → GPU（認識されている）
CUDAExecutionProviderが利用可能リストに含まれている
しかし実行時にはエラーが発生してCPUフォールバック

これは、ONNX Runtime自体はGPUを認識しているが、実行時に必要なCUDAライブラリが不足している状況を示しています。

ステップ3: バージョン不整合の特定

# システムのCUDAバージョン確認
nvcc --version
ls -la /usr/local/ | grep cuda

調査の結果

システムにはCUDA 12がインストール済み
ONNX RuntimeがCUDA 11のライブラリ（libcublasLt.so.11）を探している

ということでバージョン不整合が原因と特定できましたー

解決方法の検討

方法1: シンボリックリンク（リスクの評価）

当初、シンボリックリンクで解決することを検討しました

# CUDA 12のライブラリをCUDA 11として認識させる
sudo ln -s /lib/x86_64-linux-gnu/libcublasLt.so.12 /lib/x86_64-linux-gnu/libcublasLt.so.11

ただし、こんな付け焼刃でいいのか、リスクを考えてみます

メリット：手軽で追加インストール不要
リスク：ABI互換性の問題、他のCUDA 11依存アプリへの影響

そこで、しらべてみると、
onnxruntime-gpu 1.18.0は既にCUDA 12対応版であることが判明しました。
つまり、シンボリックリンクは同じCUDA 12系統内での対応となるため、リスクは小さいと判断できました

方法2: 完全な解決策の発見

ただし、このシンボリックリンクだけでは解決しなかったため、さらに調査を進めた結果、cuDNNの不足が判明しました。

ということで、最終的な解決方法です

★最終的な解決方法

ステップ1: cuDNNのインストール

conda install -c conda-forge cudnn=8.9.7.29 -y

このステップが最も重要でcuDNNがないとCUDAExecutionProviderが初期化できません。

ステップ2: シンボリックリンクの作成

# libcublasLt.so.11のシンボリックリンク作成
sudo ln -sf /usr/local/cuda-12/lib64/libcublasLt.so.12 \
            /usr/lib/x86_64-linux-gnu/libcublasLt.so.11

# libcublas.so.11のシンボリックリンク作成  
sudo ln -sf /usr/local/cuda-12/lib64/libcublas.so.12 \
            /usr/lib/x86_64-linux-gnu/libcublas.so.11

# ライブラリキャッシュの更新
sudo ldconfig

ステップ3: ONNX Runtimeの再インストール

# 既存のパッケージをアンインストール
pip uninstall onnxruntime onnxruntime-gpu -y

# GPU版をインストール
pip install onnxruntime-gpu==1.22.0

再インストール時に最新版がインストールされる可能性があるため、バージョン固定が推奨です

なぜシンボリックリンクだけでは不十分だったか

初回の試みでシンボリックリンクだけでは解決しなかった理由

libcublasLt.so.11 → シンボリックリンクで解決した
libcudnn.so.8 → 不足していた
その他のCUDA関連ライブラリ → 不完全

ということで、cuDNNのインストールが必須だったことが判明しました。

動作確認

GPUが使用されているか確認

import onnxruntime as ort

# テスト用のセッション作成
session = ort.InferenceSession(
    "your_model.onnx",
    providers=['CUDAExecutionProvider', 'CPUExecutionProvider']
)

# 実際に使用されているプロバイダーを確認
print("Active providers:", session.get_providers())
# 成功時の出力: ['CUDAExecutionProvider', 'CPUExecutionProvider']
# 失敗時の出力: ['CPUExecutionProvider']

パフォーマンステスト

import time
import onnxruntime as ort
import numpy as np

# モデル読み込み
session = ort.InferenceSession("model.onnx")

# ダミー入力データ
dummy_input = np.random.randn(1, 3, 224, 224).astype(np.float32)

# ウォームアップ
for _ in range(5):
    session.run(None, {"input": dummy_input})

# 実測
start = time.time()
for _ in range(100):
    session.run(None, {"input": dummy_input})
print(f"Average inference time: {(time.time() - start) / 100:.4f}s")

トラブルシューティング

デバッグ用チェックリスト

# 1. ONNX Runtimeのバージョン確認
python -c "import onnxruntime; print(onnxruntime.__version__)"

# 2. GPUの認識確認
python -c "import onnxruntime; print(onnxruntime.get_device())"

# 3. 利用可能なプロバイダー確認
python -c "import onnxruntime; print(onnxruntime.get_available_providers())"

# 4. CUDAのインストール確認
nvcc --version
ls -la /usr/local/ | grep cuda

# 5. 必要なライブラリの存在確認
ls -la /usr/lib/x86_64-linux-gnu/ | grep -E "libcublas|libcudnn"

# 6. 依存関係の確認
ldd $(python -c "import onnxruntime; print(onnxruntime.__file__)") | grep "not found"

完全な環境構築手順

requirements.txt

onnxruntime-gpu==1.22.0

setup.sh

#!/bin/bash

echo "=== ONNX Runtime GPU Setup ==="

# 0. 現状確認
echo "Current environment check:"
python -c "import onnxruntime; print('Version:', onnxruntime.__version__); print('Device:', onnxruntime.get_device())" 2>/dev/null || echo "ONNX Runtime not installed"

# 1. cuDNN のインストール
echo "Installing cuDNN..."
conda install -c conda-forge cudnn=8.9.7.29 -y

# 2. シンボリックリンクの作成
echo "Creating symbolic links..."
sudo ln -sf /usr/local/cuda-12/lib64/libcublasLt.so.12 \
            /usr/lib/x86_64-linux-gnu/libcublasLt.so.11
sudo ln -sf /usr/local/cuda-12/lib64/libcublas.so.12 \
            /usr/lib/x86_64-linux-gnu/libcublas.so.11

# 3. ライブラリキャッシュの更新
echo "Updating library cache..."
sudo ldconfig

# 4. ONNX Runtime のインストール
echo "Installing ONNX Runtime GPU..."
pip uninstall onnxruntime onnxruntime-gpu -y
pip install -r requirements.txt

# 5. 動作確認
echo "Verification:"
python -c "
import onnxruntime as ort
print('ONNX Runtime version:', ort.__version__)
print('Device:', ort.get_device())
print('Available providers:', ort.get_available_providers())
"

echo "Setup complete!"

まとめ

以下のような手順で解決にいたりました

初期診断：GPUは認識されているが実行時にエラー
原因特定：CUDA 11/12のバージョン不整合とcuDNNの不足
解決策：cuDNNインストール + シンボリックリンク + 再インストール

重要なのは、シンボリックリンクだけでは不十分で、cuDNNのインストールが必須だったという点ですね。この3ステップを正しい順序で実行することで、GPUアクセラレーションを有効化し、推論処理を2〜10倍高速化できます。
とくにCPUフォールバックを見逃すと、せっかくのGPUパワーを活かせないので、この警告がでたら、しっかり対応することが必要そうです

ログをちょこっと grep するツール "ちょこぐれっぷ" つくりました

こんにちは！今日はちょこっとしたツールをつくりました。ログをちょこっとgrepするツールです。もちろん無料。 chocoGrep - ちょこっとgrep！ログフィルタツールちょこっとgrepするならchocoGrep！「error or warning」と書くだけの簡単or/and検索。AIエージェントに渡す前にログを最適化。正規表現不要、インストール不要。chocoGrepQualiteg Inc. Cursor、Devin、Claude Code、ChatGPT——AIコーディングエージェントにエラーログを渡してデバッグを手伝ってもらう。もう日常ですよね。でも、 * ログを全部貼り付けたら、AIの応答がやたら遅い * 「トークン制限を超えました」と怒られる * 大量のログの中から、AIが的外れな部分に注目してしまうそこで、つくったちょこっとgrepするためのツールです名付けて　ちょこぐれっぷ！chogoGrep！ chocoGrepって何？ブラウザで動く、ゆるいgrepツールです。ログを貼り付けて、検索ワードを入れるだけ。インストール不要

GPUを使った分散処理で見落としがちなCPUボトルネックとtasksetによる解決法

こんにちは！複数枚のGPUをつかった並列処理システムを設計しているときCPUについてはあまり考えないでシステムを設計してしまうことがあります。「機械学習システムの主役はGPUなんだから、CPUなんて、あんまり気にしなくてよいのでは」いいえ、そうでもないんです。推論中のあるタイミングに急に動作が遅くなったりするときCPUが原因であることがけっこうあります。概要（5分で分かる要点）先日GPUを使った並列処理システムで、予期しないCPUボトルネックが発生し、パフォーマンスが大幅に低下する問題に遭遇しました。複数のプロセスが異なるGPUを使用しているにも関わらず、処理が極端に遅くなる現象の原因は、処理パイプラインの一部に含まれるCPU集約的な計算処理でした。問題の症状 * 単一プロセス実行時：正常な速度 * 複数プロセス並列実行時：処理時間が数倍に増加 * GPUリソースに競合なし（nvidia-smiで確認済み）根本原因処理パイプラインにGPUに適さないCPU集約的な計算（データ前処理、統計変換など）が含まれており、複数プロセスが同じCP

Model Context Protocol完全実装ガイド 2025- 仕様変遷から最新Streamable HTTPまでの全て

こんにちは！現在、LLM業界で破竹の勢いでひろまっているMCPについて、本日はとくに実装面について解説していきたいとおもいます。 MCP、MCPとひとくちにいっていますが、実は短期間でけっこう「標準」とよばれる仕様が変化しておりますので、仕様のバリエーションを順を追って解説しつつ、実際に実装をしていきたいとおもいます。さて、MCPですが、2024年後半、Anthropicが発表したModel Context Protocol（MCP）は、AI分野における重要な転換点となりました。従来、各AIベンダーが独自に実装していたツール呼び出し機能(tool useと呼びます）を標準化し、AIモデルと外部システムの連携を統一的に扱える仕組みを提供しました本記事で、MCPの誕生から現在に至るまでの技術的変遷を詳細に追いながら、2025年時点での最適な実装方法を完全なソースコードと共に解説します。特に、仕様の変化に振り回されがちな実装者の視点から、なぜ現在の形に収束したのか、そして今後どのような実装アプローチを取るべきかを明確にしていきます。第1章 MCPが解決しようとした問題

【出展報告】ASCII STARTUP TechDay 2025

こんにちは！本日、「ASCII STARTUP TechDay 2025」に出展してまいりましたのでレポートさせていただきます！ ASCII STARTUP TechDay 2025 ASCII STARTUP TechDay 2025は、2025年11月17日（月）に東京・浅草橋ヒューリックホール&カンファレンスで開催された、ディープテック・スタートアップのエコシステム構築をテーマにした展示交流・カンファレンスイベントです。秋の展示会は本当にいいですね本日はとてもよいお天気で、涼しくて、展示会にはピッタリの気候で朝からルンルンでした。しかも午後からの展示会ということで、気持ちに余裕をもって朝の業務をこなしていたところ、けっこうすぐに昼前になり、あわてて現場へ。浅草橋は当社からもわりと近いという立地の良さを甘く見ておりましたが💦、なんとか予定時刻前に到着しました。やっぱり、都心開催は本当にありがたいですね。会場へ急いでいると、おなかが「ぐ～」と鳴り「そういえば、朝食まだだったわ」とおもったところに、なんと私の大好きなエッセンさん🍞のトラックがあるで