その処理、GPUじゃなくて勝手にCPUで実行されてるかも ~ONNX RuntimeのcuDNN 警告と対策~

その処理、GPUじゃなくて勝手にCPUで実行されてるかも  ~ONNX RuntimeのcuDNN 警告と対策~

こんにちは!

本日は、ONNX RuntimeでGPU推論時の「libcudnn.so.9: cannot open shared object file」エラーの解決方法についての内容となります。

ONNX Runtimeを使用してGPU推論を行う際、CUDAプロバイダの初期化エラーに遭遇することがありますので、このエラーの原因と解決方法を解説いたします。

エラーメッセージの詳細

[E:onnxruntime:Default, provider_bridge_ort.cc:2195 TryGetProviderInfo_CUDA] 
/onnxruntime_src/onnxruntime/core/session/provider_bridge_ort.cc:1778 
onnxruntime::Provider& onnxruntime::ProviderLibrary::Get() [ONNXRuntimeError] : 1 : FAIL : 
Failed to load library libonnxruntime_providers_cuda.so with error: 
libcudnn.so.9: cannot open shared object file: No such file or directory

エラーの原因

このエラーは以下の状況で発生します

  1. cuDNN 9が未インストール: ONNX RuntimeがCUDA 12系で動作する際に必要なcuDNN 9(libcudnn.so.9)がシステムに存在しない
  2. ライブラリパスの問題: cuDNNはインストールされているが、ONNX Runtimeから見つけられない

これはたいていWarningとしてログに出ますがほっとくとGPU推論が実行できず、CPUフォールバックまたは処理の失敗が発生します。

よくあるのがログを無視してると処理がCPUフォールバックしてることにもきづかづ異様に処理が遅くなってしまいます

「あれ~、何かこの処理遅いぞ」

とおもったら、勝手にCPUで実行されていた、っていうことがよくあります

問題の診断方法

1. システムレベルでのcuDNN確認

まずシステムレベルで cuDNNの確認をしてみましょう

# 共有ライブラリとして登録されているか確認
ldconfig -p | grep libcudnn

# 物理ファイルの存在確認
ls -l /usr/lib/x86_64-linux-gnu/libcudnn.so* 2>/dev/null

この出力が何もない場合、cuDNNがシステムに存在しないか、パスが通っていない、ということになります

2. パッケージマネージャーでの確認

次は、パッケージマネージャで確認してみましょう

APT(Ubuntu/Debian)の場合

dpkg -l | grep libcudnn

Conda環境の場合

conda activate your_environment
conda list cudnn

こちらも、何も出ない場合、cuDNNが存在しないことになります。

解決手順

方法1: Conda環境での解決(推奨)

さて、Conda環境を使用している場合、
環境内にcuDNNをインストールすることで解決できます。

# 1. Conda環境をアクティベート
conda activate your_environment

# 2. cuDNN 9.10.1.4をインストール
conda install -c conda-forge cudnn=9.10.1.4 -y

インストールされる主要パッケージ

  • cuda-nvrtc-12.9.86
  • cudnn-9.10.1.4
  • libcublas-12.9.1.4
  • libcudnn-9.10.1.4
  • libcudnn-dev-9.10.1.4

方法2: システムレベルでの解決

一方で、システム全体で使用するようにすることも可能です(Linux環境やWSL環境)

# Ubuntu/Debianの場合
sudo apt update
sudo apt install libcudnn9 libcudnn9-dev

# ライブラリパスの更新
sudo ldconfig

重要: ONNX Runtimeの再インストール

方法1か方法2でcuDNNをインストールできたら、再度onnxruntime-gpuをインストールしましょう。

cuDNNインストール後、ONNX Runtimeが新しい環境を正しく認識するよう、再インストールを行います

# 既存のパッケージをアンインストール
pip uninstall onnxruntime onnxruntime-gpu -y

# GPU版を再インストール
pip install onnxruntime-gpu

この再インストールにより、ONNX Runtimeが新しくインストールされたcuDNNライブラリを正しく検出し、リンクすることができます。

動作確認

以下のPythonスクリプトで、問題が解決したか確認できます

import onnxruntime as ort

# 利用可能なプロバイダを表示
providers = ort.get_available_providers()
print("Available providers:", providers)

# CUDAプロバイダの確認
if 'CUDAExecutionProvider' in providers:
    print("GPU推論が利用可能です")
    
    # テスト用の簡単なモデルでセッション作成を確認
    import numpy as np
    from onnxruntime import InferenceSession
    
    try:
        # セッション作成(実際のモデルパスに置き換えてください)
        session_options = ort.SessionOptions()
        providers_list = ['CUDAExecutionProvider', 'CPUExecutionProvider']
        print("CUDAExecutionProviderが正常に初期化されました")
    except Exception as e:
        print(f"初期化エラー: {e}")
else:
    print("CUDAプロバイダが利用できません")

トラブルシューティング

それでも解決しない場合

たいてい上記で解決しますが、それでも解決しないときは、以下を試します

  1. バージョン互換性の確認
    CUDAとcuDNNは以下の用な関係になっています。まずバージョン互換性を確認しましょう
    • CUDA 12.x → cuDNN 9.x
    • CUDA 11.x → cuDNN 8.x
    • ONNX Runtime GPUのバージョンがCUDAバージョンと互換性があるか確認

詳細なデバッグ情報の取得

import onnxruntime as ort
ort.set_default_logger_severity(0)  # 詳細ログを有効化

環境変数の設定
環境変数を設定すると解決することがあります

export LD_LIBRARY_PATH=$CONDA_PREFIX/lib:$LD_LIBRARY_PATH

CUDAバージョンの確認

nvidia-smi
nvcc --version

まとめ

ONNX RuntimeのCUDAプロバイダエラーは、主にcuDNNライブラリの不在が原因です。

Conda環境を使用している場合は、環境内にcuDNNをインストールします、
さらに、その後念には念を入れONNX Runtimeを再インストールしましょう。

これでたいていは解決するとおもいます

Read more

PyCharmで npm start 実行時にIDEがサイレントクラッシュした事例と切り分け

PyCharmで npm start 実行時にIDEがサイレントクラッシュした事例と切り分け

こんにちは!Qualitegプロダクト開発部です! PyCharmの内蔵npmツールで npm start を実行した瞬間、何のエラーメッセージもなくIDEが消える。 再起動してもう一度試すとまた落ちる。ログを見ても手がかりがない——。 今回はこの「サイレントクラッシュ」に遭遇し、原因の絞り込みから回避策の確立まで至った過程を書き残しておきます。同じ現象で困っている方の参考になれば幸いです。 環境 項目 内容 OS Windows 10/11 PyCharm 2026.1(2023.1.6時代から連綿とUpdateをした状態) Python 3.11.4(venv使用) Node.js v25.2.1 プロジェクト Python + Node.js 混合構成 上記のとおり、PyCharmは執筆時点の最新版(2026.1)となります。 確認できたこと・推測していること まず最初に、

By Qualiteg プロダクト開発部
大企業のAIセキュリティを支える基盤技術 - 今こそ理解するActive Directory 第6回 よくある問題と解決方法

大企業のAIセキュリティを支える基盤技術 - 今こそ理解するActive Directory 第6回 よくある問題と解決方法

こんにちは、今回はシリーズ第6回トラブルシューティング - よくある問題と解決方法 について解説いたします! さて、前回(第5回)は、統合Windows認証がブラウザでどのように動作するかを解説しました。 「イントラネットゾーン」という概念を理解することで、同じサーバーでもURLの書き方(NetBIOS名、FQDN、IPアドレス)によって認証動作が変わる理由が明確になったかと思います。また、Chrome/Firefoxではデフォルトで統合認証が無効になっている理由と、グループポリシーによる一括設定方法も学びました。 しかし、設定が完璧なはずなのに「なぜかうまく動かない」という場面は、実際の現場では必ず訪れます。 「最近、ファイルサーバーへのアクセスが遅い」「金曜日は使えたのに、月曜日の朝にログインできない」「特定のサービスだけKerberosが失敗する」——これらはヘルプデスクに日々寄せられる典型的な問い合わせです。 原因はKerberosの失敗、時刻のずれ、SPNの設定ミス、DNS関連の問題など多岐にわたりますが、体系的にトラブルシューティングすることで必ず解決できます。

By Qualiteg コンサルティング, Qualiteg AIセキュリティチーム
AIエージェントを"事業に載せる"ために【第2回】AIエージェントの責任分解はなぜ難しいのか

AIエージェントを"事業に載せる"ために【第2回】AIエージェントの責任分解はなぜ難しいのか

— AI導入を"事業に載せる"ために、いま設計すべきこと(全3回) こんにちは!Qualitegコンサルティングチームです! 前回(第1回)では、Replit/Lemkin事件とDeloitte豪州政府報告書問題を通じて、AIエージェント導入の課題がモデル性能ではなく「権限・監査・責任の設計不在」にあることを見ました。 では、実際に事故が起きたとき、責任は誰が負うのでしょうか。第2回となる本記事では、法務・契約・組織の3つの観点から、AIエージェントの責任分解がなぜ難しいのかを構造的に整理します。 結論を先に言えば、法務だけでも契約だけでも組織論だけでも足りません。この3つを接続して設計しなければ、AIエージェントの責任分解は実務上機能しません。 1. 法的フレームワーク:複数の法理論が並走している AIエージェントが損害を出したとき、どの法理論で責任が問われるかについて、現時点でグローバルなコンセンサスは形成されていません。 Clifford Chanceの論考は、この状況の根本的な難しさを整理しています。法律は歴史的に、有害な行為がいつどのように発生したかを特定でき

By Qualiteg コンサルティング
AIエージェントを"事業に載せる"ために【第1回】

AIエージェントを"事業に載せる"ために【第1回】

AI導入事故は何を示しているのか — AI導入を"事業に載せる"ために、いま設計すべきこと(全3回) こんにちは!Qualitegコンサルティングチームです! AIエージェントを導入する企業が増える一方で、 「試してみる」段階から「事業に載せる」段階へ進める難しさ が、はっきり見え始めています。 本シリーズでは、AIエージェント導入を技術論だけでなく、責任分解・監査可能性・契約・運用統制を含む業務設計の問題として整理します。 全3回を通じて、「AIが賢いかどうか」ではなく、「AIを業務に載せるために何を設計するか」を考えていきます。 第1回となる本記事では、2025年に起きた2つの事例を出発点に、なぜいま「責任設計」が問題になっているのかを見ていきます。 上図は、本シリーズ全体で扱う論点の全体像です。 AIエージェントの導入は、技術的なモデル選定だけでは完結せず、権限設計、契約、監査、品質監視、保険、異常時対応まで含めた設計が必要になります。 第1回ではまず、なぜこうした設計が求められるようになったのかを、実際の事例から見ていきたいとおもいます なお、本シリー

By Qualiteg コンサルティング