(株)Qualiteg - NumPy/PyTorch

NumPy/PyTorch

GPUサービスで「Segmentation Fault 」に出会ったら～分析から解決までの実践アプローチ～

こんにちは！今日は仮想環境＋GPUなサービスにおける「Segmentation Fault」について、分析と対処法について書いてみたいと思います。 Segmentation Faultの本質と特徴 Segmentation Faultは、プログラムが保護されたメモリ領域にアクセスしようとした際にOSが発生させる例外です。今回は複数のGPUサービス（つまりＧＰＵを使うプロセス）が動作していて、そのうちの１つを再起動したときに発生しました。毎回発生するわけではありません。むしろ数百回の起動に1回程度ですが、1回でも発生すると絶望的な結果につながります。というのも、1つのGPUサービスの停止が SPOF となってサービス全体に影響が発生します。かつ、1回でも「Segmentation Fault」が発生してしまうと、その原因となったプロセスが二度と起動しなくなる、というやっかいな現象でした。このように「普段は正常に動作しているのに突然動かなくなる」というのがデバッグを非常に難しくします。とくにGPU＋仮想化の組み合わせで従来のC++アプリよりも発生確率がぐっとあがる印象

NumPy/PyTorch

PyTorch 2.6 のセキュリティ: モデルチェックポイントロードの安全対策

こんにちは！今日は、魅力的なPyTorchチェックポイントが配られているからと言って無邪気に使っちゃうと、超ヤバイよ、というお話になります。みなさまモデルチェックポイントをロードする際のセキュリティリスクについて考えたことはありますでしょうか。実はモデルの重みファイルだとばかり思っていたチェックポイントが、思わぬセキュリティホールになる可能性があります。本記事では、PyTorchのtorch.load関数の安全性と、モデルチェックポイントを適切に扱うための実践的なガイドラインを紹介します。モデルチェックポイントの隠れた危険性 PyTorchのtorch.load関数は非常に便利な一方で、セキュリティ上の重大なリスクを含んでいます。その理由は、 * チェックポイント単なるパラメータだけではないよ！チェックポイントファイルには、モデルの重み（weights）だけでなく、クラスや関数など任意のPythonコードを含めることが可能です。 * 実行可能なコードが入ってるよ！これは、チェックポイントが単なる「データファイル」ではなく、Pytho

NumPy/PyTorch

本番運用におけるPyTorch+CUDAサーバーでの「Unknown Error」問題とその対策

こんにちは！Qualitegプロダクト開発部です。今日は、GPUをつかった商用サービスにて悩ましい、テストは全部通るけど、長時間運用をしていると急に起こる「CUDA error: unknown error」についての内容です。これ、出会うと残念な気持ちになりますが、けっこうGPU商用サービス界隈では「あるある」なんです。原因を真面目に探るには CUDAバージョン、PyTorchバージョンの調合具合、実際のアプリケーションコードまですべてソースまで追う必要があるのですが、多くの場合、運用でカバーします。なぜなら仮に１つ原因をみつけて対処できたとしても、CUDAバージョンはしょっちゅうあがりますし、PyTorchもそれに追従して頻繁に更新されます。さらにやっかいなことに、１日、２日、いや1週間くらいは安定的に動作しているようにみえて、数週間後にとつぜんエラーが出るといった具合なので、修正確認の難易度が高いんです。そこで本日は「開発環境や実験環境」ではなく「本番環境」で発生しがちなこのCUDA Unknown Error について問題の原因と実践的な対策につい

NumPy/PyTorch

PyTorchモデルの最適化～TorchScriptの仕組みと活用法～

こんにちは！本日は PyTorch で開発したAIアプリケーションの本番化に欠かせない、「最適化」についての内容です。具体的には「 TorchScript」を使用した各種学習モデルの最適化についてみていきたいとおもいます。 TorchScriptの基礎 1 TorchScriptとは TorchScriptは、PyTorchモデルを最適化された中間表現（IR）に変換する技術です。、、といってもちょっと難しく聞こえるかもしれません。平易な言葉で言い換えますと、要するに、PyTorchで作った機械学習モデルを高速かつ多種多様な環境で動作させることをするための技術です。例えば、、・Pythonがインストールされていない環境でも動かせるようにする・スマホはじめ、各種組み込み機器でも使えるようにする・動かすときの速度を段違いに上げる・複数の処理を同時に効率よく実行するなどを目論むときは TorchScript がおすすめです。つまり、TorchScriptは「本番サービス」で使うときにすごく役立ちます。 2 Torc

NumPy/PyTorch

【極めればこのテンソル操作】インプレース操作でメモリ効率化！

こんにちは！今日は PyTorchのインプレース操作に関する内容です！ディープラーニングの学習モデルを作ってると、メモリ管理が大きな課題になります。課題の大部分はGPUメモリとお考えの方も多いのではないでしょうか。そんなときに助けてくれるのが、PyTorchのインプレース操作です！この記事では、インプレース操作の使い方をいろんな角度から見ていきたいとおもいます。インプレース操作って何？基本的な考え方インプレース操作とは、既存のメモリ領域を直接書き換える操作のことです。PyTorchでは、演算子の後ろにアンダースコア（_）をつけることでインプレース操作を実行できます。つまり、普通の操作だと新しいメモリを確保する必要がありますが、インプレース操作なら既存のメモリを直接書き換えることが可能です。それでは、実際に見てみましょう！ import torch # 普通の操作 x = torch.tensor([1, 2, 3]) y = x + 5 # 新しいメモリが必要 # インプレース操作ならこう！ x = torch.tensor([1, 2, 3

NumPy/PyTorch

ディープラーニングモデルの安全な並列推論とパフォーマンス最適化

こんにちは！今日は、よく聞かれる質問の1つである「単一のモデルインスタンスで安全に並列推論を行えるか？」に関する内容です！ evalモードでの並列推論の安全性 PyTorchモデルがmodel.eval()を使用してevalモードに設定されている場合、一般的に並列推論に対して安全になります。（ここでいう「並列」はマルチスレッドによる処理ととらえてください。バッチ推論については後述します。）その理由は、 1. パラメータの不変性 evalモードでは、順伝播（forward pass）中にモデルのパラメータが更新されません。 2. 学習特有レイヤーの非活性化 BatchNormなどのレイヤーは、バッチ統計の計算ではなく、実行時統計（running statistics）を使用するモードに切り替わります。 3. 入力データの独立性各スレッドやプロセスは独自の入力データで動作し、それぞれ別のメモリ領域に存在します。以下は、evalモードでの安全な並列推論の基本的な例です： import torch import th

NumPy/PyTorch

【極めればこのテンソル操作】NumPy配列の縦マージ方法：5つのアプローチ

こんにちは！今日は、NumPyにおける配列の縦マージについてご説明いたします！ご存じの通りNumPyは、Pythonで科学的計算を行うための強力なライブラリです。複数のNumPy配列を縦にマージして大きな配列を作成する方法について、5つの異なるアプローチを詳しく見ていきましょう。具体的には、(N,128)と(M,128)の形状を持つ複数のNumPy配列が格納されたPythonのリストから、(N+M,128)の形状を持つ単一のNumPy配列を作成する方法を説明します。 1. np.vstack() を使用する方法 np.vstack() 関数は、垂直方向（行方向）に配列をスタックするための関数です。 import numpy as np list_of_arrays = [ np.random.rand(3, 128), np.random.rand(2, 128) ] merged_array = np.vstack(list_

NumPy/PyTorch

GPUメモリ最適化の深層：初回と最終バッチの特殊性を踏まえた効率的なAI画像処理

はじめにこんにちは！Qualitegプロダクト開発部です。当社では、LLMテクノロジーをベースとしたAIキャラクター、AIヒューマンの研究開発を行っています。そんな中、表情、仕草のように「人間らしさ」をもったバーチャルヒューマンを再現するときには画像生成、画像編集といったAIを活用した画像処理が必要となります。人と対話するAIヒューマンやバーチャルヒューマンはタイムリーに表情や仕草を生成する必要があるため、複数の画像をフレーム連結してつくるモーション（シンプルにいうと動画）を短時間に生成する必要があります。このようなとき、AIトレーニングやシンプルな推論とは異なり、いかにGPUの能力を引き出してやるか「GPUの使いこなし術」がミソとなります。 GPUの使いこなし術というと、以前のブログにも連続バッチやダイナミックバッチについてLLM推論のコンテクストで語りましたが、本日は画像処理におけるGPUメモリ最適化、とくに、推論時バッチにおける「初回と最終回」のお作法という少しマニアックな話題について語ってみようとおもいます。画像処理とGPU GPUを用いた画像

NumPy/PyTorch

【極めればこのテンソル操作】tensor.unsqueeze(0)と array[None] の違い

今日は、 unsqueeze(0) の解説しつつ、私たちがよく直面する「あるある」な問題についてもちょこっと話してみたいと思います。「value.unsqueeze(0)」と「value[None]」の見分けついていますか？はい、前者は主に PyTorch、後者は NumPyでの操作の違いです。でもどちらも、ぱっとみは、先頭に新しく次元を追加する操作なので、コードをちらっとみただけではわからないことがありますよね。なぜかというと、ディープラーニング系のプログラミングでは PyTorchのテンソルと、NumPyの配列操作がかなり入り混じるからです。そう、今日の話題はPyTorchとNumPyのコードが入り乱れて、どっちの配列（テンソル）を扱っているのわけワカメになる問題です。ちなみに、話題のテーマをブラさないように PyTorchでは先頭に新しい次元を追加するときに unsqueeze(0) だけでなく [None] も使えてしまいますが、いったん[None]は NumPy で主に使用する操作という前提で説明させてくださいませ。^^; これに対する当

NumPy/PyTorch

【極めればこのテンソル操作】reshape(N,-1)

NumPy reshape: データ形状を自在に操る方法 NumPyのreshape関数は、多次元配列の形状を変更する強力なツールです。この記事では、reshapeの基本的な使い方から応用まで、具体例を交えて詳しく解説します。 1. reshape の基本 reshapeは、配列の要素数を変えずに形状を変更します。 import numpy as np # 1次元配列を作成 arr = np.array([1, 2, 3, 4, 5, 6]) print("Original array:", arr) print("Shape:", arr.shape) # 2x3の2次元配列に変形 reshaped = arr.reshape(2, 3) print("\nReshaped to 2x3:

NumPy/PyTorch

【極めればこのテンソル操作】permute(1,0)

本記事はPyTorch,NumPy でよくつかうテンソル操作を、頭でしっかりイメージできるようにするための機械学習エンジニア初心者向けシリーズです！「厳密な正しさ」をもとめるリファレンス的なものではなく、現場でつかうソースコードに頻出するコードで覚えていきましょう。今日は permute (1,0) permute操作は、テンソルの次元の順序を変更するためによく使用されます。permuteメソッドの引数は、並び替えの順番を指定します。 permute(1,0)は2次元のテンソルにおいては、「転置」テンソルを作る役割を果たします。なぜそうなのか、順を追ってみていきましょう！それでは早速以下のような 2×3 なテンソルを考えてみましょうこのテンソルは2次元なので、表で表現できますね。このとき、このテンソルは PyTorchでは以下のように定義できます。 import torch x = torch.tensor([[1, 2, 3], [4, 5, 6]]) このテンソルの「形状」は、上でもかいたとおり　2 × 3 です

NumPy/PyTorch

推論時torch.tensor(sourceTensor)ではなくて、sourceTensor.clone().detach()を使おう

PyTorchのテンソル操作最適化: 警告メッセージの理解と解決こんにちは！ Qualiteg プロダクト開発部です。 PyTorch 1.13にて、次のような警告メッセージに遭遇しました UserWarning: To copy construct from a tensor, it is recommended to use sourceTensor.clone().detach() or sourceTensor.clone().detach().requires_grad_(True), rather than torch.tensor(sourceTensor). この記事では、この警告の意味を解説し、修正方針についてかきたいとおもいます。 torch.tensor() よりも .clone().detach() のほうがおすすめなのかそれは、PyTorchがテンソルと自動微分（オートグラッド）をどのように扱うかに関係があります。 torch.

GPUサービスで「Segmentation Fault 」に出会ったら～分析から解決までの実践アプローチ～

PyTorch 2.6 のセキュリティ: モデルチェックポイントロードの安全対策

本番運用におけるPyTorch+CUDAサーバーでの「Unknown Error」問題とその対策

PyTorchモデルの最適化～TorchScriptの仕組みと活用法～

【極めればこのテンソル操作 】インプレース操作でメモリ効率化！

ディープラーニングモデルの安全な並列推論とパフォーマンス最適化

【極めればこのテンソル操作 】NumPy配列の縦マージ方法：5つのアプローチ

GPUメモリ最適化の深層：初回と最終バッチの特殊性を踏まえた効率的なAI画像処理

【極めればこのテンソル操作 】tensor.unsqueeze(0)と array[None] の違い

【極めればこのテンソル操作 】reshape(N,-1)

【極めればこのテンソル操作】permute(1,0)

推論時torch.tensor(sourceTensor)ではなくて、sourceTensor.clone().detach()を使おう

【極めればこのテンソル操作】インプレース操作でメモリ効率化！

【極めればこのテンソル操作】NumPy配列の縦マージ方法：5つのアプローチ

【極めればこのテンソル操作】tensor.unsqueeze(0)と array[None] の違い

【極めればこのテンソル操作】reshape(N,-1)