(株)Qualiteg - GPU - Qualiteg Blog (Page 3)

日々の開発Tips

ONNX RuntimeのCUDAエラー「libcublasLt.so.11: cannot open shared object file」を解決する

こんにちは！ ONNX Runtimeを使用していると、以下のようなエラーに遭遇することがあります [E:onnxruntime:Default, provider_bridge_ort.cc:1744 TryGetProviderInfo_CUDA] Failed to load library libonnxruntime_providers_cuda.so with error: libcublasLt.so.11: cannot open shared object file: No such file or directory [W:onnxruntime:Default, onnxruntime_pybind_state.cc:870 CreateExecutionProviderInstance] Failed to create CUDAExecutionProvider.

Blog

オープンLLMの進化：「領域特化型モデル」の台頭と今後の展望

こんにちは！今日は領域特化のLLMについて解説いたします。近年、大規模言語モデル（LLM）の発展は目覚ましいものがあります。 GPT-4oやClaude 3.5などの汎用AIが注目を集める一方で、特定の分野や用途に特化したLLMの需要が急速に高まっています。この傾向は、オープンソースのLLMにも波及し始めており、今後ますます加速すると予想されます。領域特化型LLMの利点特定の分野に特化したLLMは、その分野特有の専門知識や用語、文脈を深く理解し、より適切な応答を生成できる可能性があります。例えば、医療、法律、金融、工学、プログラミングなど、専門性の高い分野では、一般的なLLMよりも高い精度と信頼性を提供できる可能性があります。ファインチューニングと継続事前学習オープンLLMを特定のドメインに適応させる主な方法として、ファインチューニングと継続事前学習が挙げられます。ファインチューニング既存のLLMに対して、特定のタスクや分野に関連したデータセットを用いて追加学習を行う手法です。比較的少量のデータでモデルの挙動を調整できる利点がありますが、新

IT & AIテクノロジー

FP8やFP4のネイティブサポートと vLLM をつかった "fp8" 量子化

こんにちは、(株)Qualiteg プロダクト開発部です最新モデルがリリースされたとき、推論速度を速くするために、いろいろな手法で量子化したり、複数の推論エンジンを使い分けたりしながら、正解をさがしにいくことが多いのですが、今回はそんな中で以下のような事象が発生いたしました。当社もありとあらゆるGPUを取り揃えているわけではないので、あー、そういうことかぁ、と思ったので、本ブログにいたしました。発生したエラー vLLM 0.5.1 であるLLMをロードしようとしたときに発生したときに、以下のようなエラーが発生しました ValueError: The quantization method fp8 is not supported for the current GPU. Minimum capability: 89. Current capability: 86 原因は FP8 に対応していないGPU世代 GPUは NVIDIA RTX-A6000 で、以下のように OpenAI 互換サーバーで

日々の開発Tips

NVIDIA GPU と Capability Level

NVIDIA GPU の Capability Level の一覧です。推論エンジンがサポートする各種アクセラレーション機能は Capability Level により搭載されるハードウェアアクセラレータや専用機能が異なります。データセンター/プロ向けGPU GeForce GPU Capability Level 世代名 - GeForce RTX 5090 120 Blackwell - GeForce RTX 5080 120 Blackwell - GeForce RTX 5070 120 Blackwell - GeForce RTX 5060 120 Blackwell NVIDIA B200 - 100 Blackwell NVIDIA B100 - 100

IT & AIテクノロジー

推論速度を向上させる Speculative Decoding(投機的デコーディング)とは

こんにちは Qualiteg 研究部です。投機的デコーディングとは何か？投機的デコーディングは、大規模言語モデル（LLM）の推論速度を向上させる技術です。たいていのモデルを1.4～2.0倍程度、高速化できることが報告されています。このアプローチでは、小さなモデル（ドラフトモデル）を使用して初期の予測を行い、その結果を大きなモデル（ターゲットモデル）が検証することで、全体の推論プロセスを高速化します。ざっくりいうと、大きなモデルは計算負荷も高く計算速度も遅いので、まず、小さなモデルで高速に計算したあとで、その計算結果をうまくつかって大きなモデルでの計算負荷をさげ、スピードを向上させようというアイデアです。基本的に大きなモデルと、小さなモデルはサイズ以外は基本的にまったく同じネットワーク構造をしていることが前提となります。たとえば 70Bの Llama3 と 8B の Llama3 を組み合わせてつかうイメージです。当然70B の Llama3 の推論計算のほうが 8B よりも重たくなりますので、小さい8BのLlama3 で先回りして推論計算することで

GPUマシン自作

[自作日記20] SW編: コードをGPUで動かす

早速、GPUで Pythonコードを動かしてみましょう 4.3 Jupyter Notebook で GPUを活用したPytorchコードを記述する STEP1 端末（ターミナル）を開いて、PyTorchプロジェクト用のディレクトリを作る以下のコマンドを入力します mkdir pytorch_pj cd pytorch_pj STEP2 Jupyter Notebook の起動ディレクトリに移動したら jupyter notebook でJupyter Notebook(ジュピターノートブック)を起動します Jupyter Notebook はPythonのコード作成と実行、実行結果表示、自由コメント（Markdown）編集の3つの機能をそなえたツールで、気軽に利用できるので、Jupyter Notebook上で試してみましょう Jupyter Notebook が起動しました右上の新規をクリックして Python3 を選択します

GPUマシン自作

[自作日記19] SW編: CUDA と Pytorch の導入

今回は CUDA と Pytorch をインストールします 4.2 CUDA(+cuDNN) と Pytorch の同時インストール Pytorch をインストールすると、CUDA と cuDNN を一緒にインストールしてくれるので、それを活用しましょう STEP1 PyTorchのインストールコマンドを生成するさて、ようやくお膳立てができたので、いよいよ機械学習ライブラリ PyTorch を導入しましょう ■ PyTorchのインストール以下にあるPyTorchのインストールガイドを開き、 https://pytorch.org/get-started/locally/ 以下のように選択式で　Pytorch　のインストールコマンドを生成することができます Category Selected Pytorch Build Stable (1.13.1) Your OS Linux Package Conda Language

日々の開発Tips

TensorRT-LLM v 0.11.0.dev2024051400 の動作確認

こんにちは、株式会社 Qualiteg プロダクト開発部です！ TensorRT-LLM は FasterTransformerの後継ともいえるNVIDIA製推論エンジンで、当社ChatStreamの推論エンジンとしても選択可能です。 vLLMと同じく新しいモデル対応が早く、既存モデルも豊富にサポートされています。昨日大型コミットが入りましたので動作確認をしました。（マルチモーダルモデルNeva,Kosmos2に対応など。） TensorRT-LLM のサポートしている、モデルアーキテクチャは以下のとおりです。 LLM Baichuan, BART, BERT, Blip2, BLOOM, ChatGLM, DBRX, FairSeq NMT, Falcon, Flan-T5, Gemma, GPT, GPT-J, GPT-Nemo, GPT-NeoX, InternLM, LLaMA, LLaMA-v2, Mamba, mBART, Mistral, MPT, mT5, OPT, Phi-1.5/Phi-2, Qwen, Qwen-VL, Replit

GPUマシン自作

[自作日記18] SW編: Anacondaのインストール

今回は、 Anaconda を導入します。 Python は一般的にアプリケーションごとに仮想環境を使用して実行しますが、仮想環境を構築できるものに Anaconda または Python純正仮想環境の venv のどちらかがよく使われます。今回は、 Anaconda を導入してみたいとおもいます。 4.1 Anaconda（Python環境) のインストール STEP1 Anaconda3 をダウンロードする Chromeを開いて、以下を開きます https://www.anaconda.com/distribution/#download-section 自動的に Linux 用を表示してくれるので、それをダウンロードします STEP2 インストール用スクリプトを実行する cd downloads bash Anaconda3-2022.10-Linux-x86_64.sh エンターキーをおすｒと、 license agreement をスクロールさせることができます内容問題なければ yes とタイプします

ChatStream Guide

LLM サービング効率化の為のPagedAttention

こんにちは、株式会社Qualitegプロダクト開発部です。今日は商用LLM サービングに欠かせない PagedAttention 技術をご紹介しますはじめに PagedAttention は当社にとって非常に重要な技術です PagedAttentionを活用するとLLMでの文章生成において GPUメモリの利用効率をあげ、そのぶん単位GPUあたりの同時に捌けるリクエストを増やすことができます。当社は「ChatStream」という商用のLLMサービングプラットフォームを開発・提供しているため、多ユーザーからの同時リクエストによる高負荷環境でのLLMサービング(文章生成の提供)は、ドドド真ん中の課題ということになります。 PagedAttention登場以前の従来の並列生成はKVキャッシュとよばれる”リクエストごとに発生する大きなGPUメモリ消費”との戦いでした。 (KVキャッシュは transfomerのmodelを生で叩くときに past_key_values として登場します）つまりモデルのパラメータとは別に発生する推論時のメモリ消費です。これが同時に

News

株式会社Qualiteg、NVIDIA Inceptionプログラムに採択

２０２４年４月２５日、株式会社QualitegはNVIDIA Inceptionプログラムに採択されました。これにより、私たちは世界中の革新的なスタートアップとともに、先進技術の開発と普及に向けて新たな一歩を踏み出すこととなりました。 LLMサービス開発への期待 NVIDIA Inceptionプログラムに採用されたことで、当社は大規模言語モデル（LLM）サービスの開発事業者として、更なる飛躍が期待されております。特に、NVIDIAが提供する高度なAIリソースとツールを活用することで、以下のような可能性が広がります。 1. 高性能なAIモデルの開発 NVIDIAのAI Foundation Modelsを利用することで、最先端のAIモデルを迅速に構築し、カスタマイズして展開することができます。これにより、業界をリードする革新的なソリューションの提供が可能となります。 2. エンジニアリングリソースの強化 NVIDIA Developer Programに参加することで、エンジニアは最新のツールやリソース、専門家によるサポートを受けることができま

GPUマシン自作

[自作日記17] SW編: NVIDIA Display Driver を GPUマシンの Ubuntu にインストールする

こんにちは！今回は Ubuntu で GPU を使用できるようにするため、 NVIDIA Display Drive をインストールしていきます 3.2 Nvidia Display Driverのインストール今回購入した GPU NVIDIA RTX 3090 Ti 24G に対応したディスプレイドライバーをインストールしていきます！ 3.2.1 ドライバーのダウンロード以下のサイトにアクセスして RTX 3090 Ti 用のドライバをさがします https://www.nvidia.co.jp/Download/index.aspx?lang=jp 自分の環境(RTX 3090 Ti,Linux)を選択して、探すをクリックするとドライバをさがしてくれるので便利です

GPUマシン自作

[自作日記16] SW編: GPUマシンの Ubuntu を構成する

こんにちは！今回は Ubuntu OS インストール後の構成をします 3.1 Ubuntu の構成 3.1.1 初回起動時の各種アップデート現在、Ubuntu OS のインストールが終了した状態となってますが、Ubuntu OSアップデートや言語パックのアップデートなどが表示されていた場合、それをまず実行します初回に表示されるアップデートが終了したときに以下のようなダイアログが表示されるのですぐに再起動をクリックしていったんリブートします 3.1.2 日本語 IME の設定画面右上にある日本語IMEを選択します 3.1.3 ”downloads” ディレクトリの作成ダウンロードファイルの保存先用に "downloads" ディレクトリを作成します。日本語の「ダウンロード」ディレクトリがもともとあるが、端末(shell)から扱いにくいですし、日本語フォルダ名は何かと不便なためです。画面左バーからファイルを起動しますホームディレクトリ以下にdownloadsというディレクトリを作成します 3.1.4

GPUマシン自作

[自作日記15] SW編:Ubuntu インストール手順

こんにちは！前回つくったUSBドライブから、Ubuntu 22.4 をGPUマシンにインストールしていきましょう！ 2.0 LANケーブルを接続するインストールする前に、GPUマシンにLANケーブルを接続してインターネットが使える状態にしておきましょう。 2.1 USB メモリからブートする 2.1 で作成した USB メモリを GPUマシンのUSBポートに挿します USBドライブを挿したら、 PCケースの電源ボタンを押して電源を入れましょう。するとマザーボードの初期起動画面が表示されるのでキーボードで F11 を押しながら待ちますブートデバイスを選択する画面がでたら、 UEFI: USB を選択してエンターを押しますしばらくすると Ubuntuのインストール画面が表示されるので Try or install ubuntu を選択してエンターを押しますこれでUbuntu のインストールが開始するのをまちます 2.2 Ubuntu OS のインストール Ubuntu OS のインストーラーが開始したら、Ubuntu

GPUマシン自作

[自作日記14] SW編:Ubuntu のインストールUSBの作成

こんにちは！今回からは、GPUマシンをAIマシンにすべく、ソフトウェア編の開始です！目標は Ubuntu OS で GPU使用できる状態にし、最終的に LLMをつかった推論をできるところまでもっていきます。 1. Ubuntu のインストールUSBの作成 GPUマシンのメインOSは Ubuntu を導入したいため、これからUbuntuのインストールを行います。 Ubuntuのインストールにはいくつかの方法がありますが、事務用パソコンのWindowsを使用してUbuntuイメージが入ったUSBメモリを作成し、それをもって Ubuntu をまっさらなPCにインストールしていくアプローチをとろうと思います。 1.1 USBメモリ(32GB以下)の準備まず、Ubuntuのイメージを焼くUSBメモリを準備します。 USBメモリは下に示す理由の為、 32GB 以下のものを準備しましょう。 * USB メモリが 32GB を超えると、FAT32 フォーマットができなくなる * ブートにつかう USB メモリは FAT32 でフォーマットされている必要がある

GPUマシン自作

[自作日記13] 電源ケーブルの結線

さて、そろそろ組み立ても終盤です！がんばりましょう！ 1.マザーボード用給電ケーブルを挿す 24ピンATXケーブルというもっともたくさん束ねられているケーブルがありますので、まずはそれを電源側の M/B 表記のところに挿し込みます次に同ケーブルをマザーボード側に挿します。しっかりツメがかみ合うように装着します２.CPUへの給電ケーブルを挿す次はCPUケーブルです。通常６ピン＋２ピンの構成になっており、こちらも電源側とマザーボード側双方に装着します。まず電源側の CPU/PCI-E と表示のあるところに、片一方を挿します続いてマザーボード側にも挿しましょう。しっかりと挿さりましたマザーボード表面に　CPU　PWR1,CPU PWR2 と書いてある場合もあれば、 ATX12V1,ATX12V2　とだけ書いてある場合などがあります。メーカーによって表記が異なります。 3.グラフィックボード用の給電ケーブルを挿すグラボの種類にもよりますが、大型グラボは多くの電力を必要とします。今回のグラフィックボードは 3系統のPCI電源が必要となるため