GPU

オープンLLMの進化:「領域特化型モデル」の台頭と今後の展望

Blog

オープンLLMの進化:「領域特化型モデル」の台頭と今後の展望

こんにちは!今日は領域特化のLLMについて解説いたします。 近年、大規模言語モデル(LLM)の発展は目覚ましいものがあります。 GPT-4oやClaude 3.5などの汎用AIが注目を集める一方で、特定の分野や用途に特化したLLMの需要が急速に高まっています。この傾向は、オープンソースのLLMにも波及し始めており、今後ますます加速すると予想されます。 領域特化型LLMの利点 特定の分野に特化したLLMは、その分野特有の専門知識や用語、文脈を深く理解し、より適切な応答を生成できる可能性があります。 例えば、医療、法律、金融、工学、プログラミングなど、専門性の高い分野では、一般的なLLMよりも高い精度と信頼性を提供できる可能性があります。 ファインチューニングと継続事前学習 オープンLLMを特定のドメインに適応させる主な方法として、ファインチューニングと継続事前学習が挙げられます。 ファインチューニング 既存のLLMに対して、特定のタスクや分野に関連したデータセットを用いて追加学習を行う手法です。比較的少量のデータでモデルの挙動を調整できる利点がありますが、新

By Qualiteg ビジネス開発本部 | マーケティング部
FP8やFP4のネイティブサポートと vLLM をつかった "fp8" 量子化

IT & AIテクノロジー

FP8やFP4のネイティブサポートと vLLM をつかった "fp8" 量子化

こんにちは、(株)Qualiteg プロダクト開発部です 最新モデルがリリースされたとき、推論速度を速くするために、いろいろな手法で量子化したり、複数の推論エンジンを使い分けたりしながら、正解をさがしにいくことが多いのですが、今回はそんな中で以下のような事象が発生いたしました。 当社もありとあらゆるGPUを取り揃えているわけではないので、あー、そういうことかぁ、と思ったので、本ブログにいたしました。 発生したエラー vLLM 0.5.1 であるLLMをロードしようとしたときに発生したときに、以下のようなエラーが発生しました ValueError: The quantization method fp8 is not supported for the current GPU. Minimum capability: 89. Current capability: 86 原因は FP8 に対応していないGPU世代 GPUは NVIDIA RTX-A6000 で、以下のように OpenAI 互換サーバーで

By Qualiteg プロダクト開発部
NVIDIA GPU と Capability Level

日々の開発Tips

NVIDIA GPU と Capability Level

NVIDIA GPU の Capability Level の一覧です。 推論エンジンがサポートする各種アクセラレーション機能は Capability Level により搭載されるハードウェアアクセラレータや専用機能が異なります。 データセンター/プロ向けGPU GeForce GPU Capability Level 世代名 - GeForce RTX 5090 120 Blackwell - GeForce RTX 5080 120 Blackwell - GeForce RTX 5070 120 Blackwell - GeForce RTX 5060 120 Blackwell NVIDIA B200 - 100 Blackwell NVIDIA B100 - 100

By Qualiteg プロダクト開発部
推論速度を向上させる Speculative Decoding(投機的デコーディング)とは

IT & AIテクノロジー

推論速度を向上させる Speculative Decoding(投機的デコーディング)とは

こんにちは Qualiteg 研究部です。 投機的デコーディングとは何か? 投機的デコーディングは、大規模言語モデル(LLM)の推論速度を向上させる技術です。 たいていのモデルを1.4~2.0倍程度、高速化できることが報告されています。 このアプローチでは、小さなモデル(ドラフトモデル)を使用して初期の予測を行い、その結果を大きなモデル(ターゲットモデル)が検証することで、全体の推論プロセスを高速化します。 ざっくりいうと、 大きなモデルは計算負荷も高く計算速度も遅いので、まず、小さなモデルで高速に計算したあとで、その計算結果をうまくつかって大きなモデルでの計算負荷をさげ、スピードを向上させようというアイデアです。 基本的に大きなモデルと、小さなモデルはサイズ以外は基本的にまったく同じネットワーク構造をしていることが前提となります。 たとえば 70Bの Llama3 と 8B の Llama3 を組み合わせてつかうイメージです。 当然70B の Llama3 の推論計算のほうが 8B よりも重たくなりますので、小さい8BのLlama3 で先回りして推論計算することで

By Qualiteg 研究部
[自作日記20] SW編: コードをGPUで動かす

GPUマシン自作

[自作日記20] SW編: コードをGPUで動かす

早速、GPUで Pythonコードを動かしてみましょう 4.3 Jupyter Notebook で GPUを活用したPytorchコードを記述する STEP1 端末(ターミナル)を開いて、PyTorchプロジェクト用のディレクトリを作る 以下のコマンドを入力します mkdir pytorch_pj cd pytorch_pj STEP2 Jupyter Notebook の起動 ディレクトリに移動したら jupyter notebook でJupyter Notebook(ジュピターノートブック)を起動します Jupyter Notebook はPythonのコード作成と実行、実行結果表示、自由コメント(Markdown)編集の3つの機能をそなえたツールで、気軽に利用できるので、Jupyter Notebook上で試してみましょう Jupyter Notebook が起動しました 右上の 新規 をクリックして Python3 を選択します

By Qualiteg Boot Camp
[自作日記19] SW編: CUDA と Pytorch の導入

GPUマシン自作

[自作日記19] SW編: CUDA と Pytorch の導入

今回は CUDA と Pytorch をインストールします 4.2 CUDA(+cuDNN) と Pytorch の同時インストール Pytorch をインストールすると、CUDA と cuDNN を一緒にインストールしてくれるので、それを活用しましょう STEP1 PyTorchのインストールコマンドを生成する さて、ようやくお膳立てができたので、いよいよ機械学習ライブラリ PyTorch を導入しましょう ■ PyTorchのインストール 以下にあるPyTorchのインストールガイドを開き、 https://pytorch.org/get-started/locally/ 以下のように選択式で Pytorch のインストールコマンドを生成することができます Category Selected Pytorch Build Stable (1.13.1) Your OS Linux Package Conda Language

By Qualiteg Boot Camp
TensorRT-LLM v 0.11.0.dev2024051400 の動作確認

日々の開発Tips

TensorRT-LLM v 0.11.0.dev2024051400 の動作確認

こんにちは、株式会社 Qualiteg プロダクト開発部です! TensorRT-LLM は FasterTransformerの後継ともいえるNVIDIA製 推論エンジンで、当社ChatStreamの推論エンジンとしても選択可能です。 vLLMと同じく新しいモデル対応が早く、既存モデルも豊富にサポートされています。 昨日 大型コミットが入りましたので動作確認をしました。(マルチモーダルモデルNeva,Kosmos2に対応など。) TensorRT-LLM のサポートしている、モデルアーキテクチャは以下のとおりです。 LLM Baichuan, BART, BERT, Blip2, BLOOM, ChatGLM, DBRX, FairSeq NMT, Falcon, Flan-T5, Gemma, GPT, GPT-J, GPT-Nemo, GPT-NeoX, InternLM, LLaMA, LLaMA-v2, Mamba, mBART, Mistral, MPT, mT5, OPT, Phi-1.5/Phi-2, Qwen, Qwen-VL, Replit

By Qualiteg プロダクト開発部
[自作日記18] SW編: Anacondaのインストール

GPUマシン自作

[自作日記18] SW編: Anacondaのインストール

今回は、 Anaconda を導入します。 Python は一般的にアプリケーションごとに仮想環境を使用して実行しますが、仮想環境を構築できるものに Anaconda または Python純正仮想環境の venv のどちらかがよく使われます。 今回は、 Anaconda を導入してみたいとおもいます。 4.1 Anaconda(Python環境) のインストール STEP1 Anaconda3 をダウンロードする Chromeを開いて、以下を開きます https://www.anaconda.com/distribution/#download-section 自動的に Linux 用を表示してくれるので、それをダウンロードします STEP2 インストール用スクリプトを実行する cd downloads bash Anaconda3-2022.10-Linux-x86_64.sh エンターキーをおすrと、 license agreement をスクロールさせることができます 内容問題なければ yes とタイプします

By Qualiteg Boot Camp
LLM サービング効率化の為のPagedAttention

ChatStream Guide

LLM サービング効率化の為のPagedAttention

こんにちは、株式会社Qualitegプロダクト開発部です。 今日は 商用LLM サービングに欠かせない PagedAttention 技術をご紹介します はじめに PagedAttention は当社にとって非常に重要な技術です PagedAttentionを活用するとLLMでの文章生成において GPUメモリの利用効率をあげ 、そのぶん単位GPUあたりの同時に捌けるリクエストを増やすことができます。 当社は「ChatStream」という商用のLLMサービングプラットフォームを開発・提供しているため、多ユーザーからの同時リクエストによる高負荷環境でのLLMサービング(文章生成の提供)は、ドドド真ん中の課題ということになります。 PagedAttention登場以前の従来の並列生成はKVキャッシュとよばれる”リクエストごとに発生する大きなGPUメモリ消費”との戦いでした。 (KVキャッシュは transfomerのmodelを生で叩くときに past_key_values として登場します) つまりモデルのパラメータとは別に発生する推論時のメモリ消費です。 これが同時に

By Qualiteg プロダクト開発部
株式会社Qualiteg、NVIDIA Inceptionプログラムに採択

News

株式会社Qualiteg、NVIDIA Inceptionプログラムに採択

2024年4月25日、株式会社QualitegはNVIDIA Inceptionプログラムに採択されました。これにより、私たちは世界中の革新的なスタートアップとともに、先進技術の開発と普及に向けて新たな一歩を踏み出すこととなりました。 LLMサービス開発への期待 NVIDIA Inceptionプログラムに採用されたことで、当社は大規模言語モデル(LLM)サービスの開発事業者として、更なる飛躍が期待されております。 特に、NVIDIAが提供する高度なAIリソースとツールを活用することで、以下のような可能性が広がります。 1. 高性能なAIモデルの開発 NVIDIAのAI Foundation Modelsを利用することで、最先端のAIモデルを迅速に構築し、カスタマイズして展開することができます。これにより、業界をリードする革新的なソリューションの提供が可能となります。 2. エンジニアリングリソースの強化 NVIDIA Developer Programに参加することで、エンジニアは最新のツールやリソース、専門家によるサポートを受けることができま

By Tomonori Misawa / CEO
[自作日記17] SW編: NVIDIA Display Driver を GPUマシンの Ubuntu にインストールする

GPUマシン自作

[自作日記17] SW編: NVIDIA Display Driver を GPUマシンの Ubuntu にインストールする

こんにちは! 今回は Ubuntu で GPU を使用できるようにするため、 NVIDIA Display Drive をインストールしていきます 3.2 Nvidia Display Driverのインストール 今回購入した GPU NVIDIA RTX 3090 Ti 24G に対応したディスプレイドライバーをインストールしていきます! 3.2.1 ドライバーのダウンロード 以下のサイトにアクセスして RTX 3090 Ti 用のドライバをさがします https://www.nvidia.co.jp/Download/index.aspx?lang=jp 自分の環境(RTX 3090 Ti,Linux)を選択して、 探す をクリックするとドライバをさがしてくれるので便利です

By Qualiteg Boot Camp
[自作日記16] SW編: GPUマシンの Ubuntu を構成する

GPUマシン自作

[自作日記16] SW編: GPUマシンの Ubuntu を構成する

こんにちは!今回は Ubuntu OS インストール後の構成をします 3.1 Ubuntu の構成 3.1.1 初回起動時の各種アップデート 現在、Ubuntu OS のインストールが終了した状態となってますが、Ubuntu OSアップデートや言語パックのアップデートなどが表示されていた場合、それをまず実行します 初回に表示されるアップデートが終了したときに以下のようなダイアログが表示されるのですぐに再起動をクリックしていったんリブートします 3.1.2 日本語 IME の設定 画面右上にある日本語IMEを選択します 3.1.3 ”downloads” ディレクトリの作成 ダウンロードファイルの保存先用に "downloads" ディレクトリを作成します。 日本語の「ダウンロード」ディレクトリがもともとあるが、端末(shell)から扱いにくいですし、日本語フォルダ名は何かと不便なためです。 画面左バーからファイルを起動します ホームディレクトリ以下にdownloadsというディレクトリを作成します 3.1.4

By Qualiteg Boot Camp
[自作日記15] SW編:Ubuntu インストール手順

GPUマシン自作

[自作日記15] SW編:Ubuntu インストール手順

こんにちは! 前回つくったUSBドライブから、Ubuntu 22.4 をGPUマシンにインストールしていきましょう! 2.0 LANケーブルを接続する インストールする前に、GPUマシンにLANケーブルを接続してインターネットが使える状態にしておきましょう。 2.1 USB メモリからブートする 2.1 で作成した USB メモリ を GPUマシンのUSBポートに挿します USBドライブを挿したら、 PCケースの電源ボタンを押して電源を入れましょう。 するとマザーボードの初期起動画面が表示されるので キーボードで F11 を押しながら待ちます ブートデバイスを選択する画面がでたら、 UEFI: USB を選択してエンターを押します しばらくすると Ubuntuのインストール画面が表示されるので Try or install ubuntu を選択してエンターを押します これでUbuntu のインストールが開始するのをまちます 2.2 Ubuntu OS のインストール Ubuntu OS のインストーラーが開始したら、Ubuntu

By Qualiteg Boot Camp
[自作日記14] SW編:Ubuntu のインストールUSBの作成

GPUマシン自作

[自作日記14] SW編:Ubuntu のインストールUSBの作成

こんにちは! 今回からは、GPUマシンをAIマシンにすべく、ソフトウェア編の開始です! 目標は Ubuntu OS で GPU使用できる状態にし、最終的に LLMをつかった推論をできるところまでもっていきます。 1. Ubuntu のインストールUSBの作成 GPUマシンのメインOSは Ubuntu を導入したいため、これからUbuntuのインストールを行います。 Ubuntuのインストールにはいくつかの方法がありますが、事務用パソコンのWindowsを使用してUbuntuイメージが入ったUSBメモリを作成し、それをもって Ubuntu をまっさらなPCにインストールしていくアプローチをとろうと思います。 1.1 USBメモリ(32GB以下)の準備 まず、Ubuntuのイメージを焼くUSBメモリを準備します。 USBメモリは下に示す理由の為、 32GB 以下のものを準備しましょう。 * USB メモリが 32GB を超えると、FAT32 フォーマットができなくなる * ブートにつかう USB メモリ は FAT32 でフォーマットされている必要がある

By Qualiteg Boot Camp
[自作日記13] 電源ケーブルの結線

GPUマシン自作

[自作日記13] 電源ケーブルの結線

さて、そろそろ組み立ても終盤です!がんばりましょう! 1.マザーボード用給電ケーブルを挿す 24ピンATXケーブルというもっともたくさん束ねられているケーブルがありますので、まずはそれを電源側の M/B 表記のところに挿し込みます 次に同ケーブルをマザーボード側に挿します。 しっかりツメがかみ合うように装着します 2.CPUへの給電ケーブルを挿す 次はCPUケーブルです。通常6ピン+2ピンの構成になっており、こちらも電源側とマザーボード側双方に装着します。 まず電源側の CPU/PCI-E と表示のあるところに、片一方を挿します 続いてマザーボード側にも挿しましょう。 しっかりと挿さりました マザーボード表面に CPU PWR1,CPU PWR2 と書いてある場合もあれば、 ATX12V1,ATX12V2 とだけ書いてある場合などがあります。メーカーによって表記が異なります。 3.グラフィックボード用の給電ケーブルを挿す グラボの種類にもよりますが、大型グラボは多くの電力を必要とします。今回のグラフィックボードは 3系統のPCI電源が必要となるため

By Qualiteg Boot Camp
[自作日記12] グラボをマザーボードに装着!

GPUマシン自作

[自作日記12] グラボをマザーボードに装着!

今回は、いよいよ、主役のグラフィックボードを装着します! 1.PCI Express スロットのカバーをはずす グラフィックボードを挿入するのは PCI Express gen 5 x16 スロットなので、その部分のカバーをはずします。 また、今回のグラフィックボードは 4 スロット占有なのでそこから4スロット分のカバーをはずしておきます。 2.グラフィックボードを開梱する 今回のパーツでもっとも高価だったグラボをいよいよ開梱しましょう! おおおグラボ本体と、支え用のアームが入っています。 袋からとりだすと、34センチのビッグサイズの MSI SUPRIM X GeForce RTX 3090 Tiがお目見え! ヒートシンクがすごいですね。 こちらら側は、3連装のプロペラファンです。MSIのドラゴンマークがかっこいいです。 コンシューマー用グラボは見た目もかっこいいですね。 さて、さっそく、このグラフィックボードを、PCI Express スロットに装着するんですが、端子部分に実はカバーがかかっていますので、 まず、そのカバーを外します。 端子カバーをは

By Qualiteg Boot Camp