(株)Qualiteg - Qualiteg Blog (Page 8)

【ChatStream】大容量のLLMの推論に必要なGPUサーバー構成

大容量のLLM（大規模言語モデル）の推論に必要なGPUサーバー構成とChatStreamとの連携について詳しく動画で解説しています。特に、Llama3-70Bモデルを例に、そのメモリ要件（140GBのGPUメモリ）と、この要件を満たすために必要なGPUサーバーおよびGPUクラスターの構成について、取り扱いやすい NVIDIA RTX A6000 GPUを使用した例について説明します。また、モデル並列化技術（テンソル並列化、パイプライン並列化、データ並列化）とその推論エンジンの選択についても触れ、実際に複数のGPUサーバーを使ったクラスター構成がどのように推論処理を効率的に行うかを示します。最後に、ChatStreamのLLMノードとは何か、そしてそれをどのようにスケーリングして大量の同時リクエストに対応するかについても解説します。この動画は、高性能を必要とするLLMのデプロイメントと運用に興味がある方に特に有益です。

日々の開発Tips

RuntimeError: implement_array_function method already has a docstring というエラーが発生したとき

以下のようなエラーが発生したとき、 RuntimeError: implement_array_function method already has a docstring このエラーメッセージは、numpyパッケージ内で発生している問題のようです。特に、implement_array_functionメソッドに既にドキュメンテーションが存在しているというエラーで、これは通常、互換性のないバージョンのnumpyを使用している場合に発生するようです。次の対策でエラーは発生しなくなりました pip install numpy==1.19.5

ChatStream

ChatStream🄬でLlama-3-Elyza-JP-8B を動かす

こんにちは、本日は Llama-3-Elyza-JP-8B を使ってみました。昨日 2024年6月26日に発表(https://prtimes.jp/main/html/rd/p/000000046.000047565.html)された Llama-3-Elyza-JP-8B は 70B 版では「GPT-4」を上回る性能の日本語LLMといわれています。今回、当社でも Playground 環境に Llama-3-Elyza-JP-8B を搭載して試してみましたのでご紹介します。 70B(700億パラメータ)版は GPT-4 を上回るとのことですので、8B(80億パラメータ）版はGPT-3.5 と比較してみることにいたしました。（性能比較は https://note.com/elyza/n/n360b6084fdbd の記事に詳しく書いてあります。） AWQ量子化版を使用してみる今回は、A4000

日々の開発Tips

AttributeError: module 'torch._dynamo' has no attribute 'mark_static_address' が発生したときの対処法

以下のようなエラーが出た場合の対処法 File "/venv/Lib/site-packages/torch/utils/_contextlib.py", line 115, in decorate_context return func(*args, **kwargs) ^^^^^^^^^^^^^^^^^^^^^ File "/venv/Lib/site-packages/transformers/generation/utils.py", line 1744, in generate model_kwargs["past_key_values"] = self._get_cache( ^^^^^^^^^^^^^^^^ File "/venv/Lib/site-packages/transformers/

AI-Business

[AI新規事業創出]Qualitegセレクション：アイディア創造編①Qualiteg式オンラインブレストの活用術

Qualiteg blogを訪問してくださった皆様、こんにちは。Micheleです。AIを活用した新規事業やマーケティングを手がけている私には、クライアントからよく寄せられる質問があります。AIを用いた事業展開を検討されている方々が共通して直面するであろう課題に対して、このブログを通じて私なりの解答をご提供したいと思います。今日は私のお気に入りのブレスト方法である「Qualiteg式オンラインブレスト」の活用術についてお話ししたいと思います。場所を変えて気分を変えても良いアイディアは生まれない！？よく、「金曜日は1日ブレストしよう！」という上司の掛け声とともに、いつもと違う雰囲気なら良いアイディアも出るかもしれないといってホテルの会議室などを予約されて1日缶詰でブレストしたが、期待する結果が出なかったとおっしゃるクライアントが非常に多いです。ブレインストーミングは複数の参加者が自由にアイデアを出し合うことで、新しい発想や解決策を見つける手法です。批判や評価を一時的に排除し、量を重視して多くのアイデアを集めることが目的です。1950年代に広告業界で生まれたこの手法は

日々の開発Tips

NVIDIA GPU と Capability Level

NVIDIA GPU の Capability Level の一覧です。推論エンジンがサポートする各種アクセラレーション機能は Capability Level により搭載されるハードウェアアクセラレータや専用機能が異なります。データセンター/プロ向けGPU GeForce GPU Capability Level 世代名 - GeForce RTX 5090 120 Blackwell - GeForce RTX 5080 120 Blackwell - GeForce RTX 5070 120 Blackwell - GeForce RTX 5060 120 Blackwell NVIDIA B200 - 100 Blackwell NVIDIA B100 - 100

AI-Business

[AI新規事業創出]Qualitegが考える、アイディア創造フレームワークを利活用する理由

Qualiteg blogを訪問してくださった皆様、こんにちは。Micheleです。AIを活用した新規事業やマーケティングを手がけている私には、クライアントからよく寄せられる質問があります。AIを用いた事業展開を検討されている方々が共通して直面するであろう課題に対して、このブログを通じて私なりの解答をご提供したいと思います。アイディア創造を成功させるための体系的アプローチ「新規事業のアイディアが浮かばない」「ブレインストーミングを行っても成果が出ない」というお悩みをよく耳にします。多くの企業コンサルティングを手掛けてきた経験から、アイディア創造の失敗パターンとして最も多いのが「準備なしの突発的なブレスト」です。事業目的やターゲットユーザーを明確にしないまま思いつきで意見を出し合い、結果的に有効なアイディア創出に至らないケースが多発しています。今回は、Qualitegが提唱する「アイディア創造フレームワーク」について解説します。思いつきではなく、体系的なアプローチで新規事業開発を成功させるためのメソッドをご紹介します。アイディア創造の第一歩：ターゲットユーザーの明確化

IT & AIテクノロジー

推論速度を向上させる Speculative Decoding(投機的デコーディング)とは

こんにちは Qualiteg 研究部です。投機的デコーディングとは何か？投機的デコーディングは、大規模言語モデル（LLM）の推論速度を向上させる技術です。たいていのモデルを1.4～2.0倍程度、高速化できることが報告されています。このアプローチでは、小さなモデル（ドラフトモデル）を使用して初期の予測を行い、その結果を大きなモデル（ターゲットモデル）が検証することで、全体の推論プロセスを高速化します。ざっくりいうと、大きなモデルは計算負荷も高く計算速度も遅いので、まず、小さなモデルで高速に計算したあとで、その計算結果をうまくつかって大きなモデルでの計算負荷をさげ、スピードを向上させようというアイデアです。基本的に大きなモデルと、小さなモデルはサイズ以外は基本的にまったく同じネットワーク構造をしていることが前提となります。たとえば 70Bの Llama3 と 8B の Llama3 を組み合わせてつかうイメージです。当然70B の Llama3 の推論計算のほうが 8B よりも重たくなりますので、小さい8BのLlama3 で先回りして推論計算することで

日々の開発Tips

【GPT4o対応】OpenAI API のPythonサンプルコードと出力例

今回は、OpenAI の API 利用サンプルコードをご紹介します。 OpenAI API は OpenAI純正のAPI のみならず、vLLMなど他の推論エンジンでも OpenAI 準拠のAPIサーバーが公開されており、LLMサービングAPIのデファクトとなりつつありますので、コーディングのお作法をおさえておきましょう。 OpenAI の GPT シリーズのAPIにアクセスするための、シンプルなサンプルコードは以下のようになります。生成結果をストリーミングで逐次受信してみましょう。サンプルコード:クイックスタート import asyncio import os import traceback from openai import AsyncOpenAI async def main() -> None: try: # モデル名を指定 # model="gpt-4-turbo" # $10.00/MTok for input

GPUマシン自作

[自作日記20] SW編: コードをGPUで動かす

早速、GPUで Pythonコードを動かしてみましょう 4.3 Jupyter Notebook で GPUを活用したPytorchコードを記述する STEP1 端末（ターミナル）を開いて、PyTorchプロジェクト用のディレクトリを作る以下のコマンドを入力します mkdir pytorch_pj cd pytorch_pj STEP2 Jupyter Notebook の起動ディレクトリに移動したら jupyter notebook でJupyter Notebook(ジュピターノートブック)を起動します Jupyter Notebook はPythonのコード作成と実行、実行結果表示、自由コメント（Markdown）編集の3つの機能をそなえたツールで、気軽に利用できるので、Jupyter Notebook上で試してみましょう Jupyter Notebook が起動しました右上の新規をクリックして Python3 を選択します

AI数理

[AI数理]徹底的に交差エントロピー(7)

おはようございます！(株) Qualiteg 研究部です。今回は、交差エントロピーの計算をベクトルや行列で表現する方法について説明します！ 8章交差エントロピーとベクトル演算そもそも、なぜ、交差エントロピーをベクトルや行列で表現したいのでしょうか？それは、実際にニューラルネットワークをコンピュータープログラムとして実装するときに、訓練データや予測値はベクトル(1次元配列)や行列(2次元配列)といったN階テンソル(N次元配列)の形式で取り扱われるからです。なぜベクトルや行列かといえば、ニューラルネットワークの実用的な計算をするときにはデータを1件とりだしては、1件計算する　のではなく、多くのデータをベクトル（1次元配列）や行列（2次元配列）やそれ以上の多次元配列に詰めたのちに、まとめてドカっと計算するからです。（まとめてドカっと計算するのが得意な GPU があるからこそ、これだけ Deep Learning が進展した、ともいえます）そこで、今までで導出してきた交差エントロピーの計算をコンピュータで実装するときに備えて、 1次元配列にしてみます。

AI-Business

[AI新規事業創出] Qualitegが考える、アイディア創造で発散が必要な理由

新規事業のアイディア創出時には、部署内だけでなく、多様な職種や背景を持つ社内の関係者全員を巻き込むことが推奨されます。これにより、多角的な視点が確保され、実現可能性の高いアイディアが生まれやすくなります。また、プロジェクト初期からの協働はチーム間のコミュニケーションを強化し、各自が専門性を活かしたアイディア提供により、より具体的で効果的な解決策へと繋がるためです。

NumPy/PyTorch

推論時torch.tensor(sourceTensor)ではなくて、sourceTensor.clone().detach()を使おう

PyTorchのテンソル操作最適化: 警告メッセージの理解と解決こんにちは！ Qualiteg プロダクト開発部です。 PyTorch 1.13にて、次のような警告メッセージに遭遇しました UserWarning: To copy construct from a tensor, it is recommended to use sourceTensor.clone().detach() or sourceTensor.clone().detach().requires_grad_(True), rather than torch.tensor(sourceTensor). この記事では、この警告の意味を解説し、修正方針についてかきたいとおもいます。 torch.tensor() よりも .clone().detach() のほうがおすすめなのかそれは、PyTorchがテンソルと自動微分（オートグラッド）をどのように扱うかに関係があります。 torch.

[ChatStream] 同時リクエスト時の推論速度を手軽に計測する

こんにちは、Qualitegプロダクト開発部です。今回は RakutenAI-7B-Chat に5人同時リクエストしたときのパフォーマンスをお手軽に計測してみました。実験環境 * GPU: A5000 * LLM: RakutenAI-7B-Chat AWQ-8 * 推論環境: ChatStream v0.7.2 * 同時リクエスト数: 5 動画のほうがわかりやすいとおもいますので、実際の実験の様子はこちらの動画をつくりました。ご覧くださいませ動画にもありますように、ChatStreamUIのマルチタスク機能を有効にすると、同一画面内に複数のチャットウィンドウを開くことができます。マルチタスク機能は、複数のLLMを連携させて業務をすすめていく為の機能ですが、今回は、この特長を利用して、同じモデルに対して同時に生成リクエストを投げる用途で使ってみました。以前も、この機能をつかった簡易計測をご紹介したのですが、今回は、入力プロンプトの同期機能を使用したので、より簡単に実施できました。（１つのテキストボックスに入力プロンプトを入力すると、他のテキストボック

ChatStream Guide

LLMサンプリングにおける3つのペナルティ

[付録]ペナルティの比較ペナルティタイプ目的適用方法ペナルティの例 Repetition Penalty 特定のトークンやフレーズが繰り返されるのを防ぐ。過去に生成されたすべてのトークンのログ確率（logits）に対してペナルティを適用する。例えば、あるトークンがすでに生成された場合、そのトークンのログ確率をペナルティ値で割る（乗算）か、ペナルティ値を引く（減算）。 Frequency Penalty 生成されたトークンの出現頻度に基づいてペナルティを適用し、頻繁に出現するトークンを抑制する。各トークンが生成された回数に基づいてペナルティを適用する。トークンが出現するたびに、そのトークンの出現確率を低減させる。トークンが出現するたびに、そのトークンのログ確率をペナルティ値で累積的に割る（乗算）か、ペナルティ値を累積的に引く（減算）。 Presence Penalty すでに生成されたトークンが再度出現するのを防ぐ。トークンが一度でも生成されたかどうかに基づいてペナルティを適用する。一度生成されたトークンには再出現の際にペナルティが適用さ

IT & AIテクノロジー

Google Gemini 1.5 API の機能、特徴、価格と使い方

こんにちは！(株)Qualiteg テックブログです！【2024年7月2日更新版】本日は Google Gemini 1.5 Pro/ Gemini 1.5 Flash モデルの特徴、価格、Pythonをつかったテキスト生成について解説いたします。 Google Gemini とは Google Geminiは、Googleが提供する生成AIプラットフォームです。高品質なテキスト生成を行うためのAPIを提供し、さまざまなアプリケーションで自然な言語生成を利用できます。Geminiは多くの業界で使用されており、コンテンツ作成、カスタマーサポート、チャットボット、マーケティング、教育など、幅広い用途に対応しています。 APIキーの取得方法 Google Geminiを利用するためには、APIキーが必要です。以下の手順でAPIキーを取得できます。 Google AI Studio にアクセスして、手順にしたがい、Get API key でAPIキーを作成します。 https://aistudio.google.

Latest

【ChatStream】大容量のLLMの推論に必要なGPUサーバー構成

RuntimeError: implement_array_function method already has a docstring というエラーが発生したとき

ChatStream🄬でLlama-3-Elyza-JP-8B を動かす

AttributeError: module 'torch._dynamo' has no attribute 'mark_static_address' が発生したときの対処法

[AI新規事業創出]Qualitegセレクション：アイディア創造編①Qualiteg式オンラインブレストの活用術

NVIDIA GPU と Capability Level

[AI新規事業創出]Qualitegが考える、アイディア創造フレームワークを利活用する理由

推論速度を向上させる Speculative Decoding(投機的デコーディング)とは

【GPT4o対応】OpenAI API のPythonサンプルコードと出力例

[自作日記20] SW編: コードをGPUで動かす

[AI数理]徹底的に交差エントロピー(7)

[AI新規事業創出] Qualitegが考える、アイディア創造で発散が必要な理由

推論時torch.tensor(sourceTensor)ではなくて、sourceTensor.clone().detach()を使おう

[ChatStream] 同時リクエスト時の推論速度を手軽に計測する

LLMサンプリングにおける3つのペナルティ

Google Gemini 1.5 API の機能、特徴、価格と使い方