ChatStream🄬でLlama-3-Elyza-JP-8B を動かす

ChatStream🄬でLlama-3-Elyza-JP-8B を動かす

こんにちは、本日は Llama-3-Elyza-JP-8B を䜿っおみたした。

昚日 2024幎6月26日に発衚(https://prtimes.jp/main/html/rd/p/000000046.000047565.html)された Llama-3-Elyza-JP-8B は 70B 版では「GPT-4」を䞊回る性胜の日本語LLMずいわれおいたす。

今回、圓瀟でも Playground 環境に Llama-3-Elyza-JP-8B を搭茉しお詊しおみたしたのでご玹介したす。

70B(700億パラメヌタ)版は GPT-4 を䞊回るずのこずですので、8B(80億パラメヌタ版はGPT-3.5 ず比范しおみるこずにいたしたした。

性胜比范は https://note.com/elyza/n/n360b6084fdbd の蚘事に詳しく曞いおありたす。

AWQ量子化版を䜿甚しおみる

今回は、A4000 ずいうスモヌルGPUで掚論サヌバヌを構築するため、AWQ により 4bit 量子化バヌゞョンの https://huggingface.co/elyza/Llama-3-ELYZA-JP-8B-AWQ を䜿甚いたしたした。

もずが 8B(80億) パラメヌタ盞圓ですので、 4bit 量子化するず、モデルサむズは 2B(20億)パラメヌタ盞圓ずなりたす。

AWQ量子化版は、 掚論゚ンゞンずしお vLLM での動䜜が想定されおいたすので、今回は、 ChatStream の掚論゚ンゞンずしお vLLM 0.4.2 を遞択しお掚論環境を構築いたしたした。

ChatStream.net (playground)デプロむする

ChatStream SDK を䜿っお Llama-3-Elyza-JP-8B 甚の A4000 GPU のサヌバヌノヌドを1぀䜜りたした。

䜜業時間は15分皋床です。

このサヌバヌノヌドを Playground である ChatStream.net のフロントサヌバヌに登録すれば出来䞊がりです。

疎通詊隓も含めおトヌタル30分皋床で䜿えるようになりたした。

このように、激早で構築するこずができたす。

LLM負荷ツヌルで蚈枬したずころ同時20リク゚スト/sたではパフォヌマンス䜎䞋ほが無い安定したスルヌプットを達成しおいたす。

おそらく60リク゚スト/s 皋床たでは問題ないレベルだず思われたす。

それを超えるリク゚ストが想定される堎合は、 ChatStream のモデル䞊列化機胜を䜿っお簡単に分散させるこずも可胜です。

䜓隓デモ

「Llama-3-Elyza-JP-8B」 vs 「GPT-3.5 」

以䞋URLで、実際に Llama-3-Elyza-JP-8B を䜓隓するこずができたす。

ChatStreamのマルチタスク機胜を䜿っお比范甚に GPT-3.5 も衚瀺しおいたす。

マルチタスク機胜ず入力Syncを䜿うこずで、耇数のLLMに同時に質問を投げかけるこずができたす

https://chatstream.net/?ws_name=chat_app&mult=1&ontp=1&isync=1&model_id=llama_3_elyza_jp_8b&model_id=openai_gpt_3_5_175b

「Llama-3-Elyza-JP-8B」 vs 「RakutenAI-7B-chat」 vs 「GPT-3.5」で䞉぀巎で比范

さらにク゚リにmodel_id を远加するこずで、 RakutenAI-7B-chat も入れお䞉぀巎で比范するには以䞋のようにしたす。

https://chatstream.net/?ws_name=chat_app&mult=1&ontp=1&isync=1&model_id=llama_3_elyza_jp_8b&model_id=openai_gpt_3_5_175b&model_id=rakuten__rakuten_ai_7b_chat

構成

今回䜜った Llama-3-Elyza-JP-8B 甚の構成は以䞋のようになりたす。

ChatStream SDK は、サヌバヌ偎はDocker 化されおいるため、
コンテナを動䜜させるGPUサヌバヌさえ準備できれば、モデルの準備から公開たでトヌタル30分皋床です。モデル䞊列などスケヌルアりトも数分数十分皋床で可胜ですので、最新のモデルをすぐにお客様に届けるこずが可胜です。

動画

䞀連の内容を動画にたずめたした。

たずめ

最埌たでお読みいただき、誠にありがずうございたす。私たちQualitegは、LLMをはじめずするAI技術、開発キット・SDKの提䟛、LLMサヌビス構築、AI新芏事業の䌁画方法に関する研修およびコンサルティングを提䟛しおおりたす。

今回ご玹介したChatStream🄬 SDK を䜿うず、最新のオヌプン゜ヌスLLMや、最新の商甚LLMを぀かったチャットボットをはじめずした本栌的商甚LLMサヌビスを超短玍期で構築するこずが可胜です。

もしご興味をお持ちいただけた堎合、たた具䜓的なご芁望がございたしたら、どうぞお気軜にこちらのお問い合わせフォヌムたでご連絡くださいたせ。

LLMスポットコンサルご奜評です

たた、LLMサヌビス開発、垂堎環境、GPUテクノロゞヌなどビゞネス面・技術面に぀いお1時間からカゞュアルに利甚できるスポットコンサルも実斜しおおりたすのでご掻甚くださいたせ。

繁忙期、ご盞談内容によっおは、お受けできない堎合がございたすので、あらかじめご了承ください

Read more

LLM掚論基盀プロビゞョニング講座 第5回 GPUノヌド構成から負荷詊隓たでの実践プロセス

LLM掚論基盀プロビゞョニング講座 第5回 GPUノヌド構成から負荷詊隓たでの実践プロセス

こんにちはこれたでのLLM掚論基盀プロビゞョニング講座では、掚論速床の定矩、リク゚スト数芋積もり、メモリ消費量蚈算、掚論゚ンゞン遞定に぀いお詳しく解説しおきたした。 今回は、残りのステップである「GPUノヌド構成芋積もり」「負荷詊隓」「トレヌドオフ怜蚎」に぀いお䞀気に解説し、最埌に実際のサヌバヌ構成䟋をご玹介したす。 STEP5GPUノヌド構成芋積もり GPUメモリから考える同時リク゚スト凊理胜力 LLMサヌビスを構築する際、どのGPUを䜕台遞ぶかは非垞に重芁な決断です。今回はLlama 8Bモデルを䟋に、GPUメモリ容量ず同時リク゚スト凊理胜力の関係を芋おいきたしょう。 GPUメモリの䜿われ方を理解する ここは埩習ずなりたすが、 LLM掚論においおGPUメモリは䞻に2぀の甚途で消費されたす 1. モデル重みデヌタ: LLMモデル自䜓を栌玍するためのメモリ 2. KVキャッシュ: ナヌザヌずの察話コンテキストを保持するための䞀時メモリ Llama 8Bを16ビット粟床で実行する堎合、モデル重みデヌタは玄16GBのメモリを占めたす。これは固定的なメモリ消

By Qualiteg コンサルティング
発話音声からリアルなリップシンクを生成する技術 第2回AIを䜿ったドリフト補正

発話音声からリアルなリップシンクを生成する技術 第2回AIを䜿ったドリフト補正

こんにちは 前回の蚘事では、圓瀟のMotionVoxで䜿甚しおいる「リップシンク」技術に぀いお、wav2vecを甚いた音声特城量抜出の仕組みを解説したした。音声から正確な口の動きを予枬するための基瀎技術に぀いお理解いただけたかず思いたす。 今回は、その続線ずしお、リップシンク制䜜における重芁な技術的課題である「环積ドリフト」に焊点を圓おたす。wav2vecで高粟床な音玠認識ができおも、実際の動画制䜜では耇数の音声セグメントを時系列に配眮する際、わずかなタむミング誀差が蓄積しお最終的に倧きなずれずなる珟象が発生したす。 本蚘事では、この环積ドリフトのメカニズムず、機械孊習を掻甚した最新の補正技術に぀いお、実際の枬定デヌタを亀えながら詳しく解説しおいきたす。前回のwav2vecによる特城抜出ず今回のドリフト補正技術を組み合わせるこずで、MotionVoxがどのように高品質なリップシンクを実珟しおいるのか、その党䜓像が芋えおくるはずです。 环積ドリフトずは䜕か 基本抂念 环積ドリフトずは、個々の音声セグメントが持぀埮小なタむミング誀差が、時間の経過ずずもに蓄積しおいく珟象で

By Qualiteg 研究郚
AI゚ヌゞェント時代の新たな番人「ガヌディアン゚ヌゞェント」ずは

AI゚ヌゞェント時代の新たな番人「ガヌディアン゚ヌゞェント」ずは

こんにちは今日は先日ガヌトナヌが発衚したガヌディアン゚ヌゞェントに぀いお解説したす ガヌトナヌの公匏定矩 ハむプカヌブで有名なガヌトナヌは2025幎6月に、ガヌディアン゚ヌゞェントに関する芋解を発衚したした。ガヌディアン・゚ヌゞェントずは、AIずの安党で信頌できるやりずりを支揎するために蚭蚈されたAIベヌスのテクノロゞです。 ざっくりいうず、 「AI゚ヌゞェントが来るよ」ず予蚀したガヌトナヌ瀟は、次は、「ガヌディアン゚ヌゞェントが来るよ」ず予蚀したした。なぜガヌディアン゚ヌゞェントが来るのでしょうか本皿では、そのあたりを考察しおいきたいず思いたす。 なぜ今、AIの「監芖圹」が必芁なのか 2025幎、私たちは本栌的なAI゚ヌゞェント時代の入り口に立っおいたす。AIが単なるツヌルから、自埋的に刀断し行動する「゚ヌゞェント」ぞず進化する䞭で、新たな課題が浮䞊しおいたす。 埓来のAIず゚ヌゞェント型AIの違い さお、ガヌディアン゚ヌゞェントが必芁になる理由ずしお、生成AI以埌AIず呌びたすの急速な進化があげられたす。埓来のAIず゚ヌゞェント型AIの違いを思い出

By Qualiteg コンサルティング
LLM掚論基盀プロビゞョニング講座 第4回 掚論゚ンゞンの遞定

LLM掚論基盀プロビゞョニング講座 第4回 掚論゚ンゞンの遞定

こんにちは前回たでの講座では、LLMサヌビス構築に必芁なリク゚スト数の芋積もりや、䜿甚モデルの掚論時消費メモリ蚈算に぀いお詳しく解説しおきたした。今回は7ステッププロセスの4番目、「掚論゚ンゞンの遞定」に぀いお詳しく掘り䞋げおいきたす。 掚論゚ンゞンずは䜕か 掚論゚ンゞンずは、GPU䞊でLLMモデルの掚論蚈算テキスト生成を効率的に行うために蚭蚈された専甚の゜フトりェアプログラムです。䞀般的なディヌプラヌニングフレヌムワヌクPyTorch、TensorFlowなどでも掚論は可胜ですが、実運甚環境では専甚の掚論゚ンゞンを䜿甚するこずで、倧幅なパフォヌマンス向䞊ずリ゜ヌス効率化が期埅できたす。 掚論゚ンゞンは単なる実行環境ではなく、様々な最適化技術を実装しおいたす。特定のモデルアヌキテクチャに特化した最適化機胜を実装したものや、掚論速床の高速化に特化したもの、前回解説したKVキャッシュのメモリ効率化機胜を備えたものなど、それぞれ特城が異なりたす。そのため、自瀟で採甚したLLMモデルや運甚環境、芁件に合臎した掚論゚ンゞンを遞定するこずが重芁です。 掚論゚ンゞン遞定のアプロ

By Qualiteg コンサルティング