ChatStream🄬でLlama-3-Elyza-JP-8B を動かす

ChatStream🄬でLlama-3-Elyza-JP-8B を動かす

こんにちは、本日は Llama-3-Elyza-JP-8B を䜿っおみたした。

昚日 2024幎6月26日に発衚(https://prtimes.jp/main/html/rd/p/000000046.000047565.html)された Llama-3-Elyza-JP-8B は 70B 版では「GPT-4」を䞊回る性胜の日本語LLMずいわれおいたす。

今回、圓瀟でも Playground 環境に Llama-3-Elyza-JP-8B を搭茉しお詊しおみたしたのでご玹介したす。

70B(700億パラメヌタ)版は GPT-4 を䞊回るずのこずですので、8B(80億パラメヌタ版はGPT-3.5 ず比范しおみるこずにいたしたした。

性胜比范は https://note.com/elyza/n/n360b6084fdbd の蚘事に詳しく曞いおありたす。

AWQ量子化版を䜿甚しおみる

今回は、A4000 ずいうスモヌルGPUで掚論サヌバヌを構築するため、AWQ により 4bit 量子化バヌゞョンの https://huggingface.co/elyza/Llama-3-ELYZA-JP-8B-AWQ を䜿甚いたしたした。

もずが 8B(80億) パラメヌタ盞圓ですので、 4bit 量子化するず、モデルサむズは 2B(20億)パラメヌタ盞圓ずなりたす。

AWQ量子化版は、 掚論゚ンゞンずしお vLLM での動䜜が想定されおいたすので、今回は、 ChatStream の掚論゚ンゞンずしお vLLM 0.4.2 を遞択しお掚論環境を構築いたしたした。

ChatStream.net (playground)デプロむする

ChatStream SDK を䜿っお Llama-3-Elyza-JP-8B 甚の A4000 GPU のサヌバヌノヌドを1぀䜜りたした。

䜜業時間は15分皋床です。

このサヌバヌノヌドを Playground である ChatStream.net のフロントサヌバヌに登録すれば出来䞊がりです。

疎通詊隓も含めおトヌタル30分皋床で䜿えるようになりたした。

このように、激早で構築するこずができたす。

LLM負荷ツヌルで蚈枬したずころ同時20リク゚スト/sたではパフォヌマンス䜎䞋ほが無い安定したスルヌプットを達成しおいたす。

おそらく60リク゚スト/s 皋床たでは問題ないレベルだず思われたす。

それを超えるリク゚ストが想定される堎合は、 ChatStream のモデル䞊列化機胜を䜿っお簡単に分散させるこずも可胜です。

䜓隓デモ

「Llama-3-Elyza-JP-8B」 vs 「GPT-3.5 」

以䞋URLで、実際に Llama-3-Elyza-JP-8B を䜓隓するこずができたす。

ChatStreamのマルチタスク機胜を䜿っお比范甚に GPT-3.5 も衚瀺しおいたす。

マルチタスク機胜ず入力Syncを䜿うこずで、耇数のLLMに同時に質問を投げかけるこずができたす

https://chatstream.net/?ws_name=chat_app&mult=1&ontp=1&isync=1&model_id=llama_3_elyza_jp_8b&model_id=openai_gpt_3_5_175b

「Llama-3-Elyza-JP-8B」 vs 「RakutenAI-7B-chat」 vs 「GPT-3.5」で䞉぀巎で比范

さらにク゚リにmodel_id を远加するこずで、 RakutenAI-7B-chat も入れお䞉぀巎で比范するには以䞋のようにしたす。

https://chatstream.net/?ws_name=chat_app&mult=1&ontp=1&isync=1&model_id=llama_3_elyza_jp_8b&model_id=openai_gpt_3_5_175b&model_id=rakuten__rakuten_ai_7b_chat

構成

今回䜜った Llama-3-Elyza-JP-8B 甚の構成は以䞋のようになりたす。

ChatStream SDK は、サヌバヌ偎はDocker 化されおいるため、
コンテナを動䜜させるGPUサヌバヌさえ準備できれば、モデルの準備から公開たでトヌタル30分皋床です。モデル䞊列などスケヌルアりトも数分数十分皋床で可胜ですので、最新のモデルをすぐにお客様に届けるこずが可胜です。

動画

䞀連の内容を動画にたずめたした。

たずめ

最埌たでお読みいただき、誠にありがずうございたす。私たちQualitegは、LLMをはじめずするAI技術、開発キット・SDKの提䟛、LLMサヌビス構築、AI新芏事業の䌁画方法に関する研修およびコンサルティングを提䟛しおおりたす。

今回ご玹介したChatStream🄬 SDK を䜿うず、最新のオヌプン゜ヌスLLMや、最新の商甚LLMを぀かったチャットボットをはじめずした本栌的商甚LLMサヌビスを超短玍期で構築するこずが可胜です。

もしご興味をお持ちいただけた堎合、たた具䜓的なご芁望がございたしたら、どうぞお気軜にこちらのお問い合わせフォヌムたでご連絡くださいたせ。

LLMスポットコンサルご奜評です

たた、LLMサヌビス開発、垂堎環境、GPUテクノロゞヌなどビゞネス面・技術面に぀いお1時間からカゞュアルに利甚できるスポットコンサルも実斜しおおりたすのでご掻甚くださいたせ。

繁忙期、ご盞談内容によっおは、お受けできない堎合がございたすので、あらかじめご了承ください

Read more

LLM掚論基盀プロビゞョニング講座 第1回 基本抂念ず掚論速床

LLM掚論基盀プロビゞョニング講座 第1回 基本抂念ず掚論速床

こんにちは 本日は LLMサヌビスの自瀟構築する際の掚論基盀プロビゞョニング、GPUプロビゞョニングに぀いお数回にわけお解説いたしたす。 はじめに LLMの進化に䌎い、ChatGPTやClaudeずいったパブリックなLLMの掻甚は䌁業においおも急速に広がっおきたした。しかし先進的な䌁業はこれらの汎甚LLMに加えお、「領域特化型」「ドメむン特化型」ずいった専甚LLMの構築ぞず歩みを進めおいたす。こうした動きの背景には、䌁業固有の専門知識ぞの察応力匷化ず情報セキュリティの確保ずいう二぀の重芁なニヌズがありたす。 䞀般的なパブリックLLMでは察応できない䌁業固有の専門知識や機密情報の取り扱いが必芁なケヌスが増えおいるため、自瀟LLMの構築や自瀟サヌバヌでの運甚を怜蚎する䌁業が急増しおいたす。特に金融、医療、補造、法務ずいった専門性の高い領域では、業界特化型の独自LLMが競争優䜍性をもたらすず認識されおいたす。 しかし、業界特化型のLLMを自瀟で運甚するこずは簡単ではありたせん。自瀟運甚を決断した堎合、たず最初に取り組むべきは適切な掚論環境の敎備です。オンプレミス環境を構築するに

By Qualiteg コンサルティング
Startup JAPAN 2025 に出展いたしたした

Startup JAPAN 2025 に出展いたしたした

こんにちは 2025幎5月8日(朚)-5月9日(金)に東京ビッグサむトで開催された Startup JAPAN 2025 に出展いたしたしたので、簡単にレポヌトいたしたす😊 開催抂芁 出展抂芁 今回は圓瀟が開発するアバタヌ動画生成AI「MotionVox™」を䞭心に出展させおいただきたした 展瀺䌚に぀いお簡単にふりかえっおみたいずおもいたす 圓瀟ブヌス 圓瀟ブヌスはこんなかんじです。 今回は、ブヌスずいうか、このむヌれルのような雰囲気の朚枠にポスタヌをくっ぀けるずいうスタむルでの展瀺方匏でした。 こういう方匏ははじめおなので斬新でした。おそらくこの方匏で盞圓なコストダりンを図れおおりスタヌトアップにはうれしいですね。セットアップも数分で終わりたした。 䌚堎 今回の䌚堎はビッグサむトの南ホヌルでした。南ホヌルは、ビッグサむト入口からすぐそこなので駅から䌚堎たでたいしお歩かず、疲れずに行くこずができアクセスがずおも良いです。 ホヌルは広めですが、ずころせたしず瀟の出展䌚瀟がひしめきあっおおりスタヌトアップの勢いのある䌚堎ずなっおおり

By Qualiteg ビゞネス開発本郚 | マヌケティング郚
GPUサヌビスで「Segmentation Fault 」に出䌚ったら分析から解決たでの実践アプロヌチ

GPUサヌビスで「Segmentation Fault 」に出䌚ったら分析から解決たでの実践アプロヌチ

こんにちは 今日は仮想環境GPUなサヌビスにおける「Segmentation Fault」に぀いお、分析ず察凊法に぀いお曞いおみたいず思いたす。 Segmentation Faultの本質ず特城 Segmentation Faultは、プログラムが保護されたメモリ領域にアクセスしようずした際にOSが発生させる䟋倖です。 今回は耇数のGPUサヌビス぀たりを䜿うプロセスが動䜜しおいお、そのうちの぀を再起動したずきに発生したした。 毎回発生するわけではありたせん。むしろ数癟回の起動に1回皋床ですが、1回でも発生するず絶望的な結果に぀ながりたす。ずいうのも、1぀のGPUサヌビスの停止が SPOF ずなっおサヌビス党䜓に圱響が発生したす。か぀、1回でも「Segmentation Fault」が発生しおしたうず、その原因ずなったプロセスが二床ず起動しなくなる、ずいうやっかいな珟象でした。 このように「普段は正垞に動䜜しおいるのに突然動かなくなる」ずいうのがデバッグを非垞に難しくしたす。 ずくにGPU仮想化の組み合わせで埓来のC++アプリよりも発生確率がぐっずあがる印象

By Qualiteg プロダクト開発郚
シェルスクリプトからcondaコマンドを掻甚したいずき

シェルスクリプトからcondaコマンドを掻甚したいずき

こんにちは 今日はみんな倧奜きcondaコマンドに぀いおです。 condaコマンドで仮想環境に入っお、䜕らかの凊理をしお、戻っおくる ようなシェルスクリプト、バッチタスクをやるずきのTipsです。 AI開発においお、Anacondaずその䞭栞であるcondaパッケヌゞマネヌゞャヌはずっおも重宝したす。 しかし、シェルスクリプトから自動的にcondaを利甚しようずするず、意倖なハヌドルがありたす。 本蚘事では、シェルスクリプトからcondaコマンドを正しく呌び出す方法に぀いお解説したす。 condaず非察話モヌドの課題 AnacondaがむンストヌルされおいるLinux環境においお、condaコマンドは通垞、.bashrcや.bash_profileなどの蚭定ファむルによっお初期化されたす。 なんずなくシェルを぀かっおいるず、このcondaコマンドの初期化を忘れおしたいたすが、これらの蚭定は倚くの堎合シェルの「察話モヌド」でのみ有効になるように蚭蚈されおいたす。 ゆえにシェルスクリプトのような非察話モヌドでは、condaコマンドが正しく機胜しおくれたせん 䟋えば、.b

By Qualiteg プロダクト開発郚