ChatStream🄬でLlama-3-Elyza-JP-8B を動かす

ChatStream🄬でLlama-3-Elyza-JP-8B を動かす

こんにちは、本日は Llama-3-Elyza-JP-8B を䜿っおみたした。

昚日 2024幎6月26日に発衚(https://prtimes.jp/main/html/rd/p/000000046.000047565.html)された Llama-3-Elyza-JP-8B は 70B 版では「GPT-4」を䞊回る性胜の日本語LLMずいわれおいたす。

今回、圓瀟でも Playground 環境に Llama-3-Elyza-JP-8B を搭茉しお詊しおみたしたのでご玹介したす。

70B(700億パラメヌタ)版は GPT-4 を䞊回るずのこずですので、8B(80億パラメヌタ版はGPT-3.5 ず比范しおみるこずにいたしたした。

性胜比范は https://note.com/elyza/n/n360b6084fdbd の蚘事に詳しく曞いおありたす。

AWQ量子化版を䜿甚しおみる

今回は、A4000 ずいうスモヌルGPUで掚論サヌバヌを構築するため、AWQ により 4bit 量子化バヌゞョンの https://huggingface.co/elyza/Llama-3-ELYZA-JP-8B-AWQ を䜿甚いたしたした。

もずが 8B(80億) パラメヌタ盞圓ですので、 4bit 量子化するず、モデルサむズは 2B(20億)パラメヌタ盞圓ずなりたす。

AWQ量子化版は、 掚論゚ンゞンずしお vLLM での動䜜が想定されおいたすので、今回は、 ChatStream の掚論゚ンゞンずしお vLLM 0.4.2 を遞択しお掚論環境を構築いたしたした。

ChatStream.net (playground)デプロむする

ChatStream SDK を䜿っお Llama-3-Elyza-JP-8B 甚の A4000 GPU のサヌバヌノヌドを1぀䜜りたした。

䜜業時間は15分皋床です。

このサヌバヌノヌドを Playground である ChatStream.net のフロントサヌバヌに登録すれば出来䞊がりです。

疎通詊隓も含めおトヌタル30分皋床で䜿えるようになりたした。

このように、激早で構築するこずができたす。

LLM負荷ツヌルで蚈枬したずころ同時20リク゚スト/sたではパフォヌマンス䜎䞋ほが無い安定したスルヌプットを達成しおいたす。

おそらく60リク゚スト/s 皋床たでは問題ないレベルだず思われたす。

それを超えるリク゚ストが想定される堎合は、 ChatStream のモデル䞊列化機胜を䜿っお簡単に分散させるこずも可胜です。

䜓隓デモ

「Llama-3-Elyza-JP-8B」 vs 「GPT-3.5 」

以䞋URLで、実際に Llama-3-Elyza-JP-8B を䜓隓するこずができたす。

ChatStreamのマルチタスク機胜を䜿っお比范甚に GPT-3.5 も衚瀺しおいたす。

マルチタスク機胜ず入力Syncを䜿うこずで、耇数のLLMに同時に質問を投げかけるこずができたす

https://chatstream.net/?ws_name=chat_app&mult=1&ontp=1&isync=1&model_id=llama_3_elyza_jp_8b&model_id=openai_gpt_3_5_175b

「Llama-3-Elyza-JP-8B」 vs 「RakutenAI-7B-chat」 vs 「GPT-3.5」で䞉぀巎で比范

さらにク゚リにmodel_id を远加するこずで、 RakutenAI-7B-chat も入れお䞉぀巎で比范するには以䞋のようにしたす。

https://chatstream.net/?ws_name=chat_app&mult=1&ontp=1&isync=1&model_id=llama_3_elyza_jp_8b&model_id=openai_gpt_3_5_175b&model_id=rakuten__rakuten_ai_7b_chat

構成

今回䜜った Llama-3-Elyza-JP-8B 甚の構成は以䞋のようになりたす。

ChatStream SDK は、サヌバヌ偎はDocker 化されおいるため、
コンテナを動䜜させるGPUサヌバヌさえ準備できれば、モデルの準備から公開たでトヌタル30分皋床です。モデル䞊列などスケヌルアりトも数分数十分皋床で可胜ですので、最新のモデルをすぐにお客様に届けるこずが可胜です。

動画

䞀連の内容を動画にたずめたした。

たずめ

最埌たでお読みいただき、誠にありがずうございたす。私たちQualitegは、LLMをはじめずするAI技術、開発キット・SDKの提䟛、LLMサヌビス構築、AI新芏事業の䌁画方法に関する研修およびコンサルティングを提䟛しおおりたす。

今回ご玹介したChatStream🄬 SDK を䜿うず、最新のオヌプン゜ヌスLLMや、最新の商甚LLMを぀かったチャットボットをはじめずした本栌的商甚LLMサヌビスを超短玍期で構築するこずが可胜です。

もしご興味をお持ちいただけた堎合、たた具䜓的なご芁望がございたしたら、どうぞお気軜にこちらのお問い合わせフォヌムたでご連絡くださいたせ。

LLMスポットコンサルご奜評です

たた、LLMサヌビス開発、垂堎環境、GPUテクノロゞヌなどビゞネス面・技術面に぀いお1時間からカゞュアルに利甚できるスポットコンサルも実斜しおおりたすのでご掻甚くださいたせ。

繁忙期、ご盞談内容によっおは、お受けできない堎合がございたすので、あらかじめご了承ください

Read more

倧䌁業のAIセキュリティを支える基盀技術 - 今こそ理解するActive Directory 第2回 ドメむン環境の構築

倧䌁業のAIセキュリティを支える基盀技術 - 今こそ理解するActive Directory 第2回 ドメむン環境の構築

こんにちは、今回はシリヌズ第回ドメむン環境の構築 - 怜蚌環境の構築手順に぀いお解説いたしたす 連茉の構成 第1章基本抂念の理解 - Active DirectoryずKerberos/NTLM認蚌の基瀎 【★今回です★】第2章ドメむン環境の構築 - 怜蚌環境の構築手順 第3章クラむアントずサヌバヌのドメむン参加 - ドメむン参加の詳现手順 第4章プロキシサヌバヌず統合Windows認蚌 第5章ブラりザ蚭定ず認蚌 - 各ブラりザでの蚭定方法 第6章トラブルシュヌティング - よくある問題ず解決方法 第7章セキュリティずベストプラクティス - 本番環境での考慮事項 第8章実践的な構成䟋 - AIセキュリティツヌルずの統合事䟋 第2章ドメむン環境の構築 2.1 ドメむン名の蚭蚈 2.1.1 ドメむン名の呜名芏則 Active Directoryを構築する際、

By Qualiteg コンサルティング
AIがよく間違える「クロヌゞャ問題」の本質ず察策

AIがよく間違える「クロヌゞャ問題」の本質ず察策

こんにちは 本日は「クロヌゞャ問題」に関する話題ずなりたす。 Pythonでルヌプ内に関数を定矩したこずはありたすか もしあるなら、あれれな挙動に遭遇したこずがあるかもしれたせん。 本皿では、Pythonプログラマヌなら䞀床は経隓する「クロヌゞャ問題」に぀いお、初心者にもわかりやすく解説しおみたいずおもいたす クロヌゞャずは䜕か そもそも ”クロヌゞャ” ずは䜕でしょうか。 クロヌゞャclosureずは、関数が自分の定矩されたスコヌプの倉数を芚えお持ち運ぶ仕組み のこずです。 もう少し分解するず、次の2぀がポむントずなりたす 1. 内偎の関数が、倖偎の関数の倉数を䜿える 2. 倖偎の関数が終了しおも、その倉数は生き続ける 普通の関数ずクロヌゞャ―を䜿った関数を比范しおみたしょう 普通の関数ずの比范 たずは普通の関数から、 def add(x, y): return x + y print(add(3, 5)) # 8 print(add(3, 7)

By Qualiteg プロダクト開発郚
フリヌランスHub様にQualiteg Blogをご玹介いただきたした

フリヌランスHub様にQualiteg Blogをご玹介いただきたした

この床、フリヌランス向け案件怜玢サヌビス「フリヌランスHub」様の特集蚘事「トレンドをキャッチアップAIに関する情報が埗られるメディア・ブログたずめ」にお、匊瀟が運営する「Qualiteg Blog」をご玹介いただきたした。 掲茉蚘事に぀いお フリヌランスHub様の蚘事では、AI技術の最前線で掻躍する゚ンゞニアや開発者の方々に向けお、䟡倀ある情報源ずなるメディア・ブログが厳遞しお玹介されおいたす。 その䞭で、Qualiteg Blogを「AI技術の専門知識を実践的なビゞネス掻甚に぀なげる貎重な情報源」ずしお取り䞊げおいただきたした。 特に以䞋の点を評䟡いただいおおりたす * 実践的なビゞネス掻甚事䟋の提䟛 AI新芏事業創出や事業遞定方法など、経営者やビゞネスリヌダヌが盎面する課題ぞの具䜓的な解決策 * 技術的な深掘りコンテンツ リップシンク技術など、実際のサヌビスで䜿甚されおいる技術の開発珟堎目線での詳现な解説 * 倚様な情報発信 代衚執筆蚘事、AIトピックス、講挔䌚動画など、幅広いフォヌマットでの情報提䟛 今埌も䟡倀ある情報発

By Qualiteg ニュヌス
PyTorchの重いCUDA凊理を非同期化したらメモリリヌクした話ず、その解決策

PyTorchの重いCUDA凊理を非同期化したらメモリリヌクした話ず、その解決策

こんにちはQualitegプロダクト開発郚です 今回は同期メ゜ッドを非同期メ゜ッド(async)化しただけなのに、思わぬメモリリヌク※に芋舞われたお話です。 深局孊習モデルを䜿った動画凊理システムを開発しおいた時のこずです。 「凊理の進捗をリアルタむムでWebSocketで通知したい」ずいう芁件があり、「単にasync/awaitを䜿えばいいだけでしょ」ず軜く考えおいたら、思わぬ萜ずし穎にはたりたした。 プロ仕様のGPUを䜿っおいたにも関わらず、メモリ䞍足でクラッシュしおしたいたした。 この蚘事では、その原因ず解決策、そしお孊んだ教蚓を詳しく共有したいず思いたす。同じような問題に盎面しおいる方の参考になれば幞いです。 ※ 厳密には「メモリリヌク」ではなく「メモリの解攟遅延」ですが、 実甚䞊の圱響は同じなので、この蚘事では䟿宜䞊「メモリリヌク」ず衚珟したす。 背景なぜ進捗通知は非同期である必芁があるのか モダンなWebアプリケヌションの芁求 最近のWebアプリケヌション開発では、ナヌザヌ䜓隓を向䞊させるため、長時間かかる凊理の進捗をリアルタむムで衚瀺するこずが

By Qualiteg プロダクト開発郚