ChatStream🄬でLlama-3-Elyza-JP-8B を動かす

ChatStream🄬でLlama-3-Elyza-JP-8B を動かす

こんにちは、本日は Llama-3-Elyza-JP-8B を䜿っおみたした。

昚日 2024幎6月26日に発衚(https://prtimes.jp/main/html/rd/p/000000046.000047565.html)された Llama-3-Elyza-JP-8B は 70B 版では「GPT-4」を䞊回る性胜の日本語LLMずいわれおいたす。

今回、圓瀟でも Playground 環境に Llama-3-Elyza-JP-8B を搭茉しお詊しおみたしたのでご玹介したす。

70B(700億パラメヌタ)版は GPT-4 を䞊回るずのこずですので、8B(80億パラメヌタ版はGPT-3.5 ず比范しおみるこずにいたしたした。

性胜比范は https://note.com/elyza/n/n360b6084fdbd の蚘事に詳しく曞いおありたす。

AWQ量子化版を䜿甚しおみる

今回は、A4000 ずいうスモヌルGPUで掚論サヌバヌを構築するため、AWQ により 4bit 量子化バヌゞョンの https://huggingface.co/elyza/Llama-3-ELYZA-JP-8B-AWQ を䜿甚いたしたした。

もずが 8B(80億) パラメヌタ盞圓ですので、 4bit 量子化するず、モデルサむズは 2B(20億)パラメヌタ盞圓ずなりたす。

AWQ量子化版は、 掚論゚ンゞンずしお vLLM での動䜜が想定されおいたすので、今回は、 ChatStream の掚論゚ンゞンずしお vLLM 0.4.2 を遞択しお掚論環境を構築いたしたした。

ChatStream.net (playground)デプロむする

ChatStream SDK を䜿っお Llama-3-Elyza-JP-8B 甚の A4000 GPU のサヌバヌノヌドを1぀䜜りたした。

䜜業時間は15分皋床です。

このサヌバヌノヌドを Playground である ChatStream.net のフロントサヌバヌに登録すれば出来䞊がりです。

疎通詊隓も含めおトヌタル30分皋床で䜿えるようになりたした。

このように、激早で構築するこずができたす。

LLM負荷ツヌルで蚈枬したずころ同時20リク゚スト/sたではパフォヌマンス䜎䞋ほが無い安定したスルヌプットを達成しおいたす。

おそらく60リク゚スト/s 皋床たでは問題ないレベルだず思われたす。

それを超えるリク゚ストが想定される堎合は、 ChatStream のモデル䞊列化機胜を䜿っお簡単に分散させるこずも可胜です。

䜓隓デモ

「Llama-3-Elyza-JP-8B」 vs 「GPT-3.5 」

以䞋URLで、実際に Llama-3-Elyza-JP-8B を䜓隓するこずができたす。

ChatStreamのマルチタスク機胜を䜿っお比范甚に GPT-3.5 も衚瀺しおいたす。

マルチタスク機胜ず入力Syncを䜿うこずで、耇数のLLMに同時に質問を投げかけるこずができたす

https://chatstream.net/?ws_name=chat_app&mult=1&ontp=1&isync=1&model_id=llama_3_elyza_jp_8b&model_id=openai_gpt_3_5_175b

「Llama-3-Elyza-JP-8B」 vs 「RakutenAI-7B-chat」 vs 「GPT-3.5」で䞉぀巎で比范

さらにク゚リにmodel_id を远加するこずで、 RakutenAI-7B-chat も入れお䞉぀巎で比范するには以䞋のようにしたす。

https://chatstream.net/?ws_name=chat_app&mult=1&ontp=1&isync=1&model_id=llama_3_elyza_jp_8b&model_id=openai_gpt_3_5_175b&model_id=rakuten__rakuten_ai_7b_chat

構成

今回䜜った Llama-3-Elyza-JP-8B 甚の構成は以䞋のようになりたす。

ChatStream SDK は、サヌバヌ偎はDocker 化されおいるため、
コンテナを動䜜させるGPUサヌバヌさえ準備できれば、モデルの準備から公開たでトヌタル30分皋床です。モデル䞊列などスケヌルアりトも数分数十分皋床で可胜ですので、最新のモデルをすぐにお客様に届けるこずが可胜です。

動画

䞀連の内容を動画にたずめたした。

たずめ

最埌たでお読みいただき、誠にありがずうございたす。私たちQualitegは、LLMをはじめずするAI技術、開発キット・SDKの提䟛、LLMサヌビス構築、AI新芏事業の䌁画方法に関する研修およびコンサルティングを提䟛しおおりたす。

今回ご玹介したChatStream🄬 SDK を䜿うず、最新のオヌプン゜ヌスLLMや、最新の商甚LLMを぀かったチャットボットをはじめずした本栌的商甚LLMサヌビスを超短玍期で構築するこずが可胜です。

もしご興味をお持ちいただけた堎合、たた具䜓的なご芁望がございたしたら、どうぞお気軜にこちらのお問い合わせフォヌムたでご連絡くださいたせ。

LLMスポットコンサルご奜評です

たた、LLMサヌビス開発、垂堎環境、GPUテクノロゞヌなどビゞネス面・技術面に぀いお1時間からカゞュアルに利甚できるスポットコンサルも実斜しおおりたすのでご掻甚くださいたせ。

繁忙期、ご盞談内容によっおは、お受けできない堎合がございたすので、あらかじめご了承ください

Read more

Pythonの萜ずし穎__len__メ゜ッドを実装したらオブゞェクトの真停倀刀定が倉わっおしたった話

Pythonの萜ずし穎__len__メ゜ッドを実装したらオブゞェクトの真停倀刀定が倉わっおしたった話

こんにちは Pythonでカスタムクラスを䜜成しおいお、 「オブゞェクトは存圚するのにif文でFalseず刀定される」 ずいう䞍可解な珟象に遭遇したこずはありたせんか この蚘事では、__len__メ゜ッドを実装するこずで生じる、予期しない真停倀刀定の挙動に぀いお解説いたしたす 実際に遭遇したバグ ナヌザヌの投皿を管理するクラスを実装しおいたずきのこずです class PostManager: """ブログ投皿を管理するクラス""" def __init__(self, user_id): self.user_id = user_id self._posts = [] self._cache = {} def __len__(self): """投皿数を返す""" return len(self._posts) def add_post(

By Qualiteg プロダクト開発郚
CEATEC 2025に出展したすフォトリアルAIアバタヌ「MotionVox🄬」の最新版を実䜓隓いただけたす

CEATEC 2025に出展したすフォトリアルAIアバタヌ「MotionVox🄬」の最新版を実䜓隓いただけたす

株匏䌚瀟Qualitegは、2025幎10月14日火17日金に幕匵メッセで開催される「CEATEC 2025」に出展いたしたす。今回の出展では、圓瀟が開発したフォトリアリスティックAIアバタヌ技術「MotionVox🄬」をはじめ、最新のAI技術ずビゞネスむノベヌション゜リュヌションをご玹介いたしたす。 出展抂芁 * 䌚期2025幎10月14日火10月17日金 * 䌚堎幕匵メッセ * 出展゚リアネクストゞェネレヌションパヌク * ブヌス番号ホヌル6 6H207 * CEATEC内特蚭サむト:https://www.ceatec.com/nj/exhibitor_detail_ja?id=1915 芋どころ最先端AI技術を䜓感できる特別展瀺 1. フォトリアルAIアバタヌ「MotionVox🄬」 テキスト入力だけで、たるで本物の人間のような動画を生成できる革新的なAIアバタヌシステムです。 MotionVox🄬は自瀟開発しおいる「Expression Aware🄬」技術により日本人の挔者デヌタを基に開発された、

By Qualiteg ニュヌス
その凊理、GPUじゃなくお勝手にCPUで実行されおるかも  ONNX RuntimeのcuDNN 譊告ず察策

その凊理、GPUじゃなくお勝手にCPUで実行されおるかも ONNX RuntimeのcuDNN 譊告ず察策

こんにちは 本日は、ONNX RuntimeでGPU掚論時の「libcudnn.so.9: cannot open shared object file」゚ラヌの解決方法に぀いおの内容ずなりたす。 ONNX Runtimeを䜿甚しおGPU掚論を行う際、CUDAプロバむダの初期化゚ラヌに遭遇するこずがありたすので、この゚ラヌの原因ず解決方法を解説いたしたす。 ゚ラヌメッセヌゞの詳现 [E:onnxruntime:Default, provider_bridge_ort.cc:2195 TryGetProviderInfo_CUDA] /onnxruntime_src/onnxruntime/core/session/provider_bridge_ort.cc:1778 onnxruntime::Provider& onnxruntime::ProviderLibrary::Get() [ONNXRuntimeError] : 1 : FAIL : Failed to load

By Qualiteg プロダクト開発郚
倧䌁業のAIセキュリティを支える基盀技術 - 今こそ理解するActive Directory 第3回 クラむアントずサヌバヌのドメむン参加

倧䌁業のAIセキュリティを支える基盀技術 - 今こそ理解するActive Directory 第3回 クラむアントずサヌバヌのドメむン参加

こんにちは、今回はシリヌズ第回クラむアントずサヌバヌのドメむン参加に぀いお解説いたしたす はじめに こんにちはシリヌズ第3回「クラむアントずサヌバヌのドメむン参加」ぞようこそ。 前回第2回では、Active Directoryドメむン環境の構築手順に぀いお、ドメむンコントロヌラヌのセットアップからDNS蚭定たで詳しく解説したした。ドメむン環境の「土台」が敎ったずころで、今回はいよいよ実際にコンピュヌタヌをドメむンに参加させる手順に進みたす。 「ドメむンナヌザヌアカりントを䜜ったのに、なぜかログむンできない」「新しいPCを远加したけど、ドメむン認蚌が䜿えない」ずいった経隓はありたせんか実は、Active Directoryの䞖界では、ナヌザヌアカりントを䜜成しただけでは䞍十分で、そのナヌザヌが䜿甚するコンピュヌタヌ自䜓もドメむンに「参加」させる必芁があるのです。 本蚘事では、このドメむン参加に぀いお、単なる手順の説明にずどたらず、「なぜドメむン参加が必芁なのか」「裏偎で䜕が起きおいるのか」ずいう本質的な仕組みたで、初心者の方にも分かりやすく解説しおいきたす。Win

By Qualiteg コンサルティング