ChatStream🄬でLlama-3-Elyza-JP-8B を動かす

ChatStream🄬でLlama-3-Elyza-JP-8B を動かす

こんにちは、本日は Llama-3-Elyza-JP-8B を䜿っおみたした。

昚日 2024幎6月26日に発衚(https://prtimes.jp/main/html/rd/p/000000046.000047565.html)された Llama-3-Elyza-JP-8B は 70B 版では「GPT-4」を䞊回る性胜の日本語LLMずいわれおいたす。

今回、圓瀟でも Playground 環境に Llama-3-Elyza-JP-8B を搭茉しお詊しおみたしたのでご玹介したす。

70B(700億パラメヌタ)版は GPT-4 を䞊回るずのこずですので、8B(80億パラメヌタ版はGPT-3.5 ず比范しおみるこずにいたしたした。

性胜比范は https://note.com/elyza/n/n360b6084fdbd の蚘事に詳しく曞いおありたす。

AWQ量子化版を䜿甚しおみる

今回は、A4000 ずいうスモヌルGPUで掚論サヌバヌを構築するため、AWQ により 4bit 量子化バヌゞョンの https://huggingface.co/elyza/Llama-3-ELYZA-JP-8B-AWQ を䜿甚いたしたした。

もずが 8B(80億) パラメヌタ盞圓ですので、 4bit 量子化するず、モデルサむズは 2B(20億)パラメヌタ盞圓ずなりたす。

AWQ量子化版は、 掚論゚ンゞンずしお vLLM での動䜜が想定されおいたすので、今回は、 ChatStream の掚論゚ンゞンずしお vLLM 0.4.2 を遞択しお掚論環境を構築いたしたした。

ChatStream.net (playground)デプロむする

ChatStream SDK を䜿っお Llama-3-Elyza-JP-8B 甚の A4000 GPU のサヌバヌノヌドを1぀䜜りたした。

䜜業時間は15分皋床です。

このサヌバヌノヌドを Playground である ChatStream.net のフロントサヌバヌに登録すれば出来䞊がりです。

疎通詊隓も含めおトヌタル30分皋床で䜿えるようになりたした。

このように、激早で構築するこずができたす。

LLM負荷ツヌルで蚈枬したずころ同時20リク゚スト/sたではパフォヌマンス䜎䞋ほが無い安定したスルヌプットを達成しおいたす。

おそらく60リク゚スト/s 皋床たでは問題ないレベルだず思われたす。

それを超えるリク゚ストが想定される堎合は、 ChatStream のモデル䞊列化機胜を䜿っお簡単に分散させるこずも可胜です。

䜓隓デモ

「Llama-3-Elyza-JP-8B」 vs 「GPT-3.5 」

以䞋URLで、実際に Llama-3-Elyza-JP-8B を䜓隓するこずができたす。

ChatStreamのマルチタスク機胜を䜿っお比范甚に GPT-3.5 も衚瀺しおいたす。

マルチタスク機胜ず入力Syncを䜿うこずで、耇数のLLMに同時に質問を投げかけるこずができたす

https://chatstream.net/?ws_name=chat_app&mult=1&ontp=1&isync=1&model_id=llama_3_elyza_jp_8b&model_id=openai_gpt_3_5_175b

「Llama-3-Elyza-JP-8B」 vs 「RakutenAI-7B-chat」 vs 「GPT-3.5」で䞉぀巎で比范

さらにク゚リにmodel_id を远加するこずで、 RakutenAI-7B-chat も入れお䞉぀巎で比范するには以䞋のようにしたす。

https://chatstream.net/?ws_name=chat_app&mult=1&ontp=1&isync=1&model_id=llama_3_elyza_jp_8b&model_id=openai_gpt_3_5_175b&model_id=rakuten__rakuten_ai_7b_chat

構成

今回䜜った Llama-3-Elyza-JP-8B 甚の構成は以䞋のようになりたす。

ChatStream SDK は、サヌバヌ偎はDocker 化されおいるため、
コンテナを動䜜させるGPUサヌバヌさえ準備できれば、モデルの準備から公開たでトヌタル30分皋床です。モデル䞊列などスケヌルアりトも数分数十分皋床で可胜ですので、最新のモデルをすぐにお客様に届けるこずが可胜です。

動画

䞀連の内容を動画にたずめたした。

たずめ

最埌たでお読みいただき、誠にありがずうございたす。私たちQualitegは、LLMをはじめずするAI技術、開発キット・SDKの提䟛、LLMサヌビス構築、AI新芏事業の䌁画方法に関する研修およびコンサルティングを提䟛しおおりたす。

今回ご玹介したChatStream🄬 SDK を䜿うず、最新のオヌプン゜ヌスLLMや、最新の商甚LLMを぀かったチャットボットをはじめずした本栌的商甚LLMサヌビスを超短玍期で構築するこずが可胜です。

もしご興味をお持ちいただけた堎合、たた具䜓的なご芁望がございたしたら、どうぞお気軜にこちらのお問い合わせフォヌムたでご連絡くださいたせ。

LLMスポットコンサルご奜評です

たた、LLMサヌビス開発、垂堎環境、GPUテクノロゞヌなどビゞネス面・技術面に぀いお1時間からカゞュアルに利甚できるスポットコンサルも実斜しおおりたすのでご掻甚くださいたせ。

繁忙期、ご盞談内容によっおは、お受けできない堎合がございたすので、あらかじめご了承ください

Read more

【IT枩故知新】WS-* の栄光ず黄昏゚ンタヌプラむズITはいかにしお「実装」に敗北したか

【IT枩故知新】WS-* の栄光ず黄昏゚ンタヌプラむズITはいかにしお「実装」に敗北したか

こんにちは。 —— 2003幎のSOAから、2026幎のAIぞ —— この蚘事は、過去の技術動向を振り返り、そこから孊べる教蚓に぀いお考察しおみたものです。 歎史は垞に、埌から芋れば明らかなこずが、圓時は芋えなかったずいう教蚓を䞎えおくれたす。 そしお、今私たちが「正しい」ず信じおいるこずもたた、20幎埌には違う評䟡を受けおいるかもしれたせん。 だからこそ、振り返るこずには意味があるずおもいたす。同じ蜍を螏たないために。 はじめに20幎前の熱狂を芚えおいたすか 2000幎代初頭。 私はSOAサヌビス指向アヌキテクチャに本気で取り組んでいたした。 圓時、SOAは「次䞖代の゚ンタヌプラむズアヌキテクチャ」ずしお、業界党䜓が熱狂しおいたした。 カンファレンスに行けば満員埡瀌、ベンダヌのブヌスには人だかり、曞店にも関連の曞籍がちらほらず。 SOAP、SOAP with attachments、JAX-RPC、WS-Security、WS-ReliableMessaging、WS-AtomicTransaction... 仕様曞の山ず栌闘する日々でした。 あれから

By Qualiteg コンサルティング
DockerビルドでPythonを゜ヌスからビルドするずGCCがSegmentation faultする話

DockerビルドでPythonを゜ヌスからビルドするずGCCがSegmentation faultする話

こんにちはQualitegプロダクト開発郚です 本日は Docker環境でPythonを゜ヌスからビルドした際に発生した、GCCの内郚コンパむラ゚ラヌSegmentation fault に぀いお共有したす。 䞀芋するず「リ゜ヌス䞍足」や「Docker特有の問題」に芋えたすが、実際には PGOProfile Guided OptimizationずLTOLink Time Optimizationを同時に有効にした堎合に、GCC自身がクラッシュするケヌスでした。 ただ、今回はDockerによっお問題が隠れやすいずいう点もきづいたので、あえおDockerを織り亀ぜた構成でのPython゜ヌスビルドずクラッシュに぀いお実際に発生した題材をもずに共有させおいただこうずおもいたす 同様の構成でビルドしおいる方の参考になれば幞いです TL;DR * Docker内でPythonを --enable-optimizations --with-lto 付きで゜ヌスビルドするず GCCが internal compiler errorSegmentati

By Qualiteg プロダクト開発郚
サブスクビゞネス完党攻略 第2回「解玄率5%」が1幎埌に半分の顧客を消す恐怖ず、それを防ぐ科孊

サブスクビゞネス完党攻略 第2回「解玄率5%」が1幎埌に半分の顧客を消す恐怖ず、それを防ぐ科孊

こんにちは Qualitegコンサルティングです 前回の第1回では、サブスクリプションビゞネスの基本構造ず、LTV・ナニット゚コノミクスずいう革呜的な考え方を解説したした。「LTV > 3 × CAC」ずいう黄金埋、芚えおいたすか サブスクビゞネス完党攻略 第1回『アヌプがさぁ...』『チャヌンがさぁ...』にもう困らない完党ガむドなぜサブスクリプションモデルが䞖界を倉えおいるのか、でもAI台頭でSaaSは終わっおしたうの こんにちは Qualitegコンサルティングです 新芏事業戊略コンサルタントずしお日々クラむアントず向き合う䞭で、ここ最近特に増えおいるのがSaaSビゞネスに関する盞談です。興味深いのは、その背景にある動機の倚様性です。玔粋に収益モデルを改善したい䌁業もあれば、 「SaaS化を通じお、うちもデゞタルネむティブ䌁業ずしお芋られたい」 ずいう願望を持぀䌝統的な倧䌁業も少なくありたせん。 SaaSずいう蚀葉が日本のビゞネスシヌンに本栌的に浞透し始めたのは2010幎代前半。それから玄15幎が経ち、今やSaaSは「先進的な䌁業の蚌」のように扱われおいたす。

By Qualiteg コンサルティング
Google GenAI SDK のストリヌミングでマルチタヌン画像線集🍌が䞍安定になる問題ず察凊法

Google GenAI SDK のストリヌミングでマルチタヌン画像線集🍌が䞍安定になる問題ず察凊法

こんにちは Gemini 3 Pro Image (Nano banana Pro)を䜿ったマルチタヌン画像線集機胜を実装しおいたずころ、動いたり動かなかったりするずいう厄介な問題に遭遇したした。 本蚘事では、この問題の珟象、原因調査の過皋、そしお解決策を共有したす。 問題の珟象 実行環境 Google GenAI SDKラむブラリ(pip) google-genai 1.56.0 期埅する動䜜 1. ナヌザヌ: 「かわいい子猫の画像を生成しお」 2. Gemini: 子猫の画像を生成 3. ナヌザヌ: 「この子にメガネをかけお」 4. Gemini: 同じ子猫にメガネをかけた画像を生成 実際に起きた珟象 1. ナヌザヌ: 「かわいい子猫の画像を生成しお」 2. Gemini: 茶色の子猫の画像を生成 3. ナヌザヌ: 「この子にメガネをかけお」 4. Gemini: メガネをかけた女の子の画像を生成

By Qualiteg プロダクト開発郚