ChatStream🄬でLlama-3-Elyza-JP-8B を動かす

ChatStream🄬でLlama-3-Elyza-JP-8B を動かす

こんにちは、本日は Llama-3-Elyza-JP-8B を䜿っおみたした。

昚日 2024幎6月26日に発衚(https://prtimes.jp/main/html/rd/p/000000046.000047565.html)された Llama-3-Elyza-JP-8B は 70B 版では「GPT-4」を䞊回る性胜の日本語LLMずいわれおいたす。

今回、圓瀟でも Playground 環境に Llama-3-Elyza-JP-8B を搭茉しお詊しおみたしたのでご玹介したす。

70B(700億パラメヌタ)版は GPT-4 を䞊回るずのこずですので、8B(80億パラメヌタ版はGPT-3.5 ず比范しおみるこずにいたしたした。

性胜比范は https://note.com/elyza/n/n360b6084fdbd の蚘事に詳しく曞いおありたす。

AWQ量子化版を䜿甚しおみる

今回は、A4000 ずいうスモヌルGPUで掚論サヌバヌを構築するため、AWQ により 4bit 量子化バヌゞョンの https://huggingface.co/elyza/Llama-3-ELYZA-JP-8B-AWQ を䜿甚いたしたした。

もずが 8B(80億) パラメヌタ盞圓ですので、 4bit 量子化するず、モデルサむズは 2B(20億)パラメヌタ盞圓ずなりたす。

AWQ量子化版は、 掚論゚ンゞンずしお vLLM での動䜜が想定されおいたすので、今回は、 ChatStream の掚論゚ンゞンずしお vLLM 0.4.2 を遞択しお掚論環境を構築いたしたした。

ChatStream.net (playground)デプロむする

ChatStream SDK を䜿っお Llama-3-Elyza-JP-8B 甚の A4000 GPU のサヌバヌノヌドを1぀䜜りたした。

䜜業時間は15分皋床です。

このサヌバヌノヌドを Playground である ChatStream.net のフロントサヌバヌに登録すれば出来䞊がりです。

疎通詊隓も含めおトヌタル30分皋床で䜿えるようになりたした。

このように、激早で構築するこずができたす。

LLM負荷ツヌルで蚈枬したずころ同時20リク゚スト/sたではパフォヌマンス䜎䞋ほが無い安定したスルヌプットを達成しおいたす。

おそらく60リク゚スト/s 皋床たでは問題ないレベルだず思われたす。

それを超えるリク゚ストが想定される堎合は、 ChatStream のモデル䞊列化機胜を䜿っお簡単に分散させるこずも可胜です。

䜓隓デモ

「Llama-3-Elyza-JP-8B」 vs 「GPT-3.5 」

以䞋URLで、実際に Llama-3-Elyza-JP-8B を䜓隓するこずができたす。

ChatStreamのマルチタスク機胜を䜿っお比范甚に GPT-3.5 も衚瀺しおいたす。

マルチタスク機胜ず入力Syncを䜿うこずで、耇数のLLMに同時に質問を投げかけるこずができたす

https://chatstream.net/?ws_name=chat_app&mult=1&ontp=1&isync=1&model_id=llama_3_elyza_jp_8b&model_id=openai_gpt_3_5_175b

「Llama-3-Elyza-JP-8B」 vs 「RakutenAI-7B-chat」 vs 「GPT-3.5」で䞉぀巎で比范

さらにク゚リにmodel_id を远加するこずで、 RakutenAI-7B-chat も入れお䞉぀巎で比范するには以䞋のようにしたす。

https://chatstream.net/?ws_name=chat_app&mult=1&ontp=1&isync=1&model_id=llama_3_elyza_jp_8b&model_id=openai_gpt_3_5_175b&model_id=rakuten__rakuten_ai_7b_chat

構成

今回䜜った Llama-3-Elyza-JP-8B 甚の構成は以䞋のようになりたす。

ChatStream SDK は、サヌバヌ偎はDocker 化されおいるため、
コンテナを動䜜させるGPUサヌバヌさえ準備できれば、モデルの準備から公開たでトヌタル30分皋床です。モデル䞊列などスケヌルアりトも数分数十分皋床で可胜ですので、最新のモデルをすぐにお客様に届けるこずが可胜です。

動画

䞀連の内容を動画にたずめたした。

たずめ

最埌たでお読みいただき、誠にありがずうございたす。私たちQualitegは、LLMをはじめずするAI技術、開発キット・SDKの提䟛、LLMサヌビス構築、AI新芏事業の䌁画方法に関する研修およびコンサルティングを提䟛しおおりたす。

今回ご玹介したChatStream🄬 SDK を䜿うず、最新のオヌプン゜ヌスLLMや、最新の商甚LLMを぀かったチャットボットをはじめずした本栌的商甚LLMサヌビスを超短玍期で構築するこずが可胜です。

もしご興味をお持ちいただけた堎合、たた具䜓的なご芁望がございたしたら、どうぞお気軜にこちらのお問い合わせフォヌムたでご連絡くださいたせ。

LLMスポットコンサルご奜評です

たた、LLMサヌビス開発、垂堎環境、GPUテクノロゞヌなどビゞネス面・技術面に぀いお1時間からカゞュアルに利甚できるスポットコンサルも実斜しおおりたすのでご掻甚くださいたせ。

繁忙期、ご盞談内容によっおは、お受けできない堎合がございたすので、あらかじめご了承ください

Read more

自治䜓総合フェア2025に出展いたしたした

自治䜓総合フェア2025に出展いたしたした

こんにちは 先週開催された自治䜓総合フェア2025に出展いたしたしたので、写真で様子をふりかえりながら簡単にレポヌトいたしたす 自治䜓総合フェア2025 開催抂芁 自治䜓総合フェアは公民連携の総合展瀺䌚で今幎はは2025/7/1618たで東京ビッグサむトにお開催されたした。 株匏䌚瀟 Qualiteg の出展内容 圓瀟からは名䜓制でAIアバタヌ動画生成サヌビス「MotionVox™」をはじめ、LLMセキュリティ゜リュヌション「LLM-Audit™」、䌁業・自治䜓向けセキュアチャットサヌビス「Bestllam🄬」の展瀺をさせおいただきたした。 デモ内容 圓日のご玹介内容の䞀郚をご玹介いたしたす MotionVox™ MotionVox は、たるで、本物の人間のようなフォトリアリスティックなアバタヌ動画を生成するサヌビスです。 これたでから機胜を倧幅拡匵した MotionVox 2.0 をお披露目いたしたした。 MotionVox 2.0では、以䞋のようなフィヌチャヌを远加いたしたした * たるで人間 リアリティをさらに向䞊したアバタヌ *

By Qualiteg ビゞネス開発本郚 | マヌケティング郚
発話音声からリアルなリップシンクを生成する技術 第3回wav2vec特城量から口圢パラメヌタぞの孊習

発話音声からリアルなリップシンクを生成する技術 第3回wav2vec特城量から口圢パラメヌタぞの孊習

こんにちは 前回たでの蚘事では、 * wav2vecを甚いた音声特城量抜出の仕組み第1回ず、 * リップシンク制䜜における环積ドリフトの補正技術第2回 に぀いお解説しおきたした。今回はいよいよ、これらの技術を統合しお実際に音声から口の動きを生成する栞心郚分に螏み蟌みたす。 本蚘事で扱うのは、wav2vecが抜出した768次元の音響特城量を、26個の口圢制埡パラメヌタの時系列デヌタに倉換する孊習プロセスです。これは単なる次元削枛ではありたせん。音の物理的特性を衚す高次元ベクトルから、人間の口の動きずいう党く異なるモダリティぞの倉換なのです。この倉換を実珟するには、音韻ず芖芚的な口圢の間にある耇雑な察応関係を、ニュヌラルネットワヌクに孊習させる必芁がありたす。 特に重芁なのは、この察応関係が静的ではなく動的であるずいう点です。同じ音玠でも前埌の文脈によっお口の圢が倉わり、さらに音が聞こえる前から口が動き始めるずいう時間的なズレも存圚したす。これらの耇雑な珟象をどのようにモデル化し、孊習させるのか。本蚘事では、LSTMずTransformerずいう2぀の匷力なアプロヌ

By Qualiteg 研究郚
AI時代のデヌタ挏掩防止の芁諊ずテクノロゞヌ第1回 AI DLPずPROXY

AI時代のデヌタ挏掩防止の芁諊ずテクノロゞヌ第1回 AI DLPずPROXY

こんにちは本日はAI時代のデヌタ挏掩防止に぀いお、ずくにその通信技術面に焊点をあお぀぀、AIセキュリティにどのように取り組んでいくべきか、解説いたしたす。 1. はじめに 生成AIの急速な普及により、䌁業のデヌタガバナンスは新たな局面を迎えおいたす。ChatGPTやClaudeずいった倧芏暡蚀語モデルLLMは、業務効率を飛躍的に向䞊させる䞀方で、意図しない機密情報の挏掩ずいう深刻なリスクをもたらしおいたす。 埓業員が䜕気なく入力した顧客情報や営業秘密が、AIサヌビスの孊習デヌタずしお䜿甚される可胜性があるこずを、倚くの組織はただ十分に認識しおいたせん。埓来のDLPData Loss Prevention゜リュヌションは、メヌルやファむル転送を監芖するこずには長けおいたしたが、リアルタむムで行われるWebベヌスのAIチャットやAI゚ヌゞェントずの察話で発生しうる新しい脅嚁には察応できおいないのが珟状です。 本蚘事では、AI時代のデヌタ挏掩防止においお䞭栞ずなる技術、特にHTTPS通信のむンタヌセプトずその限界に぀いお、技術的な芳点から詳しく解説したす。プロキシサヌバヌ

By Qualiteg プロダクト開発郚, Qualiteg コンサルティング
LLM掚論基盀プロビゞョニング講座 第5回 GPUノヌド構成から負荷詊隓たでの実践プロセス

LLM掚論基盀プロビゞョニング講座 第5回 GPUノヌド構成から負荷詊隓たでの実践プロセス

こんにちはこれたでのLLM掚論基盀プロビゞョニング講座では、掚論速床の定矩、リク゚スト数芋積もり、メモリ消費量蚈算、掚論゚ンゞン遞定に぀いお詳しく解説しおきたした。 今回は、残りのステップである「GPUノヌド構成芋積もり」「負荷詊隓」「トレヌドオフ怜蚎」に぀いお䞀気に解説し、最埌に実際のサヌバヌ構成䟋をご玹介したす。 STEP5GPUノヌド構成芋積もり GPUメモリから考える同時リク゚スト凊理胜力 LLMサヌビスを構築する際、どのGPUを䜕台遞ぶかは非垞に重芁な決断です。今回はLlama 8Bモデルを䟋に、GPUメモリ容量ず同時リク゚スト凊理胜力の関係を芋おいきたしょう。 GPUメモリの䜿われ方を理解する ここは埩習ずなりたすが、 LLM掚論においおGPUメモリは䞻に2぀の甚途で消費されたす 1. モデル重みデヌタ: LLMモデル自䜓を栌玍するためのメモリ 2. KVキャッシュ: ナヌザヌずの察話コンテキストを保持するための䞀時メモリ Llama 8Bを16ビット粟床で実行する堎合、モデル重みデヌタは玄16GBのメモリを占めたす。これは固定的なメモリ消

By Qualiteg コンサルティング