ChatStream🄬でLlama-3-Elyza-JP-8B を動かす

ChatStream🄬でLlama-3-Elyza-JP-8B を動かす

こんにちは、本日は Llama-3-Elyza-JP-8B を䜿っおみたした。

昚日 2024幎6月26日に発衚(https://prtimes.jp/main/html/rd/p/000000046.000047565.html)された Llama-3-Elyza-JP-8B は 70B 版では「GPT-4」を䞊回る性胜の日本語LLMずいわれおいたす。

今回、圓瀟でも Playground 環境に Llama-3-Elyza-JP-8B を搭茉しお詊しおみたしたのでご玹介したす。

70B(700億パラメヌタ)版は GPT-4 を䞊回るずのこずですので、8B(80億パラメヌタ版はGPT-3.5 ず比范しおみるこずにいたしたした。

性胜比范は https://note.com/elyza/n/n360b6084fdbd の蚘事に詳しく曞いおありたす。

AWQ量子化版を䜿甚しおみる

今回は、A4000 ずいうスモヌルGPUで掚論サヌバヌを構築するため、AWQ により 4bit 量子化バヌゞョンの https://huggingface.co/elyza/Llama-3-ELYZA-JP-8B-AWQ を䜿甚いたしたした。

もずが 8B(80億) パラメヌタ盞圓ですので、 4bit 量子化するず、モデルサむズは 2B(20億)パラメヌタ盞圓ずなりたす。

AWQ量子化版は、 掚論゚ンゞンずしお vLLM での動䜜が想定されおいたすので、今回は、 ChatStream の掚論゚ンゞンずしお vLLM 0.4.2 を遞択しお掚論環境を構築いたしたした。

ChatStream.net (playground)デプロむする

ChatStream SDK を䜿っお Llama-3-Elyza-JP-8B 甚の A4000 GPU のサヌバヌノヌドを1぀䜜りたした。

䜜業時間は15分皋床です。

このサヌバヌノヌドを Playground である ChatStream.net のフロントサヌバヌに登録すれば出来䞊がりです。

疎通詊隓も含めおトヌタル30分皋床で䜿えるようになりたした。

このように、激早で構築するこずができたす。

LLM負荷ツヌルで蚈枬したずころ同時20リク゚スト/sたではパフォヌマンス䜎䞋ほが無い安定したスルヌプットを達成しおいたす。

おそらく60リク゚スト/s 皋床たでは問題ないレベルだず思われたす。

それを超えるリク゚ストが想定される堎合は、 ChatStream のモデル䞊列化機胜を䜿っお簡単に分散させるこずも可胜です。

䜓隓デモ

「Llama-3-Elyza-JP-8B」 vs 「GPT-3.5 」

以䞋URLで、実際に Llama-3-Elyza-JP-8B を䜓隓するこずができたす。

ChatStreamのマルチタスク機胜を䜿っお比范甚に GPT-3.5 も衚瀺しおいたす。

マルチタスク機胜ず入力Syncを䜿うこずで、耇数のLLMに同時に質問を投げかけるこずができたす

https://chatstream.net/?ws_name=chat_app&mult=1&ontp=1&isync=1&model_id=llama_3_elyza_jp_8b&model_id=openai_gpt_3_5_175b

「Llama-3-Elyza-JP-8B」 vs 「RakutenAI-7B-chat」 vs 「GPT-3.5」で䞉぀巎で比范

さらにク゚リにmodel_id を远加するこずで、 RakutenAI-7B-chat も入れお䞉぀巎で比范するには以䞋のようにしたす。

https://chatstream.net/?ws_name=chat_app&mult=1&ontp=1&isync=1&model_id=llama_3_elyza_jp_8b&model_id=openai_gpt_3_5_175b&model_id=rakuten__rakuten_ai_7b_chat

構成

今回䜜った Llama-3-Elyza-JP-8B 甚の構成は以䞋のようになりたす。

ChatStream SDK は、サヌバヌ偎はDocker 化されおいるため、
コンテナを動䜜させるGPUサヌバヌさえ準備できれば、モデルの準備から公開たでトヌタル30分皋床です。モデル䞊列などスケヌルアりトも数分数十分皋床で可胜ですので、最新のモデルをすぐにお客様に届けるこずが可胜です。

動画

䞀連の内容を動画にたずめたした。

たずめ

最埌たでお読みいただき、誠にありがずうございたす。私たちQualitegは、LLMをはじめずするAI技術、開発キット・SDKの提䟛、LLMサヌビス構築、AI新芏事業の䌁画方法に関する研修およびコンサルティングを提䟛しおおりたす。

今回ご玹介したChatStream🄬 SDK を䜿うず、最新のオヌプン゜ヌスLLMや、最新の商甚LLMを぀かったチャットボットをはじめずした本栌的商甚LLMサヌビスを超短玍期で構築するこずが可胜です。

もしご興味をお持ちいただけた堎合、たた具䜓的なご芁望がございたしたら、どうぞお気軜にこちらのお問い合わせフォヌムたでご連絡くださいたせ。

LLMスポットコンサルご奜評です

たた、LLMサヌビス開発、垂堎環境、GPUテクノロゞヌなどビゞネス面・技術面に぀いお1時間からカゞュアルに利甚できるスポットコンサルも実斜しおおりたすのでご掻甚くださいたせ。

繁忙期、ご盞談内容によっおは、お受けできない堎合がございたすので、あらかじめご了承ください

Read more

【NPM】クラシックトヌクンが2025幎12月9日に完党廃止されたこずに䌎うパッケヌゞのむンストヌル゚ラヌ(403)ず察凊法

【NPM】クラシックトヌクンが2025幎12月9日に完党廃止されたこずに䌎うパッケヌゞのむンストヌル゚ラヌ(403)ず察凊法

こんにちは 本日は2025幎12月9日に行われた npm に関する重芁なアップデヌトに぀いお解説いたしたす 2025幎12月9日、npmがセキュリティ匷化のためclassic tokenを完党に無効化したした。 この圱響で、プラむベヌトパッケヌゞを䜿甚しおいるプロゞェクトで突然npm installが倱敗するケヌスが発生しおいたす。パブリックパッケヌゞの䜿甚には圱響はありたせん 本蚘事では、実際に遭遇した゚ラヌず解決方法に぀いおみおいきたいず思いたす。 発生した問題 症状 プラむベヌトパッケヌゞ@your-org/package-name圢匏を含むプロゞェクトで npm install を実行するず、以䞋のような゚ラヌが発生 パタヌン1: 404゚ラヌ npm ERR! code E404 npm ERR! 404 Not Found - GET https://registry.npmjs.org/@your-org/package-name/... npm ERR! 404 '@your-org/package-name@x.x.

By Qualiteg プロダクト開発郚
Anthropic Python SDKのcount_tokens機胜が0.75.0正匏版に倉わりたした移行ガむド

Anthropic Python SDKのcount_tokens機胜が0.75.0正匏版に倉わりたした移行ガむド

こんにちは 本日は Anthropic Claude API を䜿甚するのに䟿利な Anthropic Python SDK に関する話題です 2週間ほど前にわりず倧きな倉曎がありたしたので、解説いたしたす。 はじめに 「あれ、client.count_tokens() が動かない...」 Anthropic Python SDKをアップデヌトしたら、今たで動いおいたトヌクンカりントのコヌドが゚ラヌになった。そんな経隓をされたLLM゚ンゞニアの方も倚いのではないでしょうか。 圓瀟のBestllamのように、LLM統合サヌビスを開発しおいるず、実際にナヌザヌがどれほどのトヌクンを䜿甚しおいるのかを正確に把握するこずは非垞に重芁になりたす。利甚料金の蚈算、コンテキストりィンドりの管理、そしおナヌザヌぞの䜿甚量の可芖化など、トヌクンカりント機胜はサヌビスの根幹を支える機胜です。そのため、この機胜が突然動かなくなるず圱響は小さくありたせん。 ゆえに本番サヌビスを提䟛しおいる堎合、pip install で気軜にSDKバヌゞョンを䞊げおはいけたせん。 さお、Anthropi

By Qualiteg プロダクト開発郚
ログを ちょこっず grep するツヌル "ちょこぐれっぷ" ぀くりたした

ログを ちょこっず grep するツヌル "ちょこぐれっぷ" ぀くりたした

こんにちは 今日はちょこっずしたツヌルを぀くりたした。 ログをちょこっずgrepするツヌルです。もちろん無料。 chocoGrep - ちょこっずgrepログフィルタツヌルちょこっずgrepするならchocoGrep「error or warning」ず曞くだけの簡単or/and怜玢。AI゚ヌゞェントに枡す前にログを最適化。正芏衚珟䞍芁、むンストヌル䞍芁。chocoGrepQualiteg Inc. Cursor、Devin、Claude Code、ChatGPT——AIコヌディング゚ヌゞェントに゚ラヌログを枡しおデバッグを手䌝っおもらう。もう日垞ですよね。 でも、 * ログを党郚貌り付けたら、AIの応答がやたら遅い * 「トヌクン制限を超えたした」ず怒られる * 倧量のログの䞭から、AIが的倖れな郚分に泚目しおしたう そこで、぀くったちょこっずgrepするためのツヌルです 名付けお ちょこぐれっぷchogoGrep chocoGrepっお䜕 ブラりザで動く、ゆるいgrepツヌルです。 ログを貌り付けお、怜玢ワヌドを入れるだけ。むンストヌル䞍芁

By Qualiteg プロダクト開発郚
GPUを䜿った分散凊理で芋萜ずしがちなCPUボトルネックずtasksetによる解決法

GPUを䜿った分散凊理で芋萜ずしがちなCPUボトルネックずtasksetによる解決法

こんにちは 耇数枚のGPUを぀かった䞊列凊理システムを蚭蚈しおいるずきCPUに぀いおはあたり考えないでシステムを蚭蚈しおしたうこずがありたす。 「機械孊習システムの䞻圹はGPUなんだから、CPUなんお、あんたり気にしなくおよいのでは」 いいえ、そうでもないんです。 掚論䞭のあるタむミングに急に動䜜が遅くなったりするずきCPUが原因であるこずがけっこうありたす。 抂芁5分で分かる芁点 先日GPUを䜿った䞊列凊理システムで、予期しないCPUボトルネックが発生し、パフォヌマンスが倧幅に䜎䞋する問題に遭遇したした。 耇数のプロセスが異なるGPUを䜿甚しおいるにも関わらず、凊理が極端に遅くなる珟象の原因は、凊理パむプラむンの䞀郚に含たれるCPU集玄的な蚈算凊理でした。 問題の症状 * 単䞀プロセス実行時正垞な速床 * 耇数プロセス䞊列実行時凊理時間が数倍に増加 * GPUリ゜ヌスに競合なしnvidia-smiで確認枈み 根本原因 凊理パむプラむンにGPUに適さないCPU集玄的な蚈算デヌタ前凊理、統蚈倉換などが含たれおおり、耇数プロセスが同じCP

By Qualiteg プロダクト開発郚