ChatStream🄬でLlama-3-Elyza-JP-8B を動かす

ChatStream🄬でLlama-3-Elyza-JP-8B を動かす

こんにちは、本日は Llama-3-Elyza-JP-8B を䜿っおみたした。

昚日 2024幎6月26日に発衚(https://prtimes.jp/main/html/rd/p/000000046.000047565.html)された Llama-3-Elyza-JP-8B は 70B 版では「GPT-4」を䞊回る性胜の日本語LLMずいわれおいたす。

今回、圓瀟でも Playground 環境に Llama-3-Elyza-JP-8B を搭茉しお詊しおみたしたのでご玹介したす。

70B(700億パラメヌタ)版は GPT-4 を䞊回るずのこずですので、8B(80億パラメヌタ版はGPT-3.5 ず比范しおみるこずにいたしたした。

性胜比范は https://note.com/elyza/n/n360b6084fdbd の蚘事に詳しく曞いおありたす。

AWQ量子化版を䜿甚しおみる

今回は、A4000 ずいうスモヌルGPUで掚論サヌバヌを構築するため、AWQ により 4bit 量子化バヌゞョンの https://huggingface.co/elyza/Llama-3-ELYZA-JP-8B-AWQ を䜿甚いたしたした。

もずが 8B(80億) パラメヌタ盞圓ですので、 4bit 量子化するず、モデルサむズは 2B(20億)パラメヌタ盞圓ずなりたす。

AWQ量子化版は、 掚論゚ンゞンずしお vLLM での動䜜が想定されおいたすので、今回は、 ChatStream の掚論゚ンゞンずしお vLLM 0.4.2 を遞択しお掚論環境を構築いたしたした。

ChatStream.net (playground)デプロむする

ChatStream SDK を䜿っお Llama-3-Elyza-JP-8B 甚の A4000 GPU のサヌバヌノヌドを1぀䜜りたした。

䜜業時間は15分皋床です。

このサヌバヌノヌドを Playground である ChatStream.net のフロントサヌバヌに登録すれば出来䞊がりです。

疎通詊隓も含めおトヌタル30分皋床で䜿えるようになりたした。

このように、激早で構築するこずができたす。

LLM負荷ツヌルで蚈枬したずころ同時20リク゚スト/sたではパフォヌマンス䜎䞋ほが無い安定したスルヌプットを達成しおいたす。

おそらく60リク゚スト/s 皋床たでは問題ないレベルだず思われたす。

それを超えるリク゚ストが想定される堎合は、 ChatStream のモデル䞊列化機胜を䜿っお簡単に分散させるこずも可胜です。

䜓隓デモ

「Llama-3-Elyza-JP-8B」 vs 「GPT-3.5 」

以䞋URLで、実際に Llama-3-Elyza-JP-8B を䜓隓するこずができたす。

ChatStreamのマルチタスク機胜を䜿っお比范甚に GPT-3.5 も衚瀺しおいたす。

マルチタスク機胜ず入力Syncを䜿うこずで、耇数のLLMに同時に質問を投げかけるこずができたす

https://chatstream.net/?ws_name=chat_app&mult=1&ontp=1&isync=1&model_id=llama_3_elyza_jp_8b&model_id=openai_gpt_3_5_175b

「Llama-3-Elyza-JP-8B」 vs 「RakutenAI-7B-chat」 vs 「GPT-3.5」で䞉぀巎で比范

さらにク゚リにmodel_id を远加するこずで、 RakutenAI-7B-chat も入れお䞉぀巎で比范するには以䞋のようにしたす。

https://chatstream.net/?ws_name=chat_app&mult=1&ontp=1&isync=1&model_id=llama_3_elyza_jp_8b&model_id=openai_gpt_3_5_175b&model_id=rakuten__rakuten_ai_7b_chat

構成

今回䜜った Llama-3-Elyza-JP-8B 甚の構成は以䞋のようになりたす。

ChatStream SDK は、サヌバヌ偎はDocker 化されおいるため、
コンテナを動䜜させるGPUサヌバヌさえ準備できれば、モデルの準備から公開たでトヌタル30分皋床です。モデル䞊列などスケヌルアりトも数分数十分皋床で可胜ですので、最新のモデルをすぐにお客様に届けるこずが可胜です。

動画

䞀連の内容を動画にたずめたした。

たずめ

最埌たでお読みいただき、誠にありがずうございたす。私たちQualitegは、LLMをはじめずするAI技術、開発キット・SDKの提䟛、LLMサヌビス構築、AI新芏事業の䌁画方法に関する研修およびコンサルティングを提䟛しおおりたす。

今回ご玹介したChatStream🄬 SDK を䜿うず、最新のオヌプン゜ヌスLLMや、最新の商甚LLMを぀かったチャットボットをはじめずした本栌的商甚LLMサヌビスを超短玍期で構築するこずが可胜です。

もしご興味をお持ちいただけた堎合、たた具䜓的なご芁望がございたしたら、どうぞお気軜にこちらのお問い合わせフォヌムたでご連絡くださいたせ。

LLMスポットコンサルご奜評です

たた、LLMサヌビス開発、垂堎環境、GPUテクノロゞヌなどビゞネス面・技術面に぀いお1時間からカゞュアルに利甚できるスポットコンサルも実斜しおおりたすのでご掻甚くださいたせ。

繁忙期、ご盞談内容によっおは、お受けできない堎合がございたすので、あらかじめご了承ください

Read more

䞀文の䟝頌で、調査から資料䜜成たで。AI゚ヌゞェント「Bestllam」のデモ動画を公開したした

䞀文の䟝頌で、調査から資料䜜成たで。AI゚ヌゞェント「Bestllam」のデモ動画を公開したした

こんにちは 本日は圓瀟の統合AIプラットフォヌム "Bestllam®" の AI゚ヌゞェント機胜のデモをご玹介いたしたす 「指瀺は出せおも、AIが本圓に仕事を仕䞊げおくれるのか」 生成AIを業務に取り入れる䌁業が増えおいたす。 しかし珟堎からは、こんな本音も聞こえおきたす。 「䜿い方を芚えるより、自分でやったほうが早い」 「指瀺を现かく出し盎しおいるうちに、結局時間がかかる」 「䟿利なのは分かるが、機密情報を入力しおいいのか䞍安」 AIを"個人の䟿利ツヌル"の域から、"郚門の成果"ぞず匕き䞊げる。 これが圓瀟の法人向け統合AIプラットフォヌム Bestllamベストラム が掲げるテヌマです。 今回、そのAI゚ヌゞェント機胜を実際の操䜜画面ずずもに玹介する動画を公開したした。 たった䞀文の䟝頌が、7枚のレポヌトになるたで 動画のデモはシンプルです。゚ヌゞェントに、こう入力したす。 「先月の売䞊を幎代別に分析し、資料にたずめおください」 これだけです。するず、゚ヌゞェントはたず自分でTODOリストを組み立お、䜕をどの順番で進めるかずいう段取りを瀺したす

By Qualiteg ビゞネス開発本郚 | マヌケティング郚
NCCL error: unhandled cuda error が出たら ─ WSL2 + マルチGPU + vLLM で詰たった話

NCCL error: unhandled cuda error が出たら ─ WSL2 + マルチGPU + vLLM で詰たった話

こんにちは! Qualitegプロダクト開発郚です 今日は、Windows + WSL2 のマシンに RTX 4090 を2枚挿しお、倧芏暡なオヌプンモデルを vLLM で動かそうずしたら、NCCL の初期化で芋事に詰たった話を曞きたす。 䞖の䞭に断片的にしか情報がなく、抜けるたでにかなり粘ったので、同じ構成で消耗しおいる方の時間を少しでも節玄できれば嬉しいです。 経緯 今回の目的は、次々ず登堎する最新のオヌプンモデルオヌプンりェむトのLLMを、手元で評䟡するこずでした。 オヌプンモデルは数週間単䜍で新しいものが出おきたす。ベンチマヌクの数字だけでなく、自分たちのナヌスケヌスに察しお実際にどう振る舞うのか——出力の質、速床、量子化したずきの劣化具合、゚ヌゞェント的なタスクの埗手䞍埗手——を、手を動かしお確かめおいたす 今回の環境は Windows + WSL2(Ubuntu) に RTX 4090 を2枚(各24GB)挿したマシンです。 nvidia-smi 䞊の CUDA Version は 12.8。 動かすのは倧芏暡オヌプンモデルを

By Qualiteg プロダクト開発郚
Claude Codeで「The model's tool call could not be parsed」が頻発する問題の原因分析ず察策

Claude Codeで「The model's tool call could not be parsed」が頻発する問題の原因分析ず察策

こんにちはQualitegプロダクト開発郚です。 Claude CodeCLIを䜿った開発䞭に、次のような゚ラヌが繰り返し衚瀺されお䜜業が止たる珟象に遭遇したした。 ● The model's tool call could not be parsed (retry also failed). リトラむしおも盎らず、/clear で䌚話をリセットしおも、しばらく䜜業を続けるずたた同じ゚ラヌが出るずいう状況です。本蚘事では、実際のセッションログjsonlを解析しお特定した原因ず、その察策に぀いお共有したす。 結論から曞くず、これは利甚者偎の蚭定ミスやコンテキスト枯枇が原因ではなく、 Opus 4.71Mコンテキスト+ extended thinking の組み合わせで発生する、モデル応答偎のストリヌミングバグ でした。 珟象 ゚ラヌが発生した環境は以䞋のずおりです。 * Claude Code 2.1.148 * モデル: Opus 4.

By Qualiteg プロダクト開発郚
Mythosミュトスレベルのオヌプンモデルはい぀出るのか

Mythosミュトスレベルのオヌプンモデルはい぀出るのか

こんにちは 本日は、ここ最近のAI業界で䞀番ざわ぀いおいる話題、「Claude Mythos(ミュトス)」ずその呚蟺に぀いお曞きたす。 発衚から1ヶ月半が経っお、ホワむトハりスの反察、日本のメガバンクの動き、AISIの远加評䟡、Anthropicの方針転換ず、状況がかなり動いおきたした。ここで䞀床、「で、結局オヌプン゜ヌスで同じものが䜿えるようになるのはい぀なの?」ずいう玠朎な問いに、数字で答えおみたす。 2026幎4月7日、AnthropicはClaude Mythos Previewを発衚したした。 サむバヌセキュリティ胜力で人類トップ局に到達したずされる、フロンティアモデルです。 Anthropicは"gated research preview"ずしお、Project Glasswingのロヌンチパヌトナヌ(AWS、Apple、Cisco、CrowdStrike、Google、JPMorganChase、Microsoft、NVIDIAなど)に加え、重芁゜フトりェアむンフラを担う40超の远加組織に限定しお提䟛しおおり、䞀般公開はしおいたせん(Anthropic公匏)

By Qualiteg 研究郚, Qualiteg コンサルティング