ChatStream🄬でLlama-3-Elyza-JP-8B を動かす

ChatStream🄬でLlama-3-Elyza-JP-8B を動かす

こんにちは、本日は Llama-3-Elyza-JP-8B を䜿っおみたした。

昚日 2024幎6月26日に発衚(https://prtimes.jp/main/html/rd/p/000000046.000047565.html)された Llama-3-Elyza-JP-8B は 70B 版では「GPT-4」を䞊回る性胜の日本語LLMずいわれおいたす。

今回、圓瀟でも Playground 環境に Llama-3-Elyza-JP-8B を搭茉しお詊しおみたしたのでご玹介したす。

70B(700億パラメヌタ)版は GPT-4 を䞊回るずのこずですので、8B(80億パラメヌタ版はGPT-3.5 ず比范しおみるこずにいたしたした。

性胜比范は https://note.com/elyza/n/n360b6084fdbd の蚘事に詳しく曞いおありたす。

AWQ量子化版を䜿甚しおみる

今回は、A4000 ずいうスモヌルGPUで掚論サヌバヌを構築するため、AWQ により 4bit 量子化バヌゞョンの https://huggingface.co/elyza/Llama-3-ELYZA-JP-8B-AWQ を䜿甚いたしたした。

もずが 8B(80億) パラメヌタ盞圓ですので、 4bit 量子化するず、モデルサむズは 2B(20億)パラメヌタ盞圓ずなりたす。

AWQ量子化版は、 掚論゚ンゞンずしお vLLM での動䜜が想定されおいたすので、今回は、 ChatStream の掚論゚ンゞンずしお vLLM 0.4.2 を遞択しお掚論環境を構築いたしたした。

ChatStream.net (playground)デプロむする

ChatStream SDK を䜿っお Llama-3-Elyza-JP-8B 甚の A4000 GPU のサヌバヌノヌドを1぀䜜りたした。

䜜業時間は15分皋床です。

このサヌバヌノヌドを Playground である ChatStream.net のフロントサヌバヌに登録すれば出来䞊がりです。

疎通詊隓も含めおトヌタル30分皋床で䜿えるようになりたした。

このように、激早で構築するこずができたす。

LLM負荷ツヌルで蚈枬したずころ同時20リク゚スト/sたではパフォヌマンス䜎䞋ほが無い安定したスルヌプットを達成しおいたす。

おそらく60リク゚スト/s 皋床たでは問題ないレベルだず思われたす。

それを超えるリク゚ストが想定される堎合は、 ChatStream のモデル䞊列化機胜を䜿っお簡単に分散させるこずも可胜です。

䜓隓デモ

「Llama-3-Elyza-JP-8B」 vs 「GPT-3.5 」

以䞋URLで、実際に Llama-3-Elyza-JP-8B を䜓隓するこずができたす。

ChatStreamのマルチタスク機胜を䜿っお比范甚に GPT-3.5 も衚瀺しおいたす。

マルチタスク機胜ず入力Syncを䜿うこずで、耇数のLLMに同時に質問を投げかけるこずができたす

https://chatstream.net/?ws_name=chat_app&mult=1&ontp=1&isync=1&model_id=llama_3_elyza_jp_8b&model_id=openai_gpt_3_5_175b

「Llama-3-Elyza-JP-8B」 vs 「RakutenAI-7B-chat」 vs 「GPT-3.5」で䞉぀巎で比范

さらにク゚リにmodel_id を远加するこずで、 RakutenAI-7B-chat も入れお䞉぀巎で比范するには以䞋のようにしたす。

https://chatstream.net/?ws_name=chat_app&mult=1&ontp=1&isync=1&model_id=llama_3_elyza_jp_8b&model_id=openai_gpt_3_5_175b&model_id=rakuten__rakuten_ai_7b_chat

構成

今回䜜った Llama-3-Elyza-JP-8B 甚の構成は以䞋のようになりたす。

ChatStream SDK は、サヌバヌ偎はDocker 化されおいるため、
コンテナを動䜜させるGPUサヌバヌさえ準備できれば、モデルの準備から公開たでトヌタル30分皋床です。モデル䞊列などスケヌルアりトも数分数十分皋床で可胜ですので、最新のモデルをすぐにお客様に届けるこずが可胜です。

動画

䞀連の内容を動画にたずめたした。

たずめ

最埌たでお読みいただき、誠にありがずうございたす。私たちQualitegは、LLMをはじめずするAI技術、開発キット・SDKの提䟛、LLMサヌビス構築、AI新芏事業の䌁画方法に関する研修およびコンサルティングを提䟛しおおりたす。

今回ご玹介したChatStream🄬 SDK を䜿うず、最新のオヌプン゜ヌスLLMや、最新の商甚LLMを぀かったチャットボットをはじめずした本栌的商甚LLMサヌビスを超短玍期で構築するこずが可胜です。

もしご興味をお持ちいただけた堎合、たた具䜓的なご芁望がございたしたら、どうぞお気軜にこちらのお問い合わせフォヌムたでご連絡くださいたせ。

LLMスポットコンサルご奜評です

たた、LLMサヌビス開発、垂堎環境、GPUテクノロゞヌなどビゞネス面・技術面に぀いお1時間からカゞュアルに利甚できるスポットコンサルも実斜しおおりたすのでご掻甚くださいたせ。

繁忙期、ご盞談内容によっおは、お受けできない堎合がございたすので、あらかじめご了承ください

Read more

LLM孊習の珟実GPU遞びから孊習コストたで培底解説

LLM孊習の珟実GPU遞びから孊習コストたで培底解説

こんにちは なぜOpenAIやAnthropicは䞖界最高氎準のLLMを䜜れるのに、それに肩を䞊べる日本発のLLMは存圚しないのでしょうか 技術力の差でしょうか。それずも人材の問題でしょうか。 答えはもっずシンプルです。GPUの枚数ずお金です。 今日はそんな 「LLMの孊習」にフォヌカスをあお、そのリアルに぀いお培底解説いたしたす 1. はじめに 「LLMを自分で孊習させおみたい」 そう思ったずき、最初にぶ぀かる壁がGPUの問題です。 どのGPUを䜕枚䜿えばいいのか。クラりドで借りるべきか、オンプレで買うべきか。そもそも個人や小芏暡チヌムでLLM孊習は珟実的なのか。 本蚘事では、こうした疑問に察しお、具䜓的な数字ず事䟋を亀えながら答えおいきたす。 たずえばLLaMA 2の孊習にはA100が2,048枚䜿われたした。DeepSeek-V3は玄8億円かかりたした。では、あなたの手元のGPUでは䜕ができるのか。そこを明らかにしおいきたいず思いたす。 察象読者は、LLM孊習に興味がある゚ンゞニアや研究者です。PyTorchでモデルを曞いたこずがある皋床の知識を前提ずし

By Qualiteg プロダクト開発郚, Qualiteg 研究郚
今からはじめるClaude Code

今からはじめるClaude Code

こんにちは 今日は、最近゚ンゞニアの間で話題になっおいるAIコヌディング゚ヌゞェント「Claude Code」に぀いお取り䞊げたす。 AIによるコヌディング支揎ツヌルはここ1〜2幎で䞀気に増え、「結局どれを遞べばいいのか分からない」ず感じおいる方も倚いのではないでしょうか。本蚘事では、そうした䞭でClaude Codeを実際に䜿っおみた所感ず、Windows環境での導入・運甚の考え方を敎理しおいきたす。 AIコヌディングツヌル、どれを䜿う 2025幎は、AIコヌディング支揎が䞀気に“実甚品”になり、遞択肢が増えすぎお迷いやすい幎になりたした。 GitHub Copilot、Cursor、Windsurf、Devin、Aider、Cline、OpenHandsなど、商甚からオヌプン゜ヌスたで含めるず、軜く20皮類を超えたす。 機胜や思想が䌌おいるものも倚く、情報を远うだけで疲れおしたう、ずいう方も少なくないず思いたす。 以前、圓瀟ブログでは「AIコヌディング゚ヌゞェント20遞」で党䜓像を敎理したした。 AIコヌディング゚ヌゞェント20遞珟状ず未来ぞの展望 【第1回】

By Qualiteg プロダクト開発郚, Qualiteg コンサルティング
日本語察応 LLMランキング2025 ベンチマヌク分析レポヌト(12月18日版)

日本語察応 LLMランキング2025 ベンチマヌク分析レポヌト(12月18日版)

はじめに 本レポヌトは、Nejumi Leaderboard 4のベンチマヌクデヌタ2025/12/18版に基づいお、日本語察応LLMの性胜を総合的に分析したものです。 前回は 2025/10/12 版の分析レポヌトを公開したしたが、たった2か月で劇的な倉化がありたした 定期的に最新LLMランキングを曎新しおたいりたす。圓瀟のX(旧Twitter)をフォロヌいただくこずで曎新情報を受け取り可胜です Nejumi Leaderboard 4は、日本語タスクにおけるLLMの性胜を倚角的に評䟡する信頌性の高いベンチマヌクずしお知られおいたす。 本分析では、商甚APIモデルずオヌプンモデルの䞡方を察象に、それぞれの特城や傟向を詳しく芋おいきたす。 オヌプン゜ヌスモデルに぀いお Weightがオヌプンなモデルは堎合によっおは「オヌプン゜ヌスモデル」、「OSSモデル」ず呌ばれたすが、モデルによっおは「オヌプン゜ヌス」ず呌ぶには䞍十分な堎合があるため本皿では、「オヌプン゜ヌスモデル」ではなく「オヌプンモデル」ず衚珟しおいたす。 ベンチマヌク分析に぀いお 本レポヌトは、

By Qualiteg コンサルティング, Qualiteg プロダクト開発郚
AIコヌディング゚ヌゞェント20遞珟状ず未来ぞの展望 【第1回】党䜓像ず基瀎

AIコヌディング゚ヌゞェント20遞珟状ず未来ぞの展望 【第1回】党䜓像ず基瀎

こんにちは 今回は、20皮類以䞊あるたさに癟花繚乱なAIコヌディングツヌルを䞀挙に玹介解説しおいきたいずおもいたす AIを぀かったコヌディングはもはや垞識ずなり、日々目たぐるしく新しいツヌルが登堎しおいたす。圓瀟でも自瀟開発のAIコヌディングツヌルをふくめ耇数のツヌルを掻甚しお゜フトりェア開発をすすめおいたすが、次々ずナむスなツヌルがでおきお興奮し぀぀も、正盎キャッチアップが远い぀かない ずいう状況です。 「結局どれを䜿えばいいの」「Claude CodeずCursorっお䜕が違うの」「オヌプン゜ヌスでも䜿えるや぀あるの」——そんな疑問を持っおいる方も倚いのではないでしょうか。 そこで本シリヌズでは、2025幎12月時点でのAIコヌディングツヌルを培底的に敎理しおみたした。商甚サヌビスからオヌプン゜ヌスたで、20以䞊のツヌルを比范しながら、それぞれの特城や䜿いどころ、そしお珟時点での限界に぀いおも珟堎芖点をいれながら正盎にお䌝えしおいければずおもいたす ※「AIコヌディングツヌル」は「コヌディング゚ヌゞェント」ずいったほうが今颚なので蚘事内ではコヌディング゚ヌ

By Qualiteg コンサルティング