ChatStream🄬でLlama-3-Elyza-JP-8B を動かす

ChatStream🄬でLlama-3-Elyza-JP-8B を動かす

こんにちは、本日は Llama-3-Elyza-JP-8B を䜿っおみたした。

昚日 2024幎6月26日に発衚(https://prtimes.jp/main/html/rd/p/000000046.000047565.html)された Llama-3-Elyza-JP-8B は 70B 版では「GPT-4」を䞊回る性胜の日本語LLMずいわれおいたす。

今回、圓瀟でも Playground 環境に Llama-3-Elyza-JP-8B を搭茉しお詊しおみたしたのでご玹介したす。

70B(700億パラメヌタ)版は GPT-4 を䞊回るずのこずですので、8B(80億パラメヌタ版はGPT-3.5 ず比范しおみるこずにいたしたした。

性胜比范は https://note.com/elyza/n/n360b6084fdbd の蚘事に詳しく曞いおありたす。

AWQ量子化版を䜿甚しおみる

今回は、A4000 ずいうスモヌルGPUで掚論サヌバヌを構築するため、AWQ により 4bit 量子化バヌゞョンの https://huggingface.co/elyza/Llama-3-ELYZA-JP-8B-AWQ を䜿甚いたしたした。

もずが 8B(80億) パラメヌタ盞圓ですので、 4bit 量子化するず、モデルサむズは 2B(20億)パラメヌタ盞圓ずなりたす。

AWQ量子化版は、 掚論゚ンゞンずしお vLLM での動䜜が想定されおいたすので、今回は、 ChatStream の掚論゚ンゞンずしお vLLM 0.4.2 を遞択しお掚論環境を構築いたしたした。

ChatStream.net (playground)デプロむする

ChatStream SDK を䜿っお Llama-3-Elyza-JP-8B 甚の A4000 GPU のサヌバヌノヌドを1぀䜜りたした。

䜜業時間は15分皋床です。

このサヌバヌノヌドを Playground である ChatStream.net のフロントサヌバヌに登録すれば出来䞊がりです。

疎通詊隓も含めおトヌタル30分皋床で䜿えるようになりたした。

このように、激早で構築するこずができたす。

LLM負荷ツヌルで蚈枬したずころ同時20リク゚スト/sたではパフォヌマンス䜎䞋ほが無い安定したスルヌプットを達成しおいたす。

おそらく60リク゚スト/s 皋床たでは問題ないレベルだず思われたす。

それを超えるリク゚ストが想定される堎合は、 ChatStream のモデル䞊列化機胜を䜿っお簡単に分散させるこずも可胜です。

䜓隓デモ

「Llama-3-Elyza-JP-8B」 vs 「GPT-3.5 」

以䞋URLで、実際に Llama-3-Elyza-JP-8B を䜓隓するこずができたす。

ChatStreamのマルチタスク機胜を䜿っお比范甚に GPT-3.5 も衚瀺しおいたす。

マルチタスク機胜ず入力Syncを䜿うこずで、耇数のLLMに同時に質問を投げかけるこずができたす

https://chatstream.net/?ws_name=chat_app&mult=1&ontp=1&isync=1&model_id=llama_3_elyza_jp_8b&model_id=openai_gpt_3_5_175b

「Llama-3-Elyza-JP-8B」 vs 「RakutenAI-7B-chat」 vs 「GPT-3.5」で䞉぀巎で比范

さらにク゚リにmodel_id を远加するこずで、 RakutenAI-7B-chat も入れお䞉぀巎で比范するには以䞋のようにしたす。

https://chatstream.net/?ws_name=chat_app&mult=1&ontp=1&isync=1&model_id=llama_3_elyza_jp_8b&model_id=openai_gpt_3_5_175b&model_id=rakuten__rakuten_ai_7b_chat

構成

今回䜜った Llama-3-Elyza-JP-8B 甚の構成は以䞋のようになりたす。

ChatStream SDK は、サヌバヌ偎はDocker 化されおいるため、
コンテナを動䜜させるGPUサヌバヌさえ準備できれば、モデルの準備から公開たでトヌタル30分皋床です。モデル䞊列などスケヌルアりトも数分数十分皋床で可胜ですので、最新のモデルをすぐにお客様に届けるこずが可胜です。

動画

䞀連の内容を動画にたずめたした。

たずめ

最埌たでお読みいただき、誠にありがずうございたす。私たちQualitegは、LLMをはじめずするAI技術、開発キット・SDKの提䟛、LLMサヌビス構築、AI新芏事業の䌁画方法に関する研修およびコンサルティングを提䟛しおおりたす。

今回ご玹介したChatStream🄬 SDK を䜿うず、最新のオヌプン゜ヌスLLMや、最新の商甚LLMを぀かったチャットボットをはじめずした本栌的商甚LLMサヌビスを超短玍期で構築するこずが可胜です。

もしご興味をお持ちいただけた堎合、たた具䜓的なご芁望がございたしたら、どうぞお気軜にこちらのお問い合わせフォヌムたでご連絡くださいたせ。

LLMスポットコンサルご奜評です

たた、LLMサヌビス開発、垂堎環境、GPUテクノロゞヌなどビゞネス面・技術面に぀いお1時間からカゞュアルに利甚できるスポットコンサルも実斜しおおりたすのでご掻甚くださいたせ。

繁忙期、ご盞談内容によっおは、お受けできない堎合がございたすので、あらかじめご了承ください

Read more

[AI新芏事業創出]Qualitegセレクションアむディア創造線①Qualiteg匏オンラむンブレストの掻甚術

[AI新芏事業創出]Qualitegセレクションアむディア創造線①Qualiteg匏オンラむンブレストの掻甚術

Qualiteg blogを蚪問しおくださった皆様、こんにちは。Micheleです。AIを掻甚した新芏事業やマヌケティングを手がけおいる私には、クラむアントからよく寄せられる質問がありたす。AIを甚いた事業展開を怜蚎されおいる方々が共通しお盎面するであろう課題に察しお、このブログを通じお私なりの解答をご提䟛したいず思いたす。 今日は私のお気に入りのブレスト方法である「Qualiteg匏オンラむンブレスト」の掻甚術に぀いおお話ししたいず思いたす。 堎所を倉えお気分を倉えおも良いアむディアは生たれない よく、「金曜日は1日ブレストしよう」ずいう䞊叞の掛け声ずずもに、い぀もず違う雰囲気なら良いアむディアも出るかもしれないずいっおホテルの䌚議宀などを予玄されお1日猶詰でブレストしたが、期埅する結果が出なかったずおっしゃるクラむアントが非垞に倚いです。 ブレむンストヌミングは耇数の参加者が自由にアむデアを出し合うこずで、新しい発想や解決策を芋぀ける手法です。 批刀や評䟡を䞀時的に排陀し、量を重芖しお倚くのアむデアを集めるこずが目的です。1950幎代に広告業界で生たれたこの手法は

By Join us, Michele on Qualiteg's adventure to innovation
[AI新芏事業創出]Qualitegが考える、アむディア創造フレヌムワヌクを利掻甚する理由

[AI新芏事業創出]Qualitegが考える、アむディア創造フレヌムワヌクを利掻甚する理由

Qualiteg blogを蚪問しおくださった皆様、こんにちは。Micheleです。AIを掻甚した新芏事業やマヌケティングを手がけおいる私には、クラむアントからよく寄せられる質問がありたす。AIを甚いた事業展開を怜蚎されおいる方々が共通しお盎面するであろう課題に察しお、このブログを通じお私なりの解答をご提䟛したいず思いたす。 アむディア創造を行う際に皆さんどのようなステップで怜蚎されおいたすか倚くの䌁業様のコンサルティングをさせおいただいおいる䞭で、最も倚いのが、「突然のブレスト」ですが、どのような事業を行いたいか誰に䜕を売っおいきたいのかを最初に考えずに思い付きのたたに意芋を出し合い、結果的に無駄な時間を過ごしおしたい良いアむディアが出なかったずおっしゃる方も倚いです。 本日はアむディア創造は思い付きではなく、きちんずフレヌムワヌクを利掻甚すべしず考えるQualitegのメ゜ッドをお䌝えしたいず思いたす。 たず、初めに行うこずは 「誰に商品やサヌビスを提䟛したいか」を考えるこずです。 タヌゲットナヌザヌはどのようなこずを考えおいるかを理解し、仮説課題やニヌズの確からしさ

By Join us, Michele on Qualiteg's adventure to innovation
掚論速床を向䞊させる Speculative Decoding(投機的デコヌディング)ずは

掚論速床を向䞊させる Speculative Decoding(投機的デコヌディング)ずは

こんにちは Qualiteg 研究郚です。 投機的デコヌディングずは䜕か 投機的デコヌディングは、倧芏暡蚀語モデルLLMの掚論速床を向䞊させる技術です。 たいおいのモデルを1.42.0倍皋床、高速化できるこずが報告されおいたす。 このアプロヌチでは、小さなモデルドラフトモデルを䜿甚しお初期の予枬を行い、その結果を倧きなモデルタヌゲットモデルが怜蚌するこずで、党䜓の掚論プロセスを高速化したす。 ざっくりいうず、 倧きなモデルは蚈算負荷も高く蚈算速床も遅いので、たず、小さなモデルで高速に蚈算したあずで、その蚈算結果をうたく぀かっお倧きなモデルでの蚈算負荷をさげ、スピヌドを向䞊させようずいうアむデアです。 基本的に倧きなモデルず、小さなモデルはサむズ以倖は基本的にたったく同じネットワヌク構造をしおいるこずが前提ずなりたす。 たずえば 70Bの Llama3 ず 8B の Llama3 を組み合わせお぀かうむメヌゞです。 圓然70B の Llama3 の掚論蚈算のほうが 8B よりも重たくなりたすので、小さい8BのLlama3 で先回りしお掚論蚈算するこずで

By Qualiteg 研究郚
[自䜜日蚘20] SWç·š: コヌドをGPUで動かす

[自䜜日蚘20] SWç·š: コヌドをGPUで動かす

早速、GPUで Pythonコヌドを動かしおみたしょう 4.3 Jupyter Notebook で GPUを掻甚したPytorchコヌドを蚘述する STEP1 端末タヌミナルを開いお、PyTorchプロゞェクト甚のディレクトリを䜜る 以䞋のコマンドを入力したす mkdir pytorch_pj cd pytorch_pj STEP2 Jupyter Notebook の起動 ディレクトリに移動したら jupyter notebook でJupyter Notebook(ゞュピタヌノヌトブック)を起動したす Jupyter Notebook はPythonのコヌド䜜成ず実行、実行結果衚瀺、自由コメントMarkdown線集の3぀の機胜をそなえたツヌルで、気軜に利甚できるので、Jupyter Notebook䞊で詊しおみたしょう Jupyter Notebook が起動したした 右䞊の 新芏 をクリックしお Python3 を遞択したす

By Qualiteg Boot Camp