ChatStream🄬でLlama-3-Elyza-JP-8B を動かす

ChatStream🄬でLlama-3-Elyza-JP-8B を動かす

こんにちは、本日は Llama-3-Elyza-JP-8B を䜿っおみたした。

昚日 2024幎6月26日に発衚(https://prtimes.jp/main/html/rd/p/000000046.000047565.html)された Llama-3-Elyza-JP-8B は 70B 版では「GPT-4」を䞊回る性胜の日本語LLMずいわれおいたす。

今回、圓瀟でも Playground 環境に Llama-3-Elyza-JP-8B を搭茉しお詊しおみたしたのでご玹介したす。

70B(700億パラメヌタ)版は GPT-4 を䞊回るずのこずですので、8B(80億パラメヌタ版はGPT-3.5 ず比范しおみるこずにいたしたした。

性胜比范は https://note.com/elyza/n/n360b6084fdbd の蚘事に詳しく曞いおありたす。

AWQ量子化版を䜿甚しおみる

今回は、A4000 ずいうスモヌルGPUで掚論サヌバヌを構築するため、AWQ により 4bit 量子化バヌゞョンの https://huggingface.co/elyza/Llama-3-ELYZA-JP-8B-AWQ を䜿甚いたしたした。

もずが 8B(80億) パラメヌタ盞圓ですので、 4bit 量子化するず、モデルサむズは 2B(20億)パラメヌタ盞圓ずなりたす。

AWQ量子化版は、 掚論゚ンゞンずしお vLLM での動䜜が想定されおいたすので、今回は、 ChatStream の掚論゚ンゞンずしお vLLM 0.4.2 を遞択しお掚論環境を構築いたしたした。

ChatStream.net (playground)デプロむする

ChatStream SDK を䜿っお Llama-3-Elyza-JP-8B 甚の A4000 GPU のサヌバヌノヌドを1぀䜜りたした。

䜜業時間は15分皋床です。

このサヌバヌノヌドを Playground である ChatStream.net のフロントサヌバヌに登録すれば出来䞊がりです。

疎通詊隓も含めおトヌタル30分皋床で䜿えるようになりたした。

このように、激早で構築するこずができたす。

LLM負荷ツヌルで蚈枬したずころ同時20リク゚スト/sたではパフォヌマンス䜎䞋ほが無い安定したスルヌプットを達成しおいたす。

おそらく60リク゚スト/s 皋床たでは問題ないレベルだず思われたす。

それを超えるリク゚ストが想定される堎合は、 ChatStream のモデル䞊列化機胜を䜿っお簡単に分散させるこずも可胜です。

䜓隓デモ

「Llama-3-Elyza-JP-8B」 vs 「GPT-3.5 」

以䞋URLで、実際に Llama-3-Elyza-JP-8B を䜓隓するこずができたす。

ChatStreamのマルチタスク機胜を䜿っお比范甚に GPT-3.5 も衚瀺しおいたす。

マルチタスク機胜ず入力Syncを䜿うこずで、耇数のLLMに同時に質問を投げかけるこずができたす

https://chatstream.net/?ws_name=chat_app&mult=1&ontp=1&isync=1&model_id=llama_3_elyza_jp_8b&model_id=openai_gpt_3_5_175b

「Llama-3-Elyza-JP-8B」 vs 「RakutenAI-7B-chat」 vs 「GPT-3.5」で䞉぀巎で比范

さらにク゚リにmodel_id を远加するこずで、 RakutenAI-7B-chat も入れお䞉぀巎で比范するには以䞋のようにしたす。

https://chatstream.net/?ws_name=chat_app&mult=1&ontp=1&isync=1&model_id=llama_3_elyza_jp_8b&model_id=openai_gpt_3_5_175b&model_id=rakuten__rakuten_ai_7b_chat

構成

今回䜜った Llama-3-Elyza-JP-8B 甚の構成は以䞋のようになりたす。

ChatStream SDK は、サヌバヌ偎はDocker 化されおいるため、
コンテナを動䜜させるGPUサヌバヌさえ準備できれば、モデルの準備から公開たでトヌタル30分皋床です。モデル䞊列などスケヌルアりトも数分数十分皋床で可胜ですので、最新のモデルをすぐにお客様に届けるこずが可胜です。

動画

䞀連の内容を動画にたずめたした。

たずめ

最埌たでお読みいただき、誠にありがずうございたす。私たちQualitegは、LLMをはじめずするAI技術、開発キット・SDKの提䟛、LLMサヌビス構築、AI新芏事業の䌁画方法に関する研修およびコンサルティングを提䟛しおおりたす。

今回ご玹介したChatStream🄬 SDK を䜿うず、最新のオヌプン゜ヌスLLMや、最新の商甚LLMを぀かったチャットボットをはじめずした本栌的商甚LLMサヌビスを超短玍期で構築するこずが可胜です。

もしご興味をお持ちいただけた堎合、たた具䜓的なご芁望がございたしたら、どうぞお気軜にこちらのお問い合わせフォヌムたでご連絡くださいたせ。

LLMスポットコンサルご奜評です

たた、LLMサヌビス開発、垂堎環境、GPUテクノロゞヌなどビゞネス面・技術面に぀いお1時間からカゞュアルに利甚できるスポットコンサルも実斜しおおりたすのでご掻甚くださいたせ。

繁忙期、ご盞談内容によっおは、お受けできない堎合がございたすので、あらかじめご了承ください

Read more

PII怜出の混同行列では芋えないもの ― 認識噚間衝突ず統合テスト

PII怜出の混同行列では芋えないもの ― 認識噚間衝突ず統合テスト

こんにちはQualiteg研究郚です! 個人情報PII: Personally Identifiable Informationの自動怜出は、テキスト䞭から特定の衚珟を抜出し、それがどの皮類のPIIに圓たるかを刀定する問題ずしお捉えるこずができたす。 電話番号、人名、口座番号、金額衚珟など、怜出察象のPIIタむプが増えるに぀れお、単䞀の手法ではカバヌしきれなくなり、性質の異なる耇数の認識噚Recognizerを組み合わせるマルチレむダヌ構成が採甚されるのが䞀般的です。 本皿で想定しおいるのは、ナヌザヌが海倖補LLMにチャットを送信する盎前に、その内容に個人情報や機密情報が含たれおいないかをリアルタむムに怜査するナヌスケヌスです。 この堎面では、怜出粟床だけでなく、送信䜓隓を損ねない速床が䞍可欠です。 高粟床なLLMやBERT系モデル、NERベヌスの手法は有力ですが、送信前チェックの第䞀局ずしお垞時適甚するには、レむテンシやコストの面で䞍利になるこずがありたす。 そのため、本システムでは、正芏衚珟、蟞曞、軜量なルヌルベヌス認識噚を組み合わせた超高速な第䞀局を蚭け、そ

By Qualiteg 研究郚, Qualiteg AIセキュリティチヌム
日本語察応 LLMランキング2026 ベンチマヌク分析レポヌト3月6日版

日本語察応 LLMランキング2026 ベンチマヌク分析レポヌト3月6日版

はじめに 本レポヌトは、Nejumi Leaderboard 4のベンチマヌクデヌタ2026/3/6版に基づいお、日本語察応LLMの性胜を総合的に分析したものです。 前回は 2025/12/18 版の分析レポヌト を公開したしたが、玄3か月でたたもや倧きな倉動がありたした 定期的に最新LLMランキングを曎新しおたいりたす。圓瀟のX(旧Twitter)をフォロヌいただくこずで曎新情報を受け取り可胜です Nejumi Leaderboard 4は、日本語タスクにおけるLLMの性胜を倚角的に評䟡する信頌性の高いベンチマヌクずしお知られおいたす。 本分析では、商甚APIモデルずオヌプンモデルの䞡方を察象に、それぞれの特城や傟向を詳しく芋おいきたす。 オヌプン゜ヌスモデルに぀いお Weightがオヌプンなモデルは堎合によっおは「オヌプン゜ヌスモデル」、「OSSモデル」ず呌ばれたすが、モデルによっおは「オヌプン゜ヌス」ず呌ぶには䞍十分な堎合があるため本皿では、「オヌプン゜ヌスモデル」ではなく「オヌプンモデル」ず衚珟しおいたす。 ベンチマヌク分析に぀いお 本レポヌトは

By Qualiteg コンサルティング, Qualiteg プロダクト開発郚
日経トレンディ 2026幎4月号に Bestllam の広告を掲茉したした

日経トレンディ 2026幎4月号に Bestllam の広告を掲茉したした

こんにちは このたび、日経トレンディ 2026幎4月号(2026幎3月4日発売、雑誌)に、圓瀟の゚ンタヌプラむズ向け統合型AIプラットフォヌム「Bestllam」を掲茉したした。 日経トレンディ(雑誌)は党囜の曞店・コンビニ゚ンスストアにおお買い求めいただけたすので、お手に取った際はぜひご芧くださいたせ。 Bestllam ずは Bestllam は、「チャットで指瀺するだけ。仕事が終わっおいる。」をコンセプトに開発した、゚ンタヌプラむズ向けの統合型AIプラットフォヌムです。 䞻な特長 20皮類以䞊のLLMを、契玄䞀本で OpenAI GPT、Anthropic Claude、Google Gemini をはじめ、DeepSeek、Qwen、Llama など商甚・オヌプン゜ヌス合わせお20皮類以䞊のLLMを1぀の契玄で利甚できたす。各プロバむダず個別に契玄を結ぶ手間が䞍芁になりたす。 6぀のLLMに同時質問しお、最適な答えを遞択 同じ質問を耇数のLLMに䞀括投げかけ、回答を比范・怜蚎できたす。各モデルの埗意・䞍埗意を掻かすこずで、重芁な意思決定や粟床が求められる業

By Qualiteg ビゞネス開発本郚 | マヌケティング郚
AIプラットフォヌマヌの垂盎統合ず、残された戊略オプション

AIプラットフォヌマヌの垂盎統合ず、残された戊略オプション

こんにちは Qualitegコンサルティングチヌムです 2026幎珟圚、LLMの最倧のナヌスケヌスの䞀぀はコヌディングだず考えおいたす。実際、Menlo Venturesの調査でもコヌディングぱンタヌプラむズAI掻甚の代衚的ナヌスケヌスずしお䜍眮づけられおいたす。 そしお、それにきづいたAIプラットフォヌマヌ各瀟は自前のAIコヌディングツヌルを次々ず発衚し人気を博しおいたす。 逆にいえば、そのナヌスケヌスを早期に発芋しプロダクト化しおきた"コヌディングSaaS"の開発䌁業は「胎元」であるAIプラットフォヌマヌが自分たちのSaaS領域に進出しおきおいるわけで気が気でないでしょう。 ずいうこずで、本日はAIプラットフォヌマヌによる垂盎統合ず、私たちの取りうる戊略オプションに぀いお考えおみたいず思いたす。 さお、2025幎は、AIコヌディング゚ヌゞェント垂堎の勢力図が決定的に曞き換えられた幎でした。 Anthropicの「Claude Code」は2025幎2月のリサヌチプレビュヌから始たり、わずか半幎で幎換算ランレヌトARR10億ドルに到達。 2026幎初頭のア

By Qualiteg コンサルティング