(株)Qualiteg - ChatStream Guide

LLM

LLM推論基盤プロビジョニング講座　第4回推論エンジンの選定

こんにちは！前回までの講座では、LLMサービス構築に必要なリクエスト数の見積もりや、使用モデルの推論時消費メモリ計算について詳しく解説してきました。今回は7ステッププロセスの4番目、「推論エンジンの選定」について詳しく掘り下げていきます。推論エンジンとは何か推論エンジンとは、GPU上でLLMモデルの推論計算（テキスト生成）を効率的に行うために設計された専用のソフトウェアプログラムです。一般的なディープラーニングフレームワーク（PyTorch、TensorFlowなど）でも推論は可能ですが、実運用環境では専用の推論エンジンを使用することで、大幅なパフォーマンス向上とリソース効率化が期待できます。推論エンジンは単なる実行環境ではなく、様々な最適化技術を実装しています。特定のモデルアーキテクチャに特化した最適化機能を実装したものや、推論速度の高速化に特化したもの、前回解説したKVキャッシュのメモリ効率化機能を備えたものなど、それぞれ特徴が異なります。そのため、自社で採用したLLMモデルや運用環境、要件に合致した推論エンジンを選定することが重要です。推論エンジン選定のアプロ

ChatStream Guide

chatstream.net のクエリパラメータ仕様

chatstream.net は(株)Qualiteg が運用するサービスで、世界中で公開されている最新のLLMをいちはやく体験することができます。特定の LLM を開いてじっくりチャットをしたり、複数のLLM を開いて協調的につかってみたり、LLM同士で出力を比較させたり、LLMのもつポテンシャルを感じていただけるようになっています。たとえば、PCブラウザでURLを開くと、4つのLLMを同時に開いて、同時にチャットを行うことができます。このようにお好みに応じてチャットを制御することができるのがURLパラメータです。 https://chatstream.net/?ws_name=chat_app&mult=1&ontp=1&isync=1&model_id=llama_3_elyza_jp_8b&model_id=openai_gpt_3_5_

ChatStream Guide

LLMサンプリングにおける3つのペナルティ

[付録]ペナルティの比較ペナルティタイプ目的適用方法ペナルティの例 Repetition Penalty 特定のトークンやフレーズが繰り返されるのを防ぐ。過去に生成されたすべてのトークンのログ確率（logits）に対してペナルティを適用する。例えば、あるトークンがすでに生成された場合、そのトークンのログ確率をペナルティ値で割る（乗算）か、ペナルティ値を引く（減算）。 Frequency Penalty 生成されたトークンの出現頻度に基づいてペナルティを適用し、頻繁に出現するトークンを抑制する。各トークンが生成された回数に基づいてペナルティを適用する。トークンが出現するたびに、そのトークンの出現確率を低減させる。トークンが出現するたびに、そのトークンのログ確率をペナルティ値で累積的に割る（乗算）か、ペナルティ値を累積的に引く（減算）。 Presence Penalty すでに生成されたトークンが再度出現するのを防ぐ。トークンが一度でも生成されたかどうかに基づいてペナルティを適用する。一度生成されたトークンには再出現の際にペナルティが適用さ

ChatStream Guide

LLM サービング効率化の為のPagedAttention

こんにちは、株式会社Qualitegプロダクト開発部です。今日は商用LLM サービングに欠かせない PagedAttention 技術をご紹介しますはじめに PagedAttention は当社にとって非常に重要な技術です PagedAttentionを活用するとLLMでの文章生成において GPUメモリの利用効率をあげ、そのぶん単位GPUあたりの同時に捌けるリクエストを増やすことができます。当社は「ChatStream」という商用のLLMサービングプラットフォームを開発・提供しているため、多ユーザーからの同時リクエストによる高負荷環境でのLLMサービング(文章生成の提供)は、ドドド真ん中の課題ということになります。 PagedAttention登場以前の従来の並列生成はKVキャッシュとよばれる”リクエストごとに発生する大きなGPUメモリ消費”との戦いでした。 (KVキャッシュは transfomerのmodelを生で叩くときに past_key_values として登場します）つまりモデルのパラメータとは別に発生する推論時のメモリ消費です。これが同時に

ChatStream Guide

[ChatStream] meta-llama/Meta-Llama-3-8B-Instruct 用の ChatPromptクラス

昨日(2024/4/19) に発表になった Llama3 用の ChatPrompt クラス※をご紹介します。 from chatstream import AbstractChatPrompt SYSTEM_PROMPT = """\ You are a helpful, respectful and honest assistant. Always answer as helpfully as possible, while being safe. Your answers should not include any harmful, unethical, racist, sexist, toxic, dangerous, or illegal

ChatStream Guide

RakutenAI-7B-chat を使用したチャットアプリケーションを5分で作る

こんにちは、株式会社 Qualiteg プロダクト開発部です。今日は、 RakutenAI-7B-chat と ChatStream 0.7.0 を使用して本格的なチャットアプリケーションを作っていきましょう。 RakutenAI-7B-chat は Mistral 7B を日本語継続学習させたモデルで、チャットチューニングが行われており、日本語LLM リーダーボード https://wandb.ai/wandb-japan/llm-leaderboard/reports/Nejumi-LLM-Neo--Vmlldzo2MTkyMTU0でも上位にランクされている期待大のモデルです。ソースコード早速ですが、以下がソースコードとなります。 4bit 量子化をしているため、使用する GPU は A4000 (16GB) 程度で快適に動作します。 import logging import torch import uvicorn from fastapi import FastAPI from transformers

ChatStream Guide

[ChatStream] Rakuten/RakutenAI-7B-chat用の ChatPrompt

昨日発表された Rakuten/RakutenAI-7B-chat 用の ChatPrompt をご紹介します from chatstream import AbstractChatPrompt SYSTEM_PROMPT = """\ A chat between a curious user and an artificial intelligence assistant. The assistant gives helpful, detailed, and polite answers to the user's questions. \ """ class ChatPromptRakutenMistral(AbstractChatPrompt): def __init__(self): super(

ChatStream Guide

[ChatStream] lightblue/karasu-7B-chat-plus 用 ChatPrompt

こんにちは！ (株)Qualiteg プロダクト開発部です！本稿では lightblue/karasu-7B-chat-plus 用の ChatPrompt をご紹介します。旧バージョンの ChatStream をご利用のお客様は本ChatPromptをインポートすることで利用可能となります。（最新の配信バージョンではバンドルされております） from chatstream import AbstractChatPrompt from chatstream.chat_prompt.role_type import RoleType SYSTEM_PROMPT = """\ あなたはAIアシスタントです。\ """ class ChatPromptLightblueKarasuChatPlus(AbstractChatPrompt): def __init__(self): super().__init__() # Call the initialization of the base

ChatStream Guide

[ChatStream] Llama2 対応の ChatPrompt実装

こんにちは！ (株)Qualiteg プロダクト開発部です！本稿では、 ChatStream にLlama2 対応の ChatPrompt を同梱いたしましたのでご紹介いたします！現在の ChatPrompt は以下とおりとなっております。旧バージョンのChatStreamをご利用の場合も、以下コードにて Llama2対応可能です。（もちろん最新バージョンのChatStreamには同梱済です） from chatstream import AbstractChatPrompt from chatstream.chat_prompt.role_type import RoleType SYSTEM_PROMPT = """\ You are a helpful, respectful and honest assistant. Always answer as helpfully as possible, while

ChatStream Guide

[ChatStream] rinna/nekomata-14b-instruction 用の ChatPromptクラス

2023/12/21 に発表された rinna/nekomata-14b-instruction 用の ChatPrompt をご紹介します nekomataシリーズは Qwen をベースモデルしているおり、語彙サイズが 15.2万とこれまでより大幅に大きいため、日本語対応にもおおいに期待できそうですね今回はInstructionチューニングされたモデルをChatStreamのチャットモードで利用するためのChatPromptを作りました。設計思想としましては、あるタスクとChatPrompt を対応させる、という考え方です。簡単にいうと、１つのChatPromptは１つの仕事に特化させる、というところでしょうか。たとえば、今回は、「翻訳」というタスクに特化した ChatPrompt の例です。これにより　翻訳　というタスクに対して、　「入力」と「出力」というをチャットインタフェースを通して行います。 from chatstream import AbstractChatPrompt from chatstream.chat_prompt.prompt_ttl im

ChatStream Guide

[ChatStream] 時間のかかるモデル読み込みにプログレスバーをつける

こんにちは (株)Qualiteg プロダクト開発本部です！ HuggingFace の LLMのモデル読み込み時間ってとても長いですよね、そんなときに、便利なツールをご紹介します。 HuggingFace の LLM モデルはダウンロードするときは、進捗がでるのですが、ひとたびダウンロードしたあとは、読み込むまで短くて数分、長くて数十分待たされます。これはディスクからモデルデータ（weights and bias）を処理しながらGPUのVRAMに読み込む処理に時間がかかるのですが、その読み込み状態がいったいいまどのくらいなのか、これがわからず、ヤキモキしたことは無いでしょうか。そこでは ChatStreamの便利機能として、以下のように、このモデル読み込み時間のプログレス表示をすることができます。仕掛けはいたってシンプルで、初回の読み込み実行時に処理時間を計測しておき、2回目、また同じ処理が呼ばれたときはプログレスバーを表示します。使い方も簡単で、モデルの読み込みを LoadTime でラップするだけで、プログレスバーつきで読み込むことができます Before

ChatStream Guide

[ChatStream] Transformer応答をモックする Transformer Mock

こんにちは！ (株)Qualiteg プロダクト開発部です！本稿では、モックデータの作成方法について説明します！　これは正式には「Transformer Mock」と呼ばれている機能のためのもので、実際のLLM出力をレコーディングして再現するためのものです。なぜこんなことが必要かというと、 LLM アプリのテスト（単体テストなど）で使用します。LLMアプリのテストをするとき、古典的な単体テストでは、入力に対して期待する出力は固定されていることが前提です。ところがLLMはその特性上、同一の入力に対しても毎回異なる応答を返してきます。そこが生成AIの良いところですが古典的な単体テストをするときには悩んでしまいます。ここで賢い読者の皆様は、同一の入力に対して、同一の出力を得たいなら、シードを固定すればいいじゃん。とお考えの方もいらっしゃるとおもいますが、シード値を固定して、入力を固定して、各種サンプリングパラメータを固定しても GPUの種類が異なると異なる出力を出してしまう、ということがわかっています。これでは、GPUを変更したとたんに単体テストが通らなくなって困ってし

ChatStream Guide

[ChatStream] LLMの読み込みが長いときは Generator Mock レスポンス

こんにちは！ (株)Qualiteg プロダクト開発部です！本稿では、LLMの読み込みに時間がかかるときに使えるテクニックについてご紹介いたします。テスト用途や、ChatStream の API をつかったサンプルアプリを実装したいときに、何度か ChatStream を再起動しては、試してみたいというシーンがあります。そういうときに、本来は LLM として読み込まなくても、ChatStreamのAPIにそった”決まり切った”レスポンスで問題がないという場合があります。このとき、サイズの小さなLLMを読んで読み込み時間を短縮するというワザもあるのですが、そもそも、固定的なレスポンスを返してくれればそれでOKという場合は、 Mockレスポンス　を指定することができます。再起動のたびに、 LLM を読み込む時間にストレスを感じていた方はぜひこちらをお試しくださいませ！ Generator Mockレスポンスの利用（高速起動） Generator Mockレスポンスを使用すると読み込みに時間のかかる事前学習済言語モデルのかわりに、ダミーの文章を生成させることがで

ChatStream Guide

[ChatStream] コンソールチャットの作成

こんにちは！ (株)Qualiteg プロダクト開発部です！本稿では、 ChatStream を使って、コンソールチャットを作成する方法について説明いたします！ handle_console_input メソッドを使用することで CLI ベースのチャットを簡単に作成しモデルを試すことができます chat.py import asyncio import torch from transformers import AutoTokenizer, AutoModelForCausalLM from chatstream import ChatStream, ChatPromptTogetherRedPajamaINCITEChat as ChatPrompt, LoadTime model_path = "togethercomputer/RedPajama-INCITE-Chat-3B-v1" device = "cuda" # "cuda" / "cpu"

ChatStream Guide

[ChatStream] Web サーバー(ASGI server) の起動

こんにちは！ (株)Qualiteg プロダクト開発部です！本稿では、 ChatStream 搭載した Webサーバーの起動方法について説明いたします！ uvicorn(内部起動) ChatStreamは FastAPI/Starlette に対応しているため、 ASGI サーバーで動作させることができます。 uvicorn をコード内で定義するには以下のように実装します def start_server(): uvicorn.run(app, host='localhost', port=9999) def main(): start_server() if __name__ == "__main__": main() ソースコード全体 import torch import uvicorn from fastapi import FastAPI,

ChatStream Guide

[ChatStream] キューイングシステムと同時処理制限

こんにちは！ (株)Qualiteg プロダクト開発部です！本稿では、 ChatStream のキューイングシステムについてご説明いたします！キューイングシステムとは ChatStream は多数同時アクセス要求が来たときに、リクエストをキューイングし、同時に実行できる文章生成の数を制限することができます。 GPU や CPU の性能に応じて、文章生成処理の同時実行数を制限することで、良好な応答性能を得ることができます。また同時実行数を超えるリクエストがあった場合はリクエストをキューイング（待ち行列に追加）し、順次実行することで、負荷を適切にコントロールします。同時実行とは同時実行とは　1GPU で実行する場合には、正確には同時実行ではなく並行実行(concurrent) となります。同時実行数をセットすると、その数だけ並行実行されます。たとえば、同時実行数の最大値が2に設定されている状態で、2人のユーザー1、ユーザー2　が同じタイミングにリクエストしてきた場合 2人のリクエストは処理キュー（文章生成中をあらわす

LLM推論基盤プロビジョニング講座 第4回 推論エンジンの選定

chatstream.net のクエリパラメータ仕様

LLMサンプリングにおける3つのペナルティ

LLM サービング効率化の為のPagedAttention

[ChatStream] meta-llama/Meta-Llama-3-8B-Instruct 用の ChatPromptクラス

RakutenAI-7B-chat を使用したチャットアプリケーションを5分で作る

[ChatStream] Rakuten/RakutenAI-7B-chat用の ChatPrompt

[ChatStream] lightblue/karasu-7B-chat-plus 用 ChatPrompt

[ChatStream] Llama2 対応の ChatPrompt実装

[ChatStream] rinna/nekomata-14b-instruction 用の ChatPromptクラス

[ChatStream] 時間のかかるモデル読み込みにプログレスバーをつける

[ChatStream] Transformer応答をモックする Transformer Mock

[ChatStream] LLMの読み込みが長いときは Generator Mock レスポンス

[ChatStream] コンソールチャットの作成

[ChatStream] Web サーバー(ASGI server) の起動

[ChatStream] キューイングシステムと同時処理制限

LLM推論基盤プロビジョニング講座　第4回推論エンジンの選定