TensorRT-LLM v 0.11.0.dev2024051400 の動作確認
こんにちは、株式会社 Qualiteg プロダクト開発部です!
TensorRT-LLM は FasterTransformerの後継ともいえるNVIDIA製 推論エンジンで、当社ChatStreamの推論エンジンとしても選択可能です。
vLLMと同じく新しいモデル対応が早く、既存モデルも豊富にサポートされています。
昨日 大型コミットが入りましたので動作確認をしました。(マルチモーダルモデルNeva,Kosmos2に対応など。)
TensorRT-LLM のサポートしている、モデルアーキテクチャは以下のとおりです。
LLM
Baichuan, BART, BERT, Blip2, BLOOM, ChatGLM, DBRX, FairSeq NMT, Falcon, Flan-T5, Gemma, GPT, GPT-J, GPT-Nemo, GPT-NeoX, InternLM, LLaMA, LLaMA-v2, Mamba, mBART, Mistral, MPT, mT5, OPT, Phi-1.5/Phi-2, Qwen, Qwen-VL, Replit Code, RoBERTa, SantaCoder, Skywork, Smaug, StarCoder, T5, Whisper
マルチモーダル
BLIP2 w/ OPT-2.7B, BLIP2 w/ T5-XL, CogVLM, Deplot, Fuyu, Kosmos-2, LLaVA-v1.5-7B, NeVA, Nougat family Nougat-small, Nougat-base, VILA
動作確認
安定した推論環境提供のため常に TensorRT-LLM 最新ビルドの動確をしております。今回も専用 Docker コンテナを使用して最新版の動確をしました。
今日はまず手動確認をしてみましたので、ご紹介します
TensorRT-LLMコンテナ起動。
モデルファイル等は ホストUbuntu /home/mlu/TensorRT-LLM
側に配置されている前提。
docker run --rm -it --ipc=host --ulimit memlock=-1 --ulimit stack=67108864 \
--gpus=all \
--volume /home/mlu/TensorRT-LLM:/code/tensorrt_llm \
--env "CCACHE_DIR=/code/tensorrt_llm/cpp/.ccache" \
--env "CCACHE_BASEDIR=/code/tensorrt_llm" \
--workdir /app/tensorrt_llm \
--hostname LLM-Inf-Dev-release \
--name tensorrt_llm-release-mlu \
--tmpfs /tmp:exec \
tensorrt_llm_qs_ready
TensorRT-LLM のクイックスタートでおなじみ llama2-chat サンプルディレクトリに移動
cd /code/tensorrt_llm/examples/llama/
推論実行
浅草のオススメスポットをきいてみましょう。
python3 ../run.py --engine_dir ./llama-2-7b-engine \
--max_output_len 1024 \
--tokenizer_dir ./meta-llama/Llama-2-7b-chat-hf \
--input_text "What are the recommended tourist spots in Asakusa?"
実行結果は以下動画にて。
(株)QualitegのChatStreamは 推論エンジンとして Classic Transformer,vLLM,DeepSpeed,TensorRT-LLM をサポートしております。
高速LLMサービング、省GPUメモリ、分散推論、量子化の要求に応じて最適な推論エンジンを選択することができます。
LLMの推論環境、サービングに関するお悩み、ご相談くださいませ