(株)Qualiteg - Qualiteg プロダクト開発部

PyTorch

PyTorchバージョンとNVIDIA GPU Compute Capability Level サポート

古いPyTorchコード資産を持っている会社は、昔のコードが最新のPyTorchで動かない！最新のGPUで動かない！ということに遭遇することが多いのでしょうか。今回は、PyTorchバージョン、対応GPU Capability Level 、対応CUDAバージョンについてまとめてみます。 PyTorchがサポートするGPUの Compute Capability PyTorch バージョンサポートされる Compute Capability (SM) レベル 1.0.0 - 1.3.1 SM_35, SM_37, SM_50, SM_60, SM_61, SM_70 1.4.0 - 1.7.1 SM_37, SM_50,

NumPy/PyTorch

【極めればこのテンソル操作】tensor.unsqueeze(0)と array[None] の違い

今日は、 unsqueeze(0) の解説しつつ、私たちがよく直面する「あるある」な問題についてもちょこっと話してみたいと思います。「value.unsqueeze(0)」と「value[None]」の見分けついていますか？はい、前者は主に PyTorch、後者は NumPyでの操作の違いです。でもどちらも、ぱっとみは、先頭に新しく次元を追加する操作なので、コードをちらっとみただけではわからないことがありますよね。なぜかというと、ディープラーニング系のプログラミングでは PyTorchのテンソルと、NumPyの配列操作がかなり入り混じるからです。そう、今日の話題はPyTorchとNumPyのコードが入り乱れて、どっちの配列（テンソル）を扱っているのわけワカメになる問題です。ちなみに、話題のテーマをブラさないように PyTorchでは先頭に新しい次元を追加するときに unsqueeze(0) だけでなく [None] も使えてしまいますが、いったん[None]は NumPy で主に使用する操作という前提で説明させてくださいませ。^^; これに対する当

NumPy/PyTorch

【極めればこのテンソル操作】reshape(N,-1)

NumPy reshape: データ形状を自在に操る方法 NumPyのreshape関数は、多次元配列の形状を変更する強力なツールです。この記事では、reshapeの基本的な使い方から応用まで、具体例を交えて詳しく解説します。 1. reshape の基本 reshapeは、配列の要素数を変えずに形状を変更します。 import numpy as np # 1次元配列を作成 arr = np.array([1, 2, 3, 4, 5, 6]) print("Original array:", arr) print("Shape:", arr.shape) # 2x3の2次元配列に変形 reshaped = arr.reshape(2, 3) print("\nReshaped to 2x3:

NumPy/PyTorch

【極めればこのテンソル操作】permute(1,0)

本記事はPyTorch,NumPy でよくつかうテンソル操作を、頭でしっかりイメージできるようにするための機械学習エンジニア初心者向けシリーズです！「厳密な正しさ」をもとめるリファレンス的なものではなく、現場でつかうソースコードに頻出するコードで覚えていきましょう。今日は permute (1,0) permute操作は、テンソルの次元の順序を変更するためによく使用されます。permuteメソッドの引数は、並び替えの順番を指定します。 permute(1,0)は2次元のテンソルにおいては、「転置」テンソルを作る役割を果たします。なぜそうなのか、順を追ってみていきましょう！それでは早速以下のような 2×3 なテンソルを考えてみましょうこのテンソルは2次元なので、表で表現できますね。このとき、このテンソルは PyTorchでは以下のように定義できます。 import torch x = torch.tensor([[1, 2, 3], [4, 5, 6]]) このテンソルの「形状」は、上でもかいたとおり　2 × 3 です

LLM セキュリティ

LLM-Audit ～LLMへの攻撃と防衛の最前線～

はじめに人工知能技術の急速な進化により、大規模言語モデル（LLM）は多くの企業や組織にとって不可欠なツールとなっています。自然言語処理、コード生成、データ分析など、LLMの応用範囲は日々拡大し、ビジネスプロセスの効率化や創造的タスクの支援など、幅広い分野で革新をもたらしています。しかし、この革新的な技術の普及に伴い、新たなセキュリティリスクも浮上しており、企業はこれらのリスクに対する適切な対策を講じる必要に迫られています。本記事では、当社が開発したLLMセキュリティソリューション「LLM-Audit」をご紹介します。LLM-Auditは、LLMの入力と出力を徹底的に監査し、セキュリティリスクを最小限に抑える包括的なセキュリティ＆セーフティ実現ソリューションです。従来のセキュリティ対策では対応が難しいLLM特有の脆弱性や、日本語環境特有の課題に対しても高度な保護を提供します。動画本記事の内容はこちらの動画でもご覧いただけます。 LLMセキュリティの重要性 LLMのセキュリティ管理が不十分な場合、企業は深刻な結果に直面する可能性があります。最も懸

LLM

Meta社が発表した最新の大規模言語モデル、Llama 3.1シリーズの紹介

2024年7月23日、Meta社が最新の大規模言語モデル、Llama 3.1シリーズを発表しました。この記事では、Llama 3.1シリーズの特徴と性能、そして実際の使用例を紹介します。以下、動画にもまとめてありますので、あわせてごらんいただければと思います。 Llama 3.1シリーズの主な特徴 Llama 3.1シリーズは、8B、70B、405Bの3つのモデルサイズで提供されています。主な特徴は以下の通りです： * 一般的な知識、操縦性、数学、道具の使用、多言語翻訳におけるトップAIモデルに匹敵する初のオープンLLM * コンテクストは128Kトークン * 8言語に対応した多言語モデル（ただし日本語は含まれず） * 15兆以上のトークンでトレーニングモデルサイズ別の特徴 * 8Bモデル: モバイルデバイスや小規模なシステムでの使用に適しており、リソースが限られた環境でも高性能を発揮 * 70Bモデル: 多くのタスクで405Bモデルに近い性能を示しながら、より少ないコンピューティングリソースで運用できる優れたバランスを提供 * 405Bモデル: 最高

LLM

Mistral AI社の最新LLM「Mistral NeMo 12B」を徹底解説

こんにちは。今回は2024年7月19日にリリースされたMistral AI社の最新LLM「Mistral NeMo 12B」をご紹介します。本モデルの特徴や性能を解説し、実際にChatStreamを使用してチャットの使用感を確かめていきます。 Mistral NeMo 12Bとは Mistral NeMo 12BはMistral AI社がNVIDIAと協力して開発した最新モデルです。Apache2ライセンスを採用しており、自由に使用、変更、配布が可能な非常に自由度の高いモデルとなっています。解説動画本記事の内容は以下の動画にもまとめてありますので、あわせてごらんくださいませ主な特長本モデルには3つの大きな特長があります： 1. 大きなコンテクストサイズと高い推論性能 2. 多言語性能 3. 効率的なトークナイザー 1. 大きなコンテクストサイズと高い推論性能 Mistral NeMo 12Bは120億パラメータの比較的小型のモデルですが、同サイズカテゴリーの中でも高い性能を発揮しています。Google社のGemma2 9BやMeta社の

LLM

革新的なコード生成LLM "Codestral Mamba 7B" を試してみた

今日は、2024年7月16日にリリースされた新しいコード生成LLM、"mistralai/mamba-codestral-7B-v0.1"（通称：Codestral Mamba 7B）を試してみました。このモデルは、新しいMambaアーキテクチャを採用しており、Apache2ライセンスで公開されています。コード生成のSOTAモデルに迫る性能 Mamba アーキテクチャを採用した Codestral 7B ですが、Human Eval で 75% を達成しており、Transformerベースのコード生成 SOTA モデルと同等のパフォーマンスを実現しています。さらに、シーケンス長に対しての処理劣化がないため、かなり期待のできるモデル＆アーキテクチャといえますね。動画にまとめています "mistralai/mamba-codestral-7B-v0.1" の試用レポートはこちらの動画にもまとめてありますので、よろしければ、こちらもご覧くださいませ Codestral Mamba 7Bの特徴 1. 無限の長さのシーケンスをモデル化する能力 2. 長いシー

FP8やFP4のネイティブサポートと vLLM をつかった "fp8" 量子化

こんにちは、(株)Qualiteg プロダクト開発部です最新モデルがリリースされたとき、推論速度を速くするために、いろいろな手法で量子化したり、複数の推論エンジンを使い分けたりしながら、正解をさがしにいくことが多いのですが、今回はそんな中で以下のような事象が発生いたしました。当社もありとあらゆるGPUを取り揃えているわけではないので、あー、そういうことかぁ、と思ったので、本ブログにいたしました。発生したエラー vLLM 0.5.1 であるLLMをロードしようとしたときに発生したときに、以下のようなエラーが発生しました ValueError: The quantization method fp8 is not supported for the current GPU. Minimum capability: 89. Current capability: 86 原因は FP8 に対応していないGPU世代 GPUは NVIDIA RTX-A6000 で、以下のように OpenAI 互換サーバーで

ChatStream

CyberAgentLM3-22B-Chat(cyberagent/calm3-22b-chat) 徹底解説

こんにちは、(株)Qualiteg プロダクト開発部です。本日は昨日プレスリリースされたサイバーエージェント社の最新LLM CyberAgentLM3-22B-Chat(cyberagent/calm3-22b-chat) について、ファーストルックレポートを行います。デモ実際に、以下サイトで calm3-22b-chat とチャットお試し可能です https://chatstream.net/?ws_name=chat_app&mult=0&ontp=1&isync=1&model_id=calm3_22b_chat オープン・フルスクラッチモデルでリーダーボード最高評価本モデルは、このモデルは、既存モデルをベースに用いずスクラッチで開発を行なった225億パラメータのモデルで Nejumi LLM リーダーボード3の総合評価で 700億パラメータのMeta-Llama-3-70B-Instructと同等性能となっているようです。継続事前学習ではなく、フルスクラッチの日本語ＬＬＭという点にも注目です。以下は日本語ＬＬＭリーダーボード１

日々の開発Tips

RuntimeError: implement_array_function method already has a docstring というエラーが発生したとき

以下のようなエラーが発生したとき、 RuntimeError: implement_array_function method already has a docstring このエラーメッセージは、numpyパッケージ内で発生している問題のようです。特に、implement_array_functionメソッドに既にドキュメンテーションが存在しているというエラーで、これは通常、互換性のないバージョンのnumpyを使用している場合に発生するようです。次の対策でエラーは発生しなくなりました pip install numpy==1.19.5

ChatStream

ChatStream🄬でLlama-3-Elyza-JP-8B を動かす

こんにちは、本日は Llama-3-Elyza-JP-8B を使ってみました。昨日 2024年6月26日に発表(https://prtimes.jp/main/html/rd/p/000000046.000047565.html)された Llama-3-Elyza-JP-8B は 70B 版では「GPT-4」を上回る性能の日本語LLMといわれています。今回、当社でも Playground 環境に Llama-3-Elyza-JP-8B を搭載して試してみましたのでご紹介します。 70B(700億パラメータ)版は GPT-4 を上回るとのことですので、8B(80億パラメータ）版はGPT-3.5 と比較してみることにいたしました。（性能比較は https://note.com/elyza/n/n360b6084fdbd の記事に詳しく書いてあります。） AWQ量子化版を使用してみる今回は、A4000

日々の開発Tips

AttributeError: module 'torch._dynamo' has no attribute 'mark_static_address' が発生したときの対処法

以下のようなエラーが出た場合の対処法 File "/venv/Lib/site-packages/torch/utils/_contextlib.py", line 115, in decorate_context return func(*args, **kwargs) ^^^^^^^^^^^^^^^^^^^^^ File "/venv/Lib/site-packages/transformers/generation/utils.py", line 1744, in generate model_kwargs["past_key_values"] = self._get_cache( ^^^^^^^^^^^^^^^^ File "/venv/Lib/site-packages/transformers/

日々の開発Tips

NVIDIA GPU と Capability Level

NVIDIA GPU の Capability Level の一覧です。推論エンジンがサポートする各種アクセラレーション機能は Capability Level により搭載されるハードウェアアクセラレータや専用機能が異なります。データセンター/プロ向けGPU GeForce GPU Capability Level 世代名 NVIDIA B200 - 100 Blackwell NVIDIA B100 - 100 Blackwell NVIDIA H200 - 90 Hopper NVIDIA H100 - 90 Hopper NVIDIA L4 - 89 Ada Lovelace NVIDIA L40 - 89 Ada Lovelace RTX

日々の開発Tips

【GPT4o対応】OpenAI API のPythonサンプルコードと出力例

今回は、OpenAI の API 利用サンプルコードをご紹介します。 OpenAI API は OpenAI純正のAPI のみならず、vLLMなど他の推論エンジンでも OpenAI 準拠のAPIサーバーが公開されており、LLMサービングAPIのデファクトとなりつつありますので、コーディングのお作法をおさえておきましょう。 OpenAI の GPT シリーズのAPIにアクセスするための、シンプルなサンプルコードは以下のようになります。生成結果をストリーミングで逐次受信してみましょう。サンプルコード:クイックスタート import asyncio import os import traceback from openai import AsyncOpenAI async def main() -> None: try: # モデル名を指定 # model="gpt-4-turbo" # $10.00/MTok for input

NumPy/PyTorch

推論時torch.tensor(sourceTensor)ではなくて、sourceTensor.clone().detach()を使おう

PyTorchのテンソル操作最適化: 警告メッセージの理解と解決こんにちは！ Qualiteg プロダクト開発部です。 PyTorch 1.13にて、次のような警告メッセージに遭遇しました UserWarning: To copy construct from a tensor, it is recommended to use sourceTensor.clone().detach() or sourceTensor.clone().detach().requires_grad_(True), rather than torch.tensor(sourceTensor). この記事では、この警告の意味を解説し、修正方針についてかきたいとおもいます。 torch.tensor() よりも .clone().detach() のほうがおすすめなのかそれは、PyTorchがテンソルと自動微分（オートグラッド）をどのように扱うかに関係があります。 torch.

Qualiteg プロダクト開発部

PyTorchバージョンとNVIDIA GPU Compute Capability Level サポート

【極めればこのテンソル操作 】tensor.unsqueeze(0)と array[None] の違い

【極めればこのテンソル操作 】reshape(N,-1)

【極めればこのテンソル操作】permute(1,0)

LLM-Audit ～LLMへの攻撃と防衛の最前線 ～

Meta社が発表した最新の大規模言語モデル、Llama 3.1シリーズの紹介

Mistral AI社の最新LLM「Mistral NeMo 12B」を徹底解説

革新的なコード生成LLM "Codestral Mamba 7B" を試してみた

FP8やFP4のネイティブサポートと vLLM をつかった "fp8" 量子化

CyberAgentLM3-22B-Chat(cyberagent/calm3-22b-chat) 徹底解説

RuntimeError: implement_array_function method already has a docstring というエラーが発生したとき

ChatStream🄬でLlama-3-Elyza-JP-8B を動かす

AttributeError: module 'torch._dynamo' has no attribute 'mark_static_address' が発生したときの対処法

NVIDIA GPU と Capability Level

【GPT4o対応】OpenAI API のPythonサンプルコードと出力例

推論時torch.tensor(sourceTensor)ではなくて、sourceTensor.clone().detach()を使おう

【極めればこのテンソル操作】tensor.unsqueeze(0)と array[None] の違い

【極めればこのテンソル操作】reshape(N,-1)

LLM-Audit ～LLMへの攻撃と防衛の最前線～