(株)Qualiteg - IT & AIテクノロジー

LLM

日本語対応！Mistral Small v3 解説

こんにちは！ Mistral AIは2025年1月30日、新しい言語モデル「Mistral Small v3」を発表しました。このモデルは、24Bという比較的小規模なパラメータ数ながら、70B以上の大規模モデルに匹敵する性能を実現しています。また日本語対応も謳われており期待の高い小型モデルです！ https://huggingface.co/mistralai/Mistral-Small-24B-Instruct-2501 動画こちら本ブログの解説動画もご覧いただけます😊 きわだってるのは、レイテンシー最適化 Mistral Small 3のめだった特徴は、その処理性能とレイテンシーの絶妙なバランスではないでしょうか。公開されている以下の性能評価のグラフによると、トークンあたり約11ミリ秒という業界最速レベルのレイテンシーを達成しています。これは、Qwen-2.5 32Bの約15ミリ秒やGemma-2 27Bの約14ミリ秒と比較して、明確な優位性を示しています。さらに注目すべきは、GPT-4o Miniと比較しても、より低いレイテンシーで同等以上の性能を実現し

LLM

[vLLM] To use CUDA with multiprocessing, you must use the 'spawn' start method の対処法

WSLで vLLM を使用するとき、 tensor parallel を使って複数枚のGPUで1つのLLMをサーブしようとしたとき以下のようなエラーが発生しがちです RuntimeError: Cannot re-initialize CUDA in forked subprocess. To use CUDA with multiprocessing, you must use the 'spawn' start method 遭遇するシーンとしてはvLLMの起動オプションに以下のようにテンソル並列化オプションを指定したときです。 --tensor-parallel-size 2 つまり、マルチプロセッシングでCUDA使うときは、 "fork"じゃなくて"spawn" 使ってね、というエラーです。これを vLLM に教えるために、以下の2行目のように環境変数を設定してあげるとvLLMが "spawn" を使ってくれるようになります。 export

LLM

「Open Deep Research」技術解説

こんにちは！「Deep Research」界隈、にわかに盛り上がりを見せておりますね。今日は昨日(2025/2/5)発表された、 Open Deep Researchについて、そのアーキテクチャや実装について解説したします！ 1. はじめに OpenAIが開発した「GPT Deep Research」が世間をにぎわせていますが、「●● Deep Research」は既出のものをふくめこれから各社がしのぎを削っていくのではないでしょうか。「Open Deep Research」はHuggingFace 社が開発したオープンソースツールで、その名の通り従来人間がデスクトップで行っていた Web 情報調査の作業を自動化するツールです。今日は、本ツールの設計思想、 Deep Research ってどうやってるの？　っていうところをディープに解説してみたいとおもいます。あくまでも仕組みの説明にフォーカスしており、使い方説明ではないのでご了承くだすぁい。 1.1. はじめに近年、情報技術の進歩により扱える情報量は飛躍的に増加しております。デスクトップで Web 情報調

日々の開発Tips

Node.jsのUUID生成を極める：crypto.randomUUID() vs 通常のUUID

こんにちは！今回は、Webフロントで活躍するNode.jsでのUUID生成について、特にcrypto.randomUUID()と従来の方法の違いを解説します！はじめに UUIDは一意の識別子として広く使用されていますが、Node.jsには複数の生成方法があります。 crypto.randomUUID()の使用方法 import { randomUUID } from 'crypto'; const id = randomUUID(); console.log(id); // 例：'123e4567-e89b-12d3-a456-426614174000' または、以下のように書いてもいいですね import crypto from 'crypto'; const id= crypto.randomUUID(); 主な特徴 * 暗号学的に安全な乱数生成器を使用 * 追加のパッケージインストールが不要 * パフォーマンスが最適化済み * UUID v4形式を生成従来のUUID生成方法 import

AI数理

ディープラーニングにおけるEMA（Exponential Moving Average）

こんにちは！本日は、画像生成、動画生成モデルなどで重要な役割を果たしている EMA ※について解説してみたいとおもいます！当社のAIアバター動画生成サービス「MotionVox™」でも役立っています！といっても、画像生成のための専用技術というわけではなく、学習と推論（生成系も含む）というディープラーニングの運用の中で昨今かなり重宝されるテクニックとなっておりますので、基礎から実装までみていきたいとおもいます。 ※EMAの読み方は私はエマと呼んでますが、イーエムエーって言ってる人もいます。どっちでもいいでしょう。 EMA の基礎知識 EMA（Exponential Moving Average=指数移動平均）は、ざっくりいえばモデルの重みを平均化する手法です。実は株価分析などでも使われている古くからある概念なのですが、ディープラーニングでは比較的最近になって「あ、これ結構使えるんじゃね？」と重要性が認識されるようになりました。（”EMA”に限らず、理論の積み上げではなく「やってみたら、使えんじゃん」っていうのがかなり多いのがディープラーニング界隈のもはや常識でし

AI数理

DPO(直接選好最適化）の基礎から画像・動画AIへの応用まで

こんにちは Qualiteg研究部です！本日は、2023年、AnthropicのRafael Rafailov、Archit Sharmaらの研究チームによって提案された「直接選好最適化（Direct Preference Optimization: DPO）」について、基礎から応用までを解説します。この手法は、論文「Direct Preference Optimization: Your Language Model is Secretly a Reward Model」で発表され、AIの学習手法に大きな影響を与えています。この論文では、言語モデル（LM）の動作を人間の好みに調整する新しい手法「Direct Preference Optimization（DPO）」を提案していますが、最近では、VLMなど言語モデルに限らず応用が広がっています。しかも、理論は比較的シンプルなので、じわりと人気があがっていますね！ DPOが生まれた背景言語モデルは大規模データで事前学習されるため、幅広い知識と能力を持つが、その動作を制御するのは困難でした。そのため、従来の言語モデ

日々の開発Tips

Python仮想環境でハマった依存関係エラーの解決方法

こんにちは！今日は入れた覚えの無いパッケージが引き起こす「あるある」な謎エラーと原因について記載します。今回の環境は Windows に Python,Anaconda を入れた状態で発生した例ですが、Linuxでも本質的には同じだとおもいます。グローバル環境の汚染が原因だった話問題の発生 Pythonプロジェクトの環境構築中、必要なパッケージをインストールしていたら、突然エラーメッセージが表示されました。 pip install opencv-python==4.8.1.78 実行後に表示されたエラー ERROR: pip's dependency resolver does not currently take into account all the packages that are installed. This behaviour is the source of the following

日々の開発Tips

「Windowsターミナル」を Windows Server 2022 Datacenter エディションに手軽にインストールする方法

こんにちは！本稿はWindows Server 2022 Datacenterエディションに「Windowsターミナル」をインストールする方法のメモです。ステップバイステップでやるのは少し手間だったので、Powershellにペタっとするだけで自動的にインストールできるよう手順をスクリプト化しました。管理者権限で開いた Powershell に以下、スクリプトをペタっとすると、後は勝手に「Windowsターミナル」がインストールされます。（ただしスクリプトの実行結果の保証も責任も負いかねます）なにが手間か何が手間かというと、Windows Server 2022 では、StoreもApp Installer（winget）もデフォルトではインストールされていないため「Windowsターミナル」をマニュアルでインストールしなければなりませんでした。そこでペタっとするだけのスクリプト化管理者権限で開いたPowershellに以下のスクリプトをペタっとすると「Windowsターミナル」が無事インストールされます。パッケージのダウンロード先には　[ユーザ

日々の開発Tips

Windows 11の右クリックメニューを従来のWindows 10スタイルに戻す方法

Windows 11では右クリックメニューが簡略化され、「送る」などの便利なメニューが非表示になっています。今回は、これを従来のWindows 10スタイルに戻す方法をご紹介します。【ご注意】レジストリの変更は慎重に行う必要があり、誤った操作によってシステムに影響が出る可能性もございます。操作の前にはシステムのバックアップをお取りいただくことをお勧めいたします。記事の内容は一般的な情報提供を目的としており、お客様の環境によっては動作が異なる場合もございます。操作の実行はご自身の判断と責任のもとでお願いいたします。問題点 Windows 11の右クリックメニューには従来から以下のような変更になり、使い慣れていた身からすると少々不便なことがあります * 「送る」メニューが非表示 * よく使う機能が「その他のオプションを表示」に隠れている * Shiftキーを押しながらの右クリックが必要解決方法 PowerShellを使って設定を変更できます 1. PowerShellスクリプトの準備以下のコードを「restore_right_click_men

NumPy/PyTorch

PyTorchモデルの最適化～TorchScriptの仕組みと活用法～

こんにちは！本日は PyTorch で開発したAIアプリケーションの本番化に欠かせない、「最適化」についての内容です。具体的には「 TorchScript」を使用した各種学習モデルの最適化についてみていきたいとおもいます。 TorchScriptの基礎 1 TorchScriptとは TorchScriptは、PyTorchモデルを最適化された中間表現（IR）に変換する技術です。、、といってもちょっと難しく聞こえるかもしれません。平易な言葉で言い換えますと、要するに、PyTorchで作った機械学習モデルを高速かつ多種多様な環境で動作させることをするための技術です。例えば、、・Pythonがインストールされていない環境でも動かせるようにする・スマホはじめ、各種組み込み機器でも使えるようにする・動かすときの速度を段違いに上げる・複数の処理を同時に効率よく実行するなどを目論むときは TorchScript がおすすめです。つまり、TorchScriptは「本番サービス」で使うときにすごく役立ちます。 2 Torc

NumPy/PyTorch

【極めればこのテンソル操作】インプレース操作でメモリ効率化！

こんにちは！今日は PyTorchのインプレース操作に関する内容です！ディープラーニングの学習モデルを作ってると、メモリ管理が大きな課題になります。課題の大部分はGPUメモリとお考えの方も多いのではないでしょうか。そんなときに助けてくれるのが、PyTorchのインプレース操作です！この記事では、インプレース操作の使い方をいろんな角度から見ていきたいとおもいます。インプレース操作って何？基本的な考え方インプレース操作とは、既存のメモリ領域を直接書き換える操作のことです。PyTorchでは、演算子の後ろにアンダースコア（_）をつけることでインプレース操作を実行できます。つまり、普通の操作だと新しいメモリを確保する必要がありますが、インプレース操作なら既存のメモリを直接書き換えることが可能です。それでは、実際に見てみましょう！ import torch # 普通の操作 x = torch.tensor([1, 2, 3]) y = x + 5 # 新しいメモリが必要 # インプレース操作ならこう！ x = torch.tensor([1, 2, 3

IT & AIテクノロジー

画像生成技術の進化　～GANからディフフュージョンモデルまで～

こんにちは！株式会社Qualiteg研究部です！今日は画像生成技術について投稿いたします。みなさまご存じの通り人工知能による画像生成技術は、過去10年間で急速な進化を遂げました。今年は2024年。ちょうど2014年に「GAN」がでて10年です。テキスト系生成AIの勢いがすごい昨今ですが、画像生成AI、超解像AIからの動画生成AIなどコンピュータビジョンかいわいも大きく進化を遂げていますね。本記事では、主にGenerative Adversarial Networks (GAN)とディフフュージョンモデルに焦点を当て、画像生成技術の歴史的な発展を振り返ります。特に、これらの技術が画像生成と超解像の分野でどのように応用されてきたかを詳しく見ていこうとおもいます。ブログ本編の前に！　ダイジェスト動画あります！本ブログのダイジェストを以下の動画で語っておりますので、よろしかったらこちらもご覧くださいませ！ GANとディフュージョンモデル GANとは GAN（Generative Adversarial Network）は、2014年にIan Goodf

ChatStream Guide

chatstream.net のクエリパラメータ仕様

chatstream.net は(株)Qualiteg が運用するサービスで、世界中で公開されている最新のLLMをいちはやく体験することができます。特定の LLM を開いてじっくりチャットをしたり、複数のLLM を開いて協調的につかってみたり、LLM同士で出力を比較させたり、LLMのもつポテンシャルを感じていただけるようになっています。たとえば、PCブラウザでURLを開くと、4つのLLMを同時に開いて、同時にチャットを行うことができます。このようにお好みに応じてチャットを制御することができるのがURLパラメータです。 https://chatstream.net/?ws_name=chat_app&mult=1&ontp=1&isync=1&model_id=llama_3_elyza_jp_8b&model_id=openai_gpt_3_5_

NumPy/PyTorch

ディープラーニングモデルの安全な並列推論とパフォーマンス最適化

こんにちは！今日は、よく聞かれる質問の1つである「単一のモデルインスタンスで安全に並列推論を行えるか？」に関する内容です！ evalモードでの並列推論の安全性 PyTorchモデルがmodel.eval()を使用してevalモードに設定されている場合、一般的に並列推論に対して安全になります。（ここでいう「並列」はマルチスレッドによる処理ととらえてください。バッチ推論については後述します。）その理由は、 1. パラメータの不変性 evalモードでは、順伝播（forward pass）中にモデルのパラメータが更新されません。 2. 学習特有レイヤーの非活性化 BatchNormなどのレイヤーは、バッチ統計の計算ではなく、実行時統計（running statistics）を使用するモードに切り替わります。 3. 入力データの独立性各スレッドやプロセスは独自の入力データで動作し、それぞれ別のメモリ領域に存在します。以下は、evalモードでの安全な並列推論の基本的な例です： import torch import th

NumPy/PyTorch

【極めればこのテンソル操作】NumPy配列の縦マージ方法：5つのアプローチ

こんにちは！今日は、NumPyにおける配列の縦マージについてご説明いたします！ご存じの通りNumPyは、Pythonで科学的計算を行うための強力なライブラリです。複数のNumPy配列を縦にマージして大きな配列を作成する方法について、5つの異なるアプローチを詳しく見ていきましょう。具体的には、(N,128)と(M,128)の形状を持つ複数のNumPy配列が格納されたPythonのリストから、(N+M,128)の形状を持つ単一のNumPy配列を作成する方法を説明します。 1. np.vstack() を使用する方法 np.vstack() 関数は、垂直方向（行方向）に配列をスタックするための関数です。 import numpy as np list_of_arrays = [ np.random.rand(3, 128), np.random.rand(2, 128) ] merged_array = np.vstack(list_

NumPy/PyTorch

GPUメモリ最適化の深層：初回と最終バッチの特殊性を踏まえた効率的なAI画像処理

はじめにこんにちは！Qualitegプロダクト開発部です。当社では、LLMテクノロジーをベースとしたAIキャラクター、AIヒューマンの研究開発を行っています。そんな中、表情、仕草のように「人間らしさ」をもったバーチャルヒューマンを再現するときには画像生成、画像編集といったAIを活用した画像処理が必要となります。人と対話するAIヒューマンやバーチャルヒューマンはタイムリーに表情や仕草を生成する必要があるため、複数の画像をフレーム連結してつくるモーション（シンプルにいうと動画）を短時間に生成する必要があります。このようなとき、AIトレーニングやシンプルな推論とは異なり、いかにGPUの能力を引き出してやるか「GPUの使いこなし術」がミソとなります。 GPUの使いこなし術というと、以前のブログにも連続バッチやダイナミックバッチについてLLM推論のコンテクストで語りましたが、本日は画像処理におけるGPUメモリ最適化、とくに、推論時バッチにおける「初回と最終回」のお作法という少しマニアックな話題について語ってみようとおもいます。画像処理とGPU GPUを用いた画像

日本語対応！Mistral Small v3 解説

[vLLM] To use CUDA with multiprocessing, you must use the 'spawn' start method の対処法

「Open Deep Research」技術解説

Node.jsのUUID生成を極める：crypto.randomUUID() vs 通常のUUID

ディープラーニングにおけるEMA（Exponential Moving Average）

DPO(直接選好最適化）の基礎から画像・動画AIへの応用まで

Python仮想環境でハマった依存関係エラーの解決方法

「Windowsターミナル」を Windows Server 2022 Datacenter エディションに手軽にインストールする方法

Windows 11の右クリックメニューを従来のWindows 10スタイルに戻す方法

PyTorchモデルの最適化～TorchScriptの仕組みと活用法～

【極めればこのテンソル操作 】インプレース操作でメモリ効率化！

画像生成技術の進化 ～GANからディフフュージョンモデルまで～

chatstream.net のクエリパラメータ仕様

ディープラーニングモデルの安全な並列推論とパフォーマンス最適化

【極めればこのテンソル操作 】NumPy配列の縦マージ方法：5つのアプローチ

GPUメモリ最適化の深層：初回と最終バッチの特殊性を踏まえた効率的なAI画像処理

【極めればこのテンソル操作】インプレース操作でメモリ効率化！

画像生成技術の進化　～GANからディフフュージョンモデルまで～

【極めればこのテンソル操作】NumPy配列の縦マージ方法：5つのアプローチ