LLM

【解説】Tekken トークナイザーとは何か? 〜 Mistral が採用する新世代トークナイザーの特徴

LLM

【解説】Tekken トークナイザーとは何か? 〜 Mistral が採用する新世代トークナイザーの特徴

こんにちは! 本日は、Tekkenについて解説いたします! 皆さま Tekken と聞いて何を思い浮かべますか? 格ゲーの鉄拳でしょうか? 私は、昔プレイした Age of Empires に登場する鉄剣戦士を思い浮かべました🤗 ちょっと古いかもしれませんが、名作です! さてつかみはこのくらいにして、、 LLMはご存じのとおり驚異的なスピードで進化しています。そんな中でひそかに注目されているのが、トークナイザーの改善です。 たとえば、Meta の Llama 系モデルのトークナイザーは Sentence Piece から BPE系へ進化するなど、LLM業界では従来よりも高効率なトークナイズ(テキスト分割)の方法を導入し始めています。 そして Mistral AI もまた、新たに「Tekken トークナイザー」という仕組みを採用し、大規模言語モデルの性能を底上げしています。 本記事では、Tekken トークナイザーの登場背景や技術的特徴、他のトークナイザーとの違い、さらには Mistral との関係などをわかりやすく解説していきます。 1. Tekken トーク

By Qualiteg プロダクト開発部
日本語対応!Mistral Small v3 解説

LLM

日本語対応!Mistral Small v3 解説

こんにちは! Mistral AIは2025年1月30日、新しい言語モデル「Mistral Small v3」を発表しました。このモデルは、24Bという比較的小規模なパラメータ数ながら、70B以上の大規模モデルに匹敵する性能を実現しています。また日本語対応も謳われており期待の高い小型モデルです! https://huggingface.co/mistralai/Mistral-Small-24B-Instruct-2501 動画 こちら本ブログの解説動画もご覧いただけます😊 きわだってるのは、レイテンシー最適化 Mistral Small 3のめだった特徴は、その処理性能とレイテンシーの絶妙なバランスではないでしょうか。 公開されている以下の性能評価のグラフによると、トークンあたり約11ミリ秒という業界最速レベルのレイテンシーを達成しています。これは、Qwen-2.5 32Bの約15ミリ秒やGemma-2 27Bの約14ミリ秒と比較して、明確な優位性を示しています。さらに注目すべきは、GPT-4o Miniと比較しても、より低いレイテンシーで同等以上の性能を実現し

By Qualiteg プロダクト開発部
[vLLM] To use CUDA with multiprocessing, you must use the 'spawn' start method の対処法

LLM

[vLLM] To use CUDA with multiprocessing, you must use the 'spawn' start method の対処法

WSLで vLLM を使用するとき、 tensor parallel を使って複数枚のGPUで1つのLLMをサーブしようとしたとき以下のようなエラーが発生しがちです RuntimeError: Cannot re-initialize CUDA in forked subprocess. To use CUDA with multiprocessing, you must use the 'spawn' start method 遭遇するシーンとしてはvLLMの起動オプションに以下のようにテンソル並列化オプションを指定したときです。 --tensor-parallel-size 2 つまり、マルチプロセッシングでCUDA使うときは、 "fork"じゃなくて"spawn" 使ってね、というエラーです。 これを vLLM に教えるために、以下の2行目のように環境変数を設定してあげるとvLLMが "spawn" を使ってくれるようになります。 export

By Qualiteg プロダクト開発部
「Open Deep Research」技術解説

LLM

「Open Deep Research」技術解説

こんにちは!「Deep Research」界隈、にわかに盛り上がりを見せておりますね。 今日は昨日(2025/2/5)発表された、 Open Deep Researchについて、そのアーキテクチャや実装について解説したします! 1. はじめに OpenAIが開発した「GPT Deep Research」が世間をにぎわせていますが、「●● Deep Research」は既出のものをふくめこれから各社がしのぎを削っていくのではないでしょうか。 「Open Deep Research」はHuggingFace 社が開発したオープンソースツールで、その名の通り従来人間がデスクトップで行っていた Web 情報調査の作業を自動化するツールです。 今日は、本ツールの設計思想、 Deep Research ってどうやってるの? っていうところをディープに解説してみたいとおもいます。 あくまでも仕組みの説明にフォーカスしており、使い方説明ではないのでご了承くだすぁい。 1.1. はじめに 近年、情報技術の進歩により扱える情報量は飛躍的に増加しております。デスクトップで Web 情報調

By Qualiteg プロダクト開発部
chatstream.net のクエリパラメータ仕様

ChatStream Guide

chatstream.net のクエリパラメータ仕様

chatstream.net は(株)Qualiteg が運用するサービスで、世界中で公開されている最新のLLMをいちはやく体験することができます。 特定の LLM を開いてじっくりチャットをしたり、複数のLLM を開いて協調的につかってみたり、LLM同士で出力を比較させたり、LLMのもつポテンシャルを感じていただけるようになっています。 たとえば、PCブラウザでURLを開くと、4つのLLMを同時に開いて、同時にチャットを行うことができます。このようにお好みに応じてチャットを制御することができるのがURLパラメータです。 https://chatstream.net/?ws_name=chat_app&mult=1&ontp=1&isync=1&model_id=llama_3_elyza_jp_8b&model_id=openai_gpt_3_5_

By Qualiteg プロダクト開発部
Meta社が発表した最新の大規模言語モデル、Llama 3.1シリーズの紹介

LLM

Meta社が発表した最新の大規模言語モデル、Llama 3.1シリーズの紹介

2024年7月23日、Meta社が最新の大規模言語モデル、Llama 3.1シリーズを発表しました。この記事では、Llama 3.1シリーズの特徴と性能、そして実際の使用例を紹介します。 以下、動画にもまとめてありますので、あわせてごらんいただければと思います。 Llama 3.1シリーズの主な特徴 Llama 3.1シリーズは、8B、70B、405Bの3つのモデルサイズで提供されています。主な特徴は以下の通りです: * 一般的な知識、操縦性、数学、道具の使用、多言語翻訳におけるトップAIモデルに匹敵する初のオープンLLM * コンテクストは128Kトークン * 8言語に対応した多言語モデル(ただし日本語は含まれず) * 15兆以上のトークンでトレーニング モデルサイズ別の特徴 * 8Bモデル: モバイルデバイスや小規模なシステムでの使用に適しており、リソースが限られた環境でも高性能を発揮 * 70Bモデル: 多くのタスクで405Bモデルに近い性能を示しながら、より少ないコンピューティングリソースで運用できる優れたバランスを提供 * 405Bモデル: 最高

By Qualiteg プロダクト開発部
Mistral AI社の最新LLM「Mistral NeMo 12B」を徹底解説

LLM

Mistral AI社の最新LLM「Mistral NeMo 12B」を徹底解説

こんにちは。今回は2024年7月19日にリリースされたMistral AI社の最新LLM「Mistral NeMo 12B」をご紹介します。 本モデルの特徴や性能を解説し、実際にChatStreamを使用してチャットの使用感を確かめていきます。 Mistral NeMo 12Bとは Mistral NeMo 12BはMistral AI社がNVIDIAと協力して開発した最新モデルです。Apache2ライセンスを採用しており、自由に使用、変更、配布が可能な非常に自由度の高いモデルとなっています。 解説動画 本記事の内容は以下の動画にもまとめてありますので、あわせてごらんくださいませ 主な特長 本モデルには3つの大きな特長があります: 1. 大きなコンテクストサイズと高い推論性能 2. 多言語性能 3. 効率的なトークナイザー 1. 大きなコンテクストサイズと高い推論性能 Mistral NeMo 12Bは120億パラメータの比較的小型のモデルですが、同サイズカテゴリーの中でも高い性能を発揮しています。Google社のGemma2 9BやMeta社の

By Qualiteg プロダクト開発部
革新的なコード生成LLM "Codestral Mamba 7B" を試してみた

LLM

革新的なコード生成LLM "Codestral Mamba 7B" を試してみた

今日は、2024年7月16日にリリースされた新しいコード生成LLM、"mistralai/mamba-codestral-7B-v0.1"(通称:Codestral Mamba 7B)を試してみました。 このモデルは、新しいMambaアーキテクチャを採用しており、Apache2ライセンスで公開されています。 コード生成のSOTAモデルに迫る性能 Mamba アーキテクチャを採用した Codestral 7B ですが、Human Eval で 75% を達成しており、Transformerベースのコード生成 SOTA モデルと同等のパフォーマンスを実現しています。 さらに、シーケンス長に対しての処理劣化がないため、かなり期待のできるモデル&アーキテクチャといえますね。 動画にまとめています "mistralai/mamba-codestral-7B-v0.1" の試用レポートはこちらの動画にもまとめてありますので、よろしければ、こちらもご覧くださいませ Codestral Mamba 7Bの特徴 1. 無限の長さのシーケンスをモデル化する能力 2. 長いシー

By Qualiteg プロダクト開発部
ChatStream🄬でLlama-3-Elyza-JP-8B を動かす

ChatStream

ChatStream🄬でLlama-3-Elyza-JP-8B を動かす

こんにちは、本日は Llama-3-Elyza-JP-8B を使ってみました。 昨日 2024年6月26日に発表(https://prtimes.jp/main/html/rd/p/000000046.000047565.html)された Llama-3-Elyza-JP-8B は 70B 版では「GPT-4」を上回る性能の日本語LLMといわれています。 今回、当社でも Playground 環境に Llama-3-Elyza-JP-8B を搭載して試してみましたのでご紹介します。 70B(700億パラメータ)版は GPT-4 を上回るとのことですので、8B(80億パラメータ)版はGPT-3.5 と比較してみることにいたしました。 (性能比較は https://note.com/elyza/n/n360b6084fdbd の記事に詳しく書いてあります。) AWQ量子化版を使用してみる 今回は、A4000

By Qualiteg プロダクト開発部
Google Gemini 1.5 API の機能、特徴、価格と使い方

IT & AIテクノロジー

Google Gemini 1.5 API の機能、特徴、価格と使い方

こんにちは!(株)Qualiteg テックブログです! 【2024年7月2日更新版】 本日は Google Gemini 1.5 Pro/ Gemini 1.5 Flash モデルの特徴、価格、Pythonをつかったテキスト生成について解説いたします。 Google Gemini とは Google Geminiは、Googleが提供する生成AIプラットフォームです。高品質なテキスト生成を行うためのAPIを提供し、さまざまなアプリケーションで自然な言語生成を利用できます。Geminiは多くの業界で使用されており、コンテンツ作成、カスタマーサポート、チャットボット、マーケティング、教育など、幅広い用途に対応しています。 APIキーの取得方法 Google Geminiを利用するためには、APIキーが必要です。以下の手順でAPIキーを取得できます。 Google AI Studio にアクセスして、手順にしたがい、Get API key でAPIキーを作成します。 https://aistudio.google.

By Qualiteg 研究部