CyberAgentLM3-22B-Chat(cyberagent/calm3-22b-chat) 徹底解説

CyberAgentLM3-22B-Chat(cyberagent/calm3-22b-chat) 徹底解説

こんにちは、(株)Qualiteg プロダクト開発部です。

本日は昨日プレスリリースされた サイバーエージェント社の最新LLM CyberAgentLM3-22B-Chat(cyberagent/calm3-22b-chat) について、ファーストルックレポートを行います。

デモ

実際に、以下サイトで calm3-22b-chat とチャットお試し可能です

https://chatstream.net/?ws_name=chat_app&mult=0&ontp=1&isync=1&model_id=calm3_22b_chat

オープン・フルスクラッチモデルでリーダーボード最高評価

本モデルは、このモデルは、既存モデルをベースに用いずスクラッチで開発を行なった225億パラメータのモデルで Nejumi LLM リーダーボード3の総合評価で 700億パラメータのMeta-Llama-3-70B-Instructと同等性能となっているようです。

継続事前学習ではなく、フルスクラッチの日本語LLMという点にも注目です。

以下は日本語LLMリーダーボード1つ、Nejumi リーダーボード3ですが、総合評価で70Bクラスのモデルと同等の性能を示していますね。

さらに、Nejumiリーダーボード3からは言語モデルの汎用性能だけでなくアラインメントに関する評価も加わっており、汎用性能とアラインメントを両者総合した評価で上位に入っているというのが興味深いですね。

出典:Nezumi LLM Leader Board 3 (2024/7/9) を Qualiteg社が補助線追加など加工

https://note.com/wandb_jp/n/nd4e54c2020ce#d0dec68f-f64d-440b-80f6-f2075d0d014a

上記ブログによると、アラインメントでは、モデルの安全性や制御性に関する評価を行っており、つまるところ、道徳的に間違ったことを言わないか、社会的バイアスがかかっていないか、などの点が評価にはいっています。

株式会社 AI Shift・株式会社サイバーエージェントが提供する、要約や広告文生成、Pro/Conのリストアップという3つのタスクに対してフォーマット・キーワード・NGワード・文字数をいかに制御することができるかを評価する評価データ・フレームワークです。

ただし、アラインメントの評価設計にはサイバーエージェント社のタスクが使われているというところもあり、現状、サイバーエージェント社にとってこの評価はやや有利に働いた可能性もありますが、サイバーエージェント社はRinna社とともに日本語LLMの最古参ですので、それまでの経験、高品質なデータセットの準備など相当入念な準備と努力、そしてGPUパワーによる結晶であると思います。このようなモデルをOSSでおしげもなく公開する企業姿勢に敬意を表します。

さて、LLM開発に携わっていると、ベンチマークはあくまでも参考値、実際の用途で使用して初めて体感値がわかるものですので、それはひとつの参考として、実際に使ってみるのが一番良いでしょう。

実際に試してみました

ということで、ChatStream に calm3-22b-chat をホストして calm3-22b-chatとのチャットを実際に試して、以下の動画にまとめました。

GPU環境と推論ソフトウェアの構成

今回は、以下のような構成でLLMチャットを構築しました。

LLMをチャット化するための構築時間は、モデルの種類にもよりますが今回は30分程度で完成しました。

さて、ポイントですが、今回はモデルサイズが 22.5B でしたので、16bit 精度でだと 45GB 程度のモデルフットプリント(モデルの重みパラメータがGPUメモリにロードされ占有されるメモリ量)となりますので、その 1/4 の 4bit 精度に量子化して NVIDIA A5000 にロードしました。

量子化したあとのフットプリントは実測値で 13GB 程度でしたので、今回使用したGPU A5000 (24GB) でゆとりをもってロードすることができました。

図のように、残りのメモリは実際の生成において使用されます。

古典的な生成処理では、今回のLLMを含む多くの自己回帰型モデルでは1トークン生成するごとに、それまでの生成結果を入力し、新しいトークンを生成しますので、そのとき、それまでの生成の計算処理を効率化するために、過去の計算で用いた値(K値、V値)をキャッシュしておきます。

これは1トークンごとに必要になりますので、いちどに取り扱うシーケンス長(トークン列の長さ)が長いほど、多くのKVキャッシュ用メモリを消費します。また、このような生成処理の同時リクエストが多いほど、当然、必要になるKVキャッシュは大きくなりますので、KVキャッシュ領域は多いに越したことはありません。

KVキャッシュの必要領域は、最大シーケンス長、最大同時アクセス数によって計算可能ですので、それは別記事にて詳細にご説明しようとおもいます。

当然、こうしたKVキャッシュ(たりない)問題について各種テクニックが生み出されており多くの推論エンジンでは、KVキャッシュを工夫し使用できるメモリ量を減らす方向で改善がなされていますが、ベースラインとしてこの考え方は重要ですので、商用LLMサービス開発の際は厳密な机上計算を行いGPUをプロビジョニングします。

calm3-22b-chat の諸元値

さて、話が若干それてしまいましたが、モデルの主要なパラメータについても以下に記載します。

表にあるように、各種パラメータからKVキャッシュ理論値を求めることが可能です。

他特筆すべき点はそんなにありませんが、語彙数は最近のQWenやLlama3 に比べると半分程度なので、多言語対応のチューニングを行うときや、トークン効率はQWenやLlama3に比べると少しさがるかもしれませんね。日本語と英語程度なら、6万もあれば十分、ということなのかもしれません。

まとめ

今回はファーストルックレポートとして、主に動画と記事にてご紹介させていただきました。

ベンチマークで好成績をおさめていますが、実際つかってみた体感としてはかなり性能が高いモデルと感じます。

引き続き要約、翻訳、コード生成、RAGシーンでの活用など実利用での可能性について検証していきたいとおもいます!

今年は Rakuten Mixtralや ELYZA-Llama3 など性能の高いLLMが毎月のようにリリースされていますが、業界最古参の CALMシリーズがまた新たなオープンLLMの歴史を刻んだ感じがしますね!

22Bという、エントリーレベルGPU1枚でも量子化すればギリギリ推論ができる、という点も非常にとっつきやすかったです。

このようなモデルをオープンソースでリリースしていただいたサイバーエージェント社に再度敬意🫡を表します。

今回も、最後までお読みいただき、誠にありがとうございます。

私たちQualitegは、LLMをはじめとするAI技術、開発キット・SDKの提供、LLMサービス構築、AI新規事業の企画方法に関する研修およびコンサルティングを提供しております。

今回ご紹介したChatStream🄬 SDK を使うと、最新のオープンソースLLMや、最新の商用LLMをつかったチャットボットをはじめとした本格的商用LLMサービスを超短納期で構築することが可能です。

もしご興味をお持ちいただけた場合、また具体的なご要望がございましたら、どうぞお気軽にこちらのお問い合わせフォームまでご連絡くださいませ。

LLMスポットコンサルご好評です

また、LLMサービス開発、市場環境、GPUテクノロジーなどビジネス面・技術面について1時間からカジュアルに利用できるスポットコンサルも実施しておりますのでご活用くださいませ。

(繁忙期、ご相談内容によっては、お受けできない場合がございますので、あらかじめご了承ください)

Read more

PII検出の混同行列では見えないもの ― 認識器間衝突と統合テスト

PII検出の混同行列では見えないもの ― 認識器間衝突と統合テスト

こんにちは!Qualiteg研究部です! 個人情報(PII: Personally Identifiable Information)の自動検出は、テキスト中から特定の表現を抽出し、それがどの種類のPIIに当たるかを判定する問題として捉えることができます。 電話番号、人名、口座番号、金額表現など、検出対象のPIIタイプが増えるにつれて、単一の手法ではカバーしきれなくなり、性質の異なる複数の認識器(Recognizer)を組み合わせるマルチレイヤー構成が採用されるのが一般的です。 本稿で想定しているのは、ユーザーが海外製LLMにチャットを送信する直前に、その内容に個人情報や機密情報が含まれていないかをリアルタイムに検査するユースケースです。 この場面では、検出精度だけでなく、送信体験を損ねない速度が不可欠です。 高精度なLLMやBERT系モデル、NERベースの手法は有力ですが、送信前チェックの第一層として常時適用するには、レイテンシやコストの面で不利になることがあります。 そのため、本システムでは、正規表現、辞書、軽量なルールベース認識器を組み合わせた超高速な第一層を設け、そ

By Qualiteg 研究部, Qualiteg AIセキュリティチーム
日本語対応 LLMランキング2026 ~ベンチマーク分析レポート~(3月6日版)

日本語対応 LLMランキング2026 ~ベンチマーク分析レポート~(3月6日版)

はじめに 本レポートは、Nejumi Leaderboard 4のベンチマークデータ(2026/3/6版)に基づいて、日本語対応LLMの性能を総合的に分析したものです。 前回は 2025/12/18 版の分析レポート を公開しましたが、約3か月でまたもや大きな変動がありました! (定期的に最新LLMランキングを更新してまいります。当社のX(旧Twitter)をフォローいただくことで更新情報を受け取り可能です) Nejumi Leaderboard 4は、日本語タスクにおけるLLMの性能を多角的に評価する信頼性の高いベンチマークとして知られています。 本分析では、商用APIモデルとオープンモデルの両方を対象に、それぞれの特徴や傾向を詳しく見ていきます。 オープンソースモデルについて Weightがオープンなモデルは場合によっては「オープンソースモデル」、「OSSモデル」と呼ばれますが、モデルによっては「オープンソース」と呼ぶには不十分な場合があるため本稿では、「オープンソースモデル」ではなく「オープンモデル」と表現しています。 ベンチマーク分析について 本レポートは

By Qualiteg コンサルティング, Qualiteg プロダクト開発部
日経トレンディ 2026年4月号に Bestllam の広告を掲載しました

日経トレンディ 2026年4月号に Bestllam の広告を掲載しました

こんにちは! このたび、日経トレンディ 2026年4月号(2026年3月4日発売、雑誌)に、当社のエンタープライズ向け統合型AIプラットフォーム「Bestllam」を掲載しました。 日経トレンディ(雑誌)は全国の書店・コンビニエンスストアにてお買い求めいただけますので、お手に取った際はぜひご覧くださいませ。 Bestllam とは? Bestllam は、「チャットで指示するだけ。仕事が終わっている。」をコンセプトに開発した、エンタープライズ向けの統合型AIプラットフォームです。 主な特長 20種類以上のLLMを、契約一本で OpenAI GPT、Anthropic Claude、Google Gemini をはじめ、DeepSeek、Qwen、Llama など商用・オープンソース合わせて20種類以上のLLMを1つの契約で利用できます。各プロバイダと個別に契約を結ぶ手間が不要になります。 6つのLLMに同時質問して、最適な答えを選択 同じ質問を複数のLLMに一括投げかけ、回答を比較・検討できます。各モデルの得意・不得意を活かすことで、重要な意思決定や精度が求められる業

By Qualiteg ビジネス開発本部 | マーケティング部
AIプラットフォーマーの垂直統合と、残された戦略オプション

AIプラットフォーマーの垂直統合と、残された戦略オプション

こんにちは! Qualitegコンサルティングチームです! 2026年現在、LLMの最大のユースケースの一つはコーディングだと考えています。実際、Menlo Venturesの調査でもコーディングはエンタープライズAI活用の代表的ユースケースとして位置づけられています。 そして、それにきづいたAIプラットフォーマー各社は自前のAIコーディングツールを次々と発表し人気を博しています。 逆にいえば、そのユースケースを早期に発見しプロダクト化してきた"コーディングSaaS"の開発企業は「胴元」であるAIプラットフォーマーが自分たちのSaaS領域に進出してきているわけで気が気でないでしょう。 ということで、本日はAIプラットフォーマーによる垂直統合と、私たちの取りうる戦略オプションについて考えてみたいと思います。 さて、2025年は、AIコーディングエージェント市場の勢力図が決定的に書き換えられた年でした。 Anthropicの「Claude Code」は2025年2月のリサーチプレビューから始まり、わずか半年で年換算ランレート(ARR)10億ドルに到達。 2026年初頭のア

By Qualiteg コンサルティング