Meta社が発表した最新の大規模言語モデル、Llama 3.1シリーズの紹介

Meta社が発表した最新の大規模言語モデル、Llama 3.1シリーズの紹介
Photo by Ellephant / Unsplash

2024年7月23日、Meta社が最新の大規模言語モデル、Llama 3.1シリーズを発表しました。この記事では、Llama 3.1シリーズの特徴と性能、そして実際の使用例を紹介します。

以下、動画にもまとめてありますので、あわせてごらんいただければと思います。

Llama 3.1シリーズの主な特徴

Llama 3.1シリーズは、8B、70B、405Bの3つのモデルサイズで提供されています。主な特徴は以下の通りです:

  • 一般的な知識、操縦性、数学、道具の使用、多言語翻訳におけるトップAIモデルに匹敵する初のオープンLLM
  • コンテクストは128Kトークン
  • 8言語に対応した多言語モデル(ただし日本語は含まれず)
  • 15兆以上のトークンでトレーニング

モデルサイズ別の特徴

  • 8Bモデル: モバイルデバイスや小規模なシステムでの使用に適しており、リソースが限られた環境でも高性能を発揮
  • 70Bモデル: 多くのタスクで405Bモデルに近い性能を示しながら、より少ないコンピューティングリソースで運用できる優れたバランスを提供
  • 405Bモデル: 最高レベルの性能を求める場合や、複雑なタスクを処理する際に最適

Llama 3.1 405Bモデルの性能比較

Meta社は150以上のベンチマークデータセットを用いて、これらのモデルの性能を評価しました。405Bモデルの具体的な比較結果は以下の通りです:

  1. MMLU(一般的な言語理解): 88.6点(GPT-4の85.4点を3.2ポイント上回る)
  2. HumanEval(コーディング能力): 89.0点(GPT-4の86.6点を2.4ポイント上回る)
  3. GSM8K(数学的能力): 96.8点(GPT-4 Omniの96.1点を0.7ポイント上回る)
  4. ARC Challenge(推論能力): 96.9点(GPT-4の96.4点を0.5ポイント上回る)
  5. ZeroSCROLLS/QuALITY(長文脈処理能力): 95.2点(GPT-4 OmniとClaude 3.5 Sonnetの90.5点を4.7ポイント上回る)
  6. Multilingual MGSM(多言語処理能力): 91.6点(GPT-4の85.9点を5.7ポイント上回る)

これらの結果は、Llama 3.1 405Bが多くの分野で最先端の性能を持つことを示しています。70Bと8Bモデルも、そのサイズに応じた高い性能を発揮しています。

Llama 3.1 と実際にチャットしてみましょう

当社が運営している chatstream.net にて、実際に Llama 3.1 とチャットをすることができます。

https://chatstream.net/?model_id=meta_llama_3_1_8b_instruct&ws_name=chat_app_en

総括

8Bモデルでさえ、Llama 3.1は全体としてユーザーの質問に対して多角的に答えようとする傾向が見られました。以前の8Bモデルと比較して、より賢く、行き届いた印象を受けました。

今後、Llama 3.1に対して日本語で継続事前学習されたモデルが次々とリリースされることが期待されます。AIの進化が続く中、これらの新しいモデルの登場を楽しみに待ちたいと思います。

Read more

Python と JavaScript で絵文字の文字数が違う!サロゲートペアが引き起こす位置ずれバグの話

Python と JavaScript で絵文字の文字数が違う!サロゲートペアが引き起こす位置ずれバグの話

こんにちは! Qualitegプロダクト開発部です! PII(個人情報)検出のデモアプリを開発していて、検出したエンティティの位置をハイライト表示する機能を実装していました。 バックエンドは Python(FastAPI)、フロントエンドは JavaScript という構成です。 ある日、テストデータにこんなメール文面を使ったところ、ハイライトの位置が途中から微妙にずれるバグに遭遇しました。 鈴木一郎 様 いつもお世話になっております。 サンプル商事の佐藤でございます。 先日の件、確認が取れましたのでご連絡いたします。 お忙しいところ恐縮ですが、ご確認のほど宜しくお願い致します。 💻 #オンラインでのお打ち合わせ、お気軽に声がけください! ―――――――――――――――――――――――――――――― サンプル商事株式会社 営業部 第一課 山田 太郎 (Yamada Taro) 〒100-0001 東京都千代田区千代田1-1-1 サンプルビル 3F tel: 03-1234-5678 https://example.com/contact 検出結果をハイライト表示

By Qualiteg プロダクト開発部
大企業のAIセキュリティを支える基盤技術 - 今こそ理解するActive Directory 第5回 ブラウザ設定と認証

大企業のAIセキュリティを支える基盤技術 - 今こそ理解するActive Directory 第5回 ブラウザ設定と認証

こんにちは、今回はシリーズ第5回「ブラウザ設定と認証」について解説いたします! さて、前回(第4回)では、プロキシサーバーをドメインに参加させることで、ChatGPTやClaudeへのアクセスを「誰が」行ったかを確実に特定する仕組みを解説しました。「信頼の連鎖」の概念や、Windows版Squidなら1時間で構築できる環境、Negotiate/NTLM/Basicという3段階の認証フォールバック機構について理解いただけたかと思います。 しかし、せっかくサーバー側で完璧な統合Windows認証環境を構築しても、ブラウザ側の設定が適切でなければ、ユーザーには毎回パスワード入力ダイアログが表示されてしまいます。 「Edgeだと自動でログインできるのに、Chromeだとパスワードを聞かれる」 「同じサーバーなのにURLの書き方で動作が違う」 これらはヘルプデスクに寄せられる典型的な問い合わせです。(ただ、業務に好きなブラウザ使っていいよ、という企業はそんなに多くはないとおもいます) 今回は、統合Windows認証がブラウザでどのように動作するのか、その仕組みから各ブラウザ(Edge/

By Qualiteg AIセキュリティチーム, Qualiteg コンサルティング
スライドパズルを解くAIから学ぶ、「考える」の正体

スライドパズルを解くAIから学ぶ、「考える」の正体

こんにちは! 「このパズル、AIの教科書に載ってるらしいよ」 子供の頃に遊んだスライドパズル。いや、大人が遊んでも楽しいです。 数字のタイルをカチャカチャ動かして揃えるあれです。実はこのシンプルなパズルが、AI研究の出発点のひとつだったって知ってました? 今回は、このパズルを題材に「AIがどうやって考えているのか」を解き明かしていきます。しかも、ここで使われている手法は、Google Mapsの経路探索からChatGPTまで、現代の様々な技術のベースになっているんです。 まず遊んでみよう 理屈の前に、まずは感覚を思い出してみてください。 最初に shuffle をクリックすると、配置がシャッフルされゲームを開始できます。 ちなみに必ず解くことができるようになっていますが、慣れていないとそれなりに難しいかもしれません。 どうでしょう? 何手でクリアできましたか? クリアできなくても大丈夫です。記事後半で、実際にAIが解いてくれる機能つきゲームも掲載しています^^ 以下は動画です。本ブログで紹介するアルゴリズムで実際にパズルを解く様子をご覧いただけます

By Qualiteg 研究部
楽観的ロック vs 悲観的ロック:実際のトラブルから学ぶ排他制御

楽観的ロック vs 悲観的ロック:実際のトラブルから学ぶ排他制御

こんにちは! Qualitegプロダクト開発部です! 「楽観的ロックを実装したのに、まだ競合エラーが出るんですけど...」 これは私たちが実際に経験したことです。 本記事では、楽観的ロックと悲観的ロックの違いを、実際に発生したトラブルを通じて解説します。 抽象的な説明ではなく、 「なぜそれが必要なのか」「どんな問題を解決できるのか」 を実感できる内容を目指します。 目次 1. 問題の背景:並列処理で謎のエラー 2. ロックなしの世界:なぜ競合が起きるのか 3. 楽観的ロックの導入:期待と現実 4. 楽観的ロックの限界:解決できなかった問題 5. 悲観的ロックによる解決 6. 実装時のハマりポイント 7. どちらを選ぶべきか:判断基準 8. まとめ 1. 問題の背景:並列処理で謎のエラー 1.1 システムの概要 私たちが開発していたのは、 複数のワークスペースを切り替えて使用するAPIサーバー でした。 当社AI関係のプロダクトの一部だったのですが、結合テスト兼負荷テストを実行すると、まれに発生してしまっていました。 ユーザーは複数のワーキン

By Qualiteg プロダクト開発部