Meta社が発表した最新の大規模言語モデル、Llama 3.1シリーズの紹介

Meta社が発表した最新の大規模言語モデル、Llama 3.1シリーズの紹介
Photo by Ellephant / Unsplash

2024年7月23日、Meta社が最新の大規模言語モデル、Llama 3.1シリーズを発表しました。この記事では、Llama 3.1シリーズの特徴と性能、そして実際の使用例を紹介します。

以下、動画にもまとめてありますので、あわせてごらんいただければと思います。

Llama 3.1シリーズの主な特徴

Llama 3.1シリーズは、8B、70B、405Bの3つのモデルサイズで提供されています。主な特徴は以下の通りです:

  • 一般的な知識、操縦性、数学、道具の使用、多言語翻訳におけるトップAIモデルに匹敵する初のオープンLLM
  • コンテクストは128Kトークン
  • 8言語に対応した多言語モデル(ただし日本語は含まれず)
  • 15兆以上のトークンでトレーニング

モデルサイズ別の特徴

  • 8Bモデル: モバイルデバイスや小規模なシステムでの使用に適しており、リソースが限られた環境でも高性能を発揮
  • 70Bモデル: 多くのタスクで405Bモデルに近い性能を示しながら、より少ないコンピューティングリソースで運用できる優れたバランスを提供
  • 405Bモデル: 最高レベルの性能を求める場合や、複雑なタスクを処理する際に最適

Llama 3.1 405Bモデルの性能比較

Meta社は150以上のベンチマークデータセットを用いて、これらのモデルの性能を評価しました。405Bモデルの具体的な比較結果は以下の通りです:

  1. MMLU(一般的な言語理解): 88.6点(GPT-4の85.4点を3.2ポイント上回る)
  2. HumanEval(コーディング能力): 89.0点(GPT-4の86.6点を2.4ポイント上回る)
  3. GSM8K(数学的能力): 96.8点(GPT-4 Omniの96.1点を0.7ポイント上回る)
  4. ARC Challenge(推論能力): 96.9点(GPT-4の96.4点を0.5ポイント上回る)
  5. ZeroSCROLLS/QuALITY(長文脈処理能力): 95.2点(GPT-4 OmniとClaude 3.5 Sonnetの90.5点を4.7ポイント上回る)
  6. Multilingual MGSM(多言語処理能力): 91.6点(GPT-4の85.9点を5.7ポイント上回る)

これらの結果は、Llama 3.1 405Bが多くの分野で最先端の性能を持つことを示しています。70Bと8Bモデルも、そのサイズに応じた高い性能を発揮しています。

Llama 3.1 と実際にチャットしてみましょう

当社が運営している chatstream.net にて、実際に Llama 3.1 とチャットをすることができます。

https://chatstream.net/?model_id=meta_llama_3_1_8b_instruct&ws_name=chat_app_en

総括

8Bモデルでさえ、Llama 3.1は全体としてユーザーの質問に対して多角的に答えようとする傾向が見られました。以前の8Bモデルと比較して、より賢く、行き届いた印象を受けました。

今後、Llama 3.1に対して日本語で継続事前学習されたモデルが次々とリリースされることが期待されます。AIの進化が続く中、これらの新しいモデルの登場を楽しみに待ちたいと思います。

Read more

PyCharmで npm start 実行時にIDEがサイレントクラッシュした事例と切り分け

PyCharmで npm start 実行時にIDEがサイレントクラッシュした事例と切り分け

こんにちは!Qualitegプロダクト開発部です! PyCharmの内蔵npmツールで npm start を実行した瞬間、何のエラーメッセージもなくIDEが消える。 再起動してもう一度試すとまた落ちる。ログを見ても手がかりがない——。 今回はこの「サイレントクラッシュ」に遭遇し、原因の絞り込みから回避策の確立まで至った過程を書き残しておきます。同じ現象で困っている方の参考になれば幸いです。 環境 項目 内容 OS Windows 10/11 PyCharm 2026.1(2023.1.6時代から連綿とUpdateをした状態) Python 3.11.4(venv使用) Node.js v25.2.1 プロジェクト Python + Node.js 混合構成 上記のとおり、PyCharmは執筆時点の最新版(2026.1)となります。 確認できたこと・推測していること まず最初に、

By Qualiteg プロダクト開発部
大企業のAIセキュリティを支える基盤技術 - 今こそ理解するActive Directory 第6回 よくある問題と解決方法

大企業のAIセキュリティを支える基盤技術 - 今こそ理解するActive Directory 第6回 よくある問題と解決方法

こんにちは、今回はシリーズ第6回トラブルシューティング - よくある問題と解決方法 について解説いたします! さて、前回(第5回)は、統合Windows認証がブラウザでどのように動作するかを解説しました。 「イントラネットゾーン」という概念を理解することで、同じサーバーでもURLの書き方(NetBIOS名、FQDN、IPアドレス)によって認証動作が変わる理由が明確になったかと思います。また、Chrome/Firefoxではデフォルトで統合認証が無効になっている理由と、グループポリシーによる一括設定方法も学びました。 しかし、設定が完璧なはずなのに「なぜかうまく動かない」という場面は、実際の現場では必ず訪れます。 「最近、ファイルサーバーへのアクセスが遅い」「金曜日は使えたのに、月曜日の朝にログインできない」「特定のサービスだけKerberosが失敗する」——これらはヘルプデスクに日々寄せられる典型的な問い合わせです。 原因はKerberosの失敗、時刻のずれ、SPNの設定ミス、DNS関連の問題など多岐にわたりますが、体系的にトラブルシューティングすることで必ず解決できます。

By Qualiteg コンサルティング, Qualiteg AIセキュリティチーム
AIエージェントを"事業に載せる"ために【第2回】AIエージェントの責任分解はなぜ難しいのか

AIエージェントを"事業に載せる"ために【第2回】AIエージェントの責任分解はなぜ難しいのか

— AI導入を"事業に載せる"ために、いま設計すべきこと(全3回) こんにちは!Qualitegコンサルティングチームです! 前回(第1回)では、Replit/Lemkin事件とDeloitte豪州政府報告書問題を通じて、AIエージェント導入の課題がモデル性能ではなく「権限・監査・責任の設計不在」にあることを見ました。 では、実際に事故が起きたとき、責任は誰が負うのでしょうか。第2回となる本記事では、法務・契約・組織の3つの観点から、AIエージェントの責任分解がなぜ難しいのかを構造的に整理します。 結論を先に言えば、法務だけでも契約だけでも組織論だけでも足りません。この3つを接続して設計しなければ、AIエージェントの責任分解は実務上機能しません。 1. 法的フレームワーク:複数の法理論が並走している AIエージェントが損害を出したとき、どの法理論で責任が問われるかについて、現時点でグローバルなコンセンサスは形成されていません。 Clifford Chanceの論考は、この状況の根本的な難しさを整理しています。法律は歴史的に、有害な行為がいつどのように発生したかを特定でき

By Qualiteg コンサルティング
AIエージェントを"事業に載せる"ために【第1回】

AIエージェントを"事業に載せる"ために【第1回】

AI導入事故は何を示しているのか — AI導入を"事業に載せる"ために、いま設計すべきこと(全3回) こんにちは!Qualitegコンサルティングチームです! AIエージェントを導入する企業が増える一方で、 「試してみる」段階から「事業に載せる」段階へ進める難しさ が、はっきり見え始めています。 本シリーズでは、AIエージェント導入を技術論だけでなく、責任分解・監査可能性・契約・運用統制を含む業務設計の問題として整理します。 全3回を通じて、「AIが賢いかどうか」ではなく、「AIを業務に載せるために何を設計するか」を考えていきます。 第1回となる本記事では、2025年に起きた2つの事例を出発点に、なぜいま「責任設計」が問題になっているのかを見ていきます。 上図は、本シリーズ全体で扱う論点の全体像です。 AIエージェントの導入は、技術的なモデル選定だけでは完結せず、権限設計、契約、監査、品質監視、保険、異常時対応まで含めた設計が必要になります。 第1回ではまず、なぜこうした設計が求められるようになったのかを、実際の事例から見ていきたいとおもいます なお、本シリー

By Qualiteg コンサルティング