Meta社が発表した最新の大規模言語モデル、Llama 3.1シリーズの紹介
2024年7月23日、Meta社が最新の大規模言語モデル、Llama 3.1シリーズを発表しました。この記事では、Llama 3.1シリーズの特徴と性能、そして実際の使用例を紹介します。
以下、動画にもまとめてありますので、あわせてごらんいただければと思います。
Llama 3.1シリーズの主な特徴
Llama 3.1シリーズは、8B、70B、405Bの3つのモデルサイズで提供されています。主な特徴は以下の通りです:
- 一般的な知識、操縦性、数学、道具の使用、多言語翻訳におけるトップAIモデルに匹敵する初のオープンLLM
- コンテクストは128Kトークン
- 8言語に対応した多言語モデル(ただし日本語は含まれず)
- 15兆以上のトークンでトレーニング
モデルサイズ別の特徴
- 8Bモデル: モバイルデバイスや小規模なシステムでの使用に適しており、リソースが限られた環境でも高性能を発揮
- 70Bモデル: 多くのタスクで405Bモデルに近い性能を示しながら、より少ないコンピューティングリソースで運用できる優れたバランスを提供
- 405Bモデル: 最高レベルの性能を求める場合や、複雑なタスクを処理する際に最適
Llama 3.1 405Bモデルの性能比較
Meta社は150以上のベンチマークデータセットを用いて、これらのモデルの性能を評価しました。405Bモデルの具体的な比較結果は以下の通りです:
- MMLU(一般的な言語理解): 88.6点(GPT-4の85.4点を3.2ポイント上回る)
- HumanEval(コーディング能力): 89.0点(GPT-4の86.6点を2.4ポイント上回る)
- GSM8K(数学的能力): 96.8点(GPT-4 Omniの96.1点を0.7ポイント上回る)
- ARC Challenge(推論能力): 96.9点(GPT-4の96.4点を0.5ポイント上回る)
- ZeroSCROLLS/QuALITY(長文脈処理能力): 95.2点(GPT-4 OmniとClaude 3.5 Sonnetの90.5点を4.7ポイント上回る)
- Multilingual MGSM(多言語処理能力): 91.6点(GPT-4の85.9点を5.7ポイント上回る)
これらの結果は、Llama 3.1 405Bが多くの分野で最先端の性能を持つことを示しています。70Bと8Bモデルも、そのサイズに応じた高い性能を発揮しています。
Llama 3.1 と実際にチャットしてみましょう
当社が運営している chatstream.net にて、実際に Llama 3.1 とチャットをすることができます。
https://chatstream.net/?model_id=meta_llama_3_1_8b_instruct&ws_name=chat_app_en
総括
8Bモデルでさえ、Llama 3.1は全体としてユーザーの質問に対して多角的に答えようとする傾向が見られました。以前の8Bモデルと比較して、より賢く、行き届いた印象を受けました。
今後、Llama 3.1に対して日本語で継続事前学習されたモデルが次々とリリースされることが期待されます。AIの進化が続く中、これらの新しいモデルの登場を楽しみに待ちたいと思います。