[No.155]Metaは生成AI最新モデル「Llama 3」を公開、オープンソースがクローズドソースの性能を追い越す!!企業や研究機関は高速モデルを自由に利用でき選択肢が広がる

Metaは生成AI最新モデル「Llama 3」をオープンソースとして公開した。

最上位モデルはGPT-4レベルの性能で、オープンソースが業界トップに到達した。Llama 3はAWSなど主要なクラウドで公開され、この環境でモデルを利用できる。

また、MetaはLlama 3をベースとするAIアシスタント「Meta AI」の運用を開始した。FacebookやInstagramなどでチャットボットとしてユーザと対話する。

高度な生成AIをオープンソースとして公開すると、これが悪用される危険性があるため、Metaはセキュリティに関する様々な技術を公開した。

出典: Meta
出典: Meta

発表概要

Metaは4月18日、生成AI最新モデル「Llama 3」を投入し、これをオープンソースとして公開した。

モデルのソースコードや重み(Weights)が公開され、企業はこれをダウンロードして独自のAIシステムを構築できる。また、Llama 3はAWSやGoogle CloudやMicrosoft Azureなど主要なクラウドで利用できる。

更に、Llama 3をベースとするAIアシスタント「Meta AI」の運用を開始した。これはChatGPTのようなチャットボットで、ウェブやソーシャルメディアで対話形式で利用する。

MetaはオープンソースであるLlama 3が悪用され社会に危険性をもたらすことを防ぐため、様々なセキュリティ技術を開発しこれを公開した。

Llama 3のモデル

発表されたLlama 3は三つのサイズと二つのタイプから構成される。サイズはモデルのパラメータの数で示され、小型モデルと中型モデルが公開され、大型モデルは開発中で今後リリースされる。タイプはモデルの教育方法を示し、基礎教育モデルと最適化モデルとなる:

モデルのサイズ

  • 小型モデル:Llama 3 8B (80億パラメータ)
  • 中型モデル:Llama 3 70B (700億パラメータ)
  • 大型モデル:Llama 3 400B (4000億パラメータ、開発中)

モデルのタイプ

  • 基礎教育モデル:Pre-trained (一般的な教育を実施したモデル)
  • 最適化モデル:Instruction-Fine-Tuned (上記のモデルを人間の命令に従うよう最適化したモデル、高性能モデル)

ベンチマークテスト

Llama 3は生成AIの小規模と中規模クラスでトップの性能を示した。

小型モデル「Llama 3 8B」は、フランス企業Mistral社の「Mistral 7B」を追い越した(下のグラフ左側)。中型モデル「Llama 3 70B」はGoogleの「Gemini Pro 1.5」を上回った(右側)。

大型モデル「Llama 3 400B」はまだ開発中であるが、Metaは途中経過の性能を公開し、それによるとOpenAI GPT-4-Turboと互角の性能となる。

オープンソース生成AIが業界トップの性能を達成した。

出典: Meta
出典: Meta

アーキテクチャ

Llama 3が高い性能を実現したのはアーキテクチャの改良によるところが多い。

Llama 3はLlama 2と同様に「Decoder-only Transformer」というアーキテクチャを採用している。テキストを生成することに重点を置いたシステムで、これが生成AIの事実上の標準アーキテクチャとなっている。

一方、Llama 3は様々な技法でアーキテクチャを改良した。その中心は、「Tokenizer」のサイズを拡大したことと、「Grouped Query Attention (GQA)」という方式を採用したことにある:

  • Tokenizer:モデルが一度に処理できるトークンのサイズ。Llama 3は128KでLlama 2から4倍に拡大し処理効率が向上。
  • Grouped Query Attention (GQA):アテンション機構で情報を共有する仕組み。これによりインファレンス処理を高速化。Llama 3は小型モデルと中型モデルにこれを採用。

データ:サイズを拡大し品質を向上

Llama 3では教育データのサイズを拡大し、また、データの品質を向上した。

教育データのサイズは15Tトークンと、Llama 2に比べて四倍に拡大。また、教育データの中でプログラムコードの量が増え、Llama 3はコード生成機能が強化された。

更に、教育データの5%が英語以外の言語で、マルチリンガルに向かっている。データの品質に関しては、フィルタリング機能を改良し、有害なコンテンツや重複しているデータを排除した。

また、テキストの分類機能を導入し、データの品質を向上し、これらがモデルの性能改善に大きく寄与している。

スケーリング:大量のデータで小規模モデルを教育

MetaはLlama 3の開発で、教育データのサイズと教育に要する計算量が最適の組み合わせになるポイントを探求した。

モデルの規模を大きくすると少ない量の教育データで性能を上げることができる。しかし、このためには多くの計算量が必要となりコストが増大する。

Llama 3の開発では、教育データの量を増やすことで小さいモデルでも高い性能を実現できる構造を探求した。

大量の教育データ(15Tトークン)で小さなモデルを教育することで高性能のシステムを実現した。

セキュリティ

オープンソースを基盤とするAI開発では、利用企業がモデルを倫理的に運用する責任を負うが、MetaはLlama 3に安全機能を組み込むなどセキュリティ技術を強化した(下の写真)。

MetaはLlama 3を最適化するプロセスで「Red Teaming」という手法でモデルの安全性を検証した。これは開発者がモデルを攻撃し、その危険性を洗い出す手法で、サイバーセキュリティや化学兵器・生物兵器の生成などの観点から安全性を検証した。

更に、Llama 3向けのセキュリティ技術を開発しこれらを公開した:

  • Llama Guard 2:ファイアーウォールとして機能し危険なプロンプトや不適切な出力をフィルタリング
  • CyberSecEval 2:モデルがサイバー攻撃で悪用される可能性を査定する
  • Code Shield:モデルがプログラムを生成する際に、その中で危険なコードを検知する
出典: Meta
出典: Meta

主要クラウドに展開

Llama 3はAWSやGoogle Cloud(下の写真)やMicrosoft Azureなど主要なクラウドで利用できる。

更に、Llama 3はビッグ3の他に、Databricks、Hugging Face、Kaggle、IBM WatsonX、NVIDIA NIMなど、専門サイトのクラウドで利用できる。MetaはLlama 3を多彩なクラウドで展開しており、開発者は用途に応じて開発運用基盤を選択できる。

出典: Google
出典: Google

Meta AI

Llama 3はクラウドで展開されるだけでなく、Metaは社内でこのモデルを利用している。

Llama 3はAIチャットボット「Meta AI」として運用されており、ウェブサイトでLlama 3と対話形式で生活やビジネスに必要な情報を得ることができる(下の写真)。このサービスにおいてはMicrosoftとGoogleの検索エンジンとリンクしており、最新情報を提示する。

また、Metaは「Meta AI」をソーシャルメディアに実装する計画で、Facebook、Instagram、WhatsAppからAIチャットボットを使うことができる。

出典: Meta
出典: Meta

オープンソースとして公開する理由

ZuckerbergはMetaが開発するAIを一貫してオープンソースとして公開する方針を維持している。

モデルを公開する理由は技術開発のペースを上げることで、MetaはコミュニティのLlamaに関するフィードバックをベースに技術改良を進めている。また、Zuckerbergは高度な生成AIがOpenAIとGoogleの二社にコントロールされることを危惧している。

スマートフォンの基本ソフトがAppleとGoogleに制御され、活発な技術革新が阻害されていると指摘する。これを教訓に、Metaは生成AIを幅広く公開し、イノベーションを加速させる戦略を取る。

一方、Zuckerbergはオープンソースの危険性を把握しており、事前にモデルを検証し、安全が確認されるとこれを公開するとしている。

市場でオープンソースの生成AIが急速に普及しており、Llama 3がこの流れを加速させ、市場構成が大きく変わり始めた。