[No.178]Metaは小型モデル「Llama 3.2」を公開、ARグラスなどエッジデバイスのAIエンジンとなる、パソコンで稼働し開発コミュニティで人気急騰

2024年9月27日 2024年10月1日

KaoruIimi

Metaは開発者会議「Connect 2024」を開催し、生成AI最新モデル「Llama 3.2」を公開した。

Llama 3.2は小型モデル「Small Model」とマルチモダル「Multimodal」の二つのシステムから構成される(下の写真)。前者はエッジデバイスで稼働するスリムなモデルで、スマートグラスやパソコンで使われる。

後者はマルチモダルで映像を解析する高度な機能を持つ。開発者は効率的な生成AIを求めており、Llama 3.2の利用が急拡大している。

Connect 2024の概要

Metaは今週、本社キャンパスで開発者向けのイベント「Connect 2024」を開催した。

基調講演でMark Zuckerbergはスマートグラス「Ray-Ban Meta smart glasses」とMRヘッドセット「Meta Quest 3S」を公開した。更に、次世代スマートグラスのプロトタイプ「Orion」を始めて開示した。Orionはメガネにホログラムディスプレイを搭載したもので、目の前に３Dオブジェクトを生成する(下の写真)。

MRヘッドセットは不要で、ビデオ会議画面やアバターを３Dで生成し、遠隔地の友人とバーチャルに交流でき、メタバースを実現する基礎技術となる。

Llama 3.2

Zuckerbergは基調講演で生成AIの最新モデル「Llama 3.2」について解説した。MetaはLlamaシリーズの生成AIモデルを開発し、これらをオープンソースとして公開している。最新版は小型軽量のモデルで、二つのタイプから構成される (xBはバラメータの数)：

小型モデル：Llama 3.2 1BとLlama 3.2 3B
マルチモダル：Llama 3.2 11BとLlama 3.2 90B

Metaは7月に大規模モデル「Llama 3.1 405B」をリリースしたが、今回は中規模から小規模モデルを中心に公開した。

Zuckerbergによると、大規模モデルは巨大な計算環境と高度なスキルと必要とするが、Llama 3.2はパソコンなどで運用でき、開発コミュニティで普及が広がっている。

小型モデル

小型モデルは「Llama 3.2 1B」と「Llama 3.2 3B」の二機種で、スマホやパソコンなどエッジデバイスで稼働する。

これらのモデルはQualcomm、Mediatek、ARMプロセッサで運用される。軽量であるが機能は高く、スマホで文章の要約や文章生成のアシスタントとして利用する。グループがテキストメッセージで旅行の計画をする際には、Llama 3.2がこれを読み込み、その要約を生成し、そこからアクションアイテムを抽出し、それをカレンダーに登録するなどの機能がある(下の写真)。

メッセージはスマホで処理され、個人情報がクラウドに送信されることは無く、個人のプライバシーを守ることができる。

マルチモダル

マルチモダルは「Llama 3.2 11B」と「Llama 3.2 90B」の二機種あり、イメージを理解するビジョンを備えている。

モデルは入力された写真を理解し、それに関する推論機能「Image Reasoning」を実行する。暖炉の写真をLlama 3.2に入力すると、モデルはそれを解析し暖炉の特徴をテキストで出力し、これにベースに別のタイプの暖炉を推奨する(下の写真)。

この際に、「Retrieval Augmented Generation(RAG)」という手法を使い、異なるタイプの暖炉の情報を参照している。

セーフガード機能

Metaはモデルを安全に利用するためのツール「Llama Guard」をオープンソースとしてリリースした。

Llama Guardはモデルのガードレールとして機能し、危険な情報をフィルタリングする(下の写真)。二つのモジュールから構成され、「Input Safeguard」はユーザが入力するプロンプトを検証し、危険なコマンドやモデルへの攻撃などを防ぐ。

また、「Output Safeguard」はモデルが出力するデータを解析し、ここに危険情報があれば出力を抑止する。

小型モデルの開発手法

小型モデルは既にリリースされた大型モデルを使って開発された。

ゼロからの開発ではなく、既存技術を移転する手法で短時間に開発された。具体的には、「Llama 3.2 1B」と「Llama 3.2 3B」を既にリリースした大型モデル「Llama 3.1」を使って開発した。

開発では「Pruning」と「Distillation」という手法が使われた。

Pruning：モデルのニューラルネットワークの一部を削除して軽量にする手法。既存モデル「Llama 3.1 8B」をベースにこれをPruningして軽量化する手法が取られた。
Distillation：大型モデルのスキルを抽出し、これを小型モデルに移す手法。既存モデル「Llama 3.1 8B」と「Llama 3.1 70B」が教師となり、このスキルを生徒モデル「Llama 3.2 1B」と「Llama 3.2 3B」に伝授した。(下の写真)

ベンチマーク結果

この結果、Llama 3.2は市場のリーダーに匹敵する性能をマークした。

マルチモダルである「Llama 3.2 90B」は、イメージのベンチマークでOpenAIの「GPT-4o-mini」を上回る性能を示した(下のテーブル)。また、小型モデル「Llama 3.2 3B」は、Microsoftの小型モデル「Phi-3.5-mini IT」を凌駕する性能をマークしこの市場でトップの座を占めた。