[No.151]Google DeepMindは言葉の指示に従ってタスクを実行するAIエージェント「SIMA」を開発、3D仮想環境で人間レベルの知能を獲得することが目標、AGIへの重要なステップとなる

Google DeepMindは3月13日、3D仮想環境において言葉の指示でタスクを実行するAIエージェント「SIMA」を公開した(下の写真)。

SIMAはビデオゲームのキャラクターであるが、人間が命令したことを実行するAIエージェントとして開発された。例えば、「木を切り倒せ」と指示すると、SIMAは3Dゲーム環境でこれを実行する。

最終目標は人間と同じレベルのスキルを獲得することで、言語モデルが世界観を理解し、AGIへの重要なステップとなる。

出典: Google DeepMind
出典: Google DeepMind

AIエージェントの研究

GoogleはAI研究部門「Google Brain」と高度AI研究所「DeepMind」を統合し、「Google DeepMind」を設立し、AI研究部門を再編した。

Google DeepMindは、AIエージェント研究の最新成果「Scalable Instructable Multiworld Agent (SIMA)」を発表した。

SIMAは3Dビデオゲーム環境で、自然言語の指示に従って、タスクを実行するAIエージェントとなる。

SIMAの概要と機能

3Dビデオゲームでキャラクターを操作するときは、キーボードやマウスを使い、動作の指示を入力する。

例えば、キーボードからキャラクターの移動方向を指示するなどの使い方をする。これに対しSIMAは、自然言語(テキスト)で指示されたことを理解し、その内容を実行する。

具体的には、ゲームの中のキャラクターに言葉で命令すると、その指示を理解してタスクを実行する。

SIMAの使い方

人気ゲーム「Goat Simulator 3」のキャラクター「ヤギ」に、「フェンスを跳び越せ」と命令すると、ヤギはその意味を理解してそれを実行する(下の写真右側)。

また、ヤギに「クルマを盗め」という難解なタスク命令をすると、その意味を理解し、これを実行する(左側)。

複雑な命令を受けると、SIMAはタスクをサブタスクに分割し、ステップごとにそれを実行し、最終ゴールに到達する。

出典: Google DeepMind
出典: Google DeepMind

SIMAを開発した意義:Embodied AI

SIMAはビデオゲームをするために開発されたのではなく、AIエージェントが3Dゲーム環境で世界観を理解し、言葉の意味を現実社会の事象に結び付けることを目標としている。

具体的には二つの技法を獲得することが目的で:

  • 言葉の意味と見たものを結び付ける技法(Ground Language in Perception)
  • 3D仮想環境でタスクを実行する技法(Embodied Actions)

3D仮想環境で言葉の指示によりタスクを実行するAIは「Embodied AI」と呼ばれ、AI研究の重要テーマで、Google DeepMindの他にOpenAIやMetaなどが開発を進めている。(下の写真、Embodied AIの事例で3Dゲーム環境で言葉の指示に従ってテスクを実行。)

出典: Google DeepMind
出典: Google DeepMind

SIMAの開発方法

SIMAは3Dビデオゲームを使って開発され(下の写真左側)、ここで展開されるキャラクターがAIエージェントとなる。

上述の「Goat Simulator 3」というゲームの他に、「Satisfactory」(上の写真上段)や「Valheim」(下段)など9種類のゲームが使われた。このゲームを人間がプレーし、その操作方法(キーボードとマウスの操作法をテキストで記述)とスクリーンイメージをAIエージェントに入力し(中央)、モデルがスキルを学習する。

教育されたモデルが人間の指示に従ってタスクを実行し、その結果を人間が評価する(右側)。

出典: Google DeepMind
出典: Google DeepMind

SIMAの性能

この手法で教育を受けたSIMAは人間の命令に従ってタスクを実行する精度が向上した。

SIMAを複数のゲームで教育した場合、単一のゲームで教育したSIMAに比べ、命令を正しく実行する精度が150%以上向上した(下のグラフ左端)。

このベンチマーク結果は、SIMAを多種類のゲームで教育すると、精度が上がることを示しており、Google DeepMindは開発の規模を拡大する計画である。

出典: Google DeepMind
出典: Google DeepMind

人間レベルのAIエージェント

次のステップとして、Google DeepMindはSIMAをより多くのゲーム環境で教育することで、SIMAの汎用能力(Generalizability)が向上すると期待している。

汎用能力とは、人間のように、一つのスキルを学習すると、それを異なるタスクに適用し、柔軟に学習する能力を指す。これにより、SIMAは言葉を理解する能力が上がり、複雑なタスクを実行する能力に繋がる。

この汎用能力が人間レベルのインテリジェンス「AGI」を開発するための重要なステップとなる。