[No.151]Google DeepMindは言葉の指示に従ってタスクを実行するAIエージェント「SIMA」を開発、3D仮想環境で人間レベルの知能を獲得することが目標、AGIへの重要なステップとなる
Google DeepMindは3月13日、3D仮想環境において言葉の指示でタスクを実行するAIエージェント「SIMA」を公開した(下の写真)。
SIMAはビデオゲームのキャラクターであるが、人間が命令したことを実行するAIエージェントとして開発された。例えば、「木を切り倒せ」と指示すると、SIMAは3Dゲーム環境でこれを実行する。
最終目標は人間と同じレベルのスキルを獲得することで、言語モデルが世界観を理解し、AGIへの重要なステップとなる。
AIエージェントの研究
GoogleはAI研究部門「Google Brain」と高度AI研究所「DeepMind」を統合し、「Google DeepMind」を設立し、AI研究部門を再編した。
Google DeepMindは、AIエージェント研究の最新成果「Scalable Instructable Multiworld Agent (SIMA)」を発表した。
SIMAは3Dビデオゲーム環境で、自然言語の指示に従って、タスクを実行するAIエージェントとなる。
SIMAの概要と機能
3Dビデオゲームでキャラクターを操作するときは、キーボードやマウスを使い、動作の指示を入力する。
例えば、キーボードからキャラクターの移動方向を指示するなどの使い方をする。これに対しSIMAは、自然言語(テキスト)で指示されたことを理解し、その内容を実行する。
具体的には、ゲームの中のキャラクターに言葉で命令すると、その指示を理解してタスクを実行する。
SIMAの使い方
人気ゲーム「Goat Simulator 3」のキャラクター「ヤギ」に、「フェンスを跳び越せ」と命令すると、ヤギはその意味を理解してそれを実行する(下の写真右側)。
また、ヤギに「クルマを盗め」という難解なタスク命令をすると、その意味を理解し、これを実行する(左側)。
複雑な命令を受けると、SIMAはタスクをサブタスクに分割し、ステップごとにそれを実行し、最終ゴールに到達する。
SIMAを開発した意義:Embodied AI
SIMAはビデオゲームをするために開発されたのではなく、AIエージェントが3Dゲーム環境で世界観を理解し、言葉の意味を現実社会の事象に結び付けることを目標としている。
具体的には二つの技法を獲得することが目的で:
- 言葉の意味と見たものを結び付ける技法(Ground Language in Perception)
- 3D仮想環境でタスクを実行する技法(Embodied Actions)
3D仮想環境で言葉の指示によりタスクを実行するAIは「Embodied AI」と呼ばれ、AI研究の重要テーマで、Google DeepMindの他にOpenAIやMetaなどが開発を進めている。(下の写真、Embodied AIの事例で3Dゲーム環境で言葉の指示に従ってテスクを実行。)
SIMAの開発方法
SIMAは3Dビデオゲームを使って開発され(下の写真左側)、ここで展開されるキャラクターがAIエージェントとなる。
上述の「Goat Simulator 3」というゲームの他に、「Satisfactory」(上の写真上段)や「Valheim」(下段)など9種類のゲームが使われた。このゲームを人間がプレーし、その操作方法(キーボードとマウスの操作法をテキストで記述)とスクリーンイメージをAIエージェントに入力し(中央)、モデルがスキルを学習する。
教育されたモデルが人間の指示に従ってタスクを実行し、その結果を人間が評価する(右側)。
SIMAの性能
この手法で教育を受けたSIMAは人間の命令に従ってタスクを実行する精度が向上した。
SIMAを複数のゲームで教育した場合、単一のゲームで教育したSIMAに比べ、命令を正しく実行する精度が150%以上向上した(下のグラフ左端)。
このベンチマーク結果は、SIMAを多種類のゲームで教育すると、精度が上がることを示しており、Google DeepMindは開発の規模を拡大する計画である。
人間レベルのAIエージェント
次のステップとして、Google DeepMindはSIMAをより多くのゲーム環境で教育することで、SIMAの汎用能力(Generalizability)が向上すると期待している。
汎用能力とは、人間のように、一つのスキルを学習すると、それを異なるタスクに適用し、柔軟に学習する能力を指す。これにより、SIMAは言葉を理解する能力が上がり、複雑なタスクを実行する能力に繋がる。
この汎用能力が人間レベルのインテリジェンス「AGI」を開発するための重要なステップとなる。