[No.57] Metaはメタバース向けAIの研究成果を公表、リアルな仮想社会を生成するにはイメージ・ボイス・テキストなどマルチメディアを理解するAIが必要不可欠

Metaはメタバース向けに高度なAIを開発していることを明らかにした。

メタバースは3D仮想社会で、ここに人々が集い、ビジネスが興隆する。

仮想社会は、イメージやボイスやテキストなど、マルチメディアで構成される。

AIがこれらを理解し、リアルな仮想空間を生成する。

出典: Meta

言葉で仮想社会を生成

Metaは音声でイメージを生成する技術「Builder Bot」を開発している。

話し言葉で、海や砂浜やヤシの木を描くよう指示すると、Builder Botはこれに従って作画する(下の写真)。

この機能はメタバースで仮想空間を生成するための基礎技術となる。

また、この技術は人間のデジタルツインであるアバターを生成するためにも使われる。話し言葉でアバターの洋服をデザインでき、「Paint me a style of Gauguin」と指示すると、ゴーギャン風のファッションが生成される。

出典: Meta

125の言語を同時通訳

Metaは多言語を翻訳するシステム「LASER (Language-Agnostic SEntence Representations)」を開発した。

言語翻訳でAIが使われているが、主要言語が対象で、翻訳できる言語の数は限られている。

Metaは翻訳する言語の数を一気に125に拡張した。

言語モデルの開発では、数多くの教育データが必要だが、LASERは数少ないサンプルで教育できることが特徴となる。

メタバースでは、ARグラスを介し、言語をリアルタイムで翻訳し、異なる国の人々がコミュニケーションできる(下の写真)。

これによりメタバースでは世界の国境がなくなる。

出典: Meta

高度な会話型AI

Metaは人間のように会話するAIモデル「Project CAIRaoke」を開発した。

会話型AIは一般にBotと呼ばれ、AIは人間の秘書のように、対話を通じて指示された内容を実行する。

一般に、会話型AIは、自然言語解析(Natural Language Understanding)、会話ポリシー管理(Dialogue Policy Management)、自然言語生成(Natural Language Generation)など複数のモジュールから形成される。

Project CAIRaokeはこれらを統合し、単一のAIで形成されていることに特徴がある。

Project CAIRaokeは、タスクを実行することを目的に開発され、指示された内容をアクションに移すために使われる。(下の写真、AIにレストランの予約を指示している様子。)

出典: Meta

ARグラス向けコンピュータビジョン

Metaは人間の視線で周囲の状況を把握するAI「Ego4D」の開発を進めている。

人間の視線で捉えたデータでアルゴリズム教育すると、AIは実社会でインテリジェントな能力を発揮する。

これをARグラスに搭載することで、AIがアシスタントとなり利用者の視覚や聴覚をエンハンスする。

例えば、ARグラスを着装してスープを調理すると、Ego4Dは食材を把握し、その使い方を教えてくれる(下の写真)。

出典: Meta

センサーのデータを解析

メタバースでは、イメージやボイスやテキストの他に、センサーが収集する情報の処理がカギとなる。

リストバンドを着用すると、指を動かすだけでエアータイプできる(下の写真)。

リストバンドから筋肉のシグナルを読み取り、AIがその意図を把握し、どのキーボードが押されたかを把握する。

また、触覚センサーを着装して、仮想オブジェクトに触ると、AIがその感触をフィードバックする。

この処理では、AIがセンサーの情報を読み込み、それを解析して、感触を出力する。

出典: Meta

AI開発はメタバースにシフト

MetaはAI研究を「Meta AI」に集約し、ここでFacebookとメタバース向けのAI基礎研究が進められている。

Facebook向けのAI研究は「Facebook Artificial Intelligence Research (FAIR)」で行われてきたが、Meta AIがこの組織を継承した。

MetaはAI開発戦略を見直し、ソーシャルメディアからメタバースに開発の比重をシフトしている。

今では、MetaのAI研究者の1/3がメタバースの開発に携わっているとされる。

AI基礎研究でもMetaは、ソーシャルメディア企業からメタバース企業に転身している。