[No.57] Metaはメタバース向けAIの研究成果を公表、リアルな仮想社会を生成するにはイメージ・ボイス・テキストなどマルチメディアを理解するAIが必要不可欠
Metaはメタバース向けに高度なAIを開発していることを明らかにした。
メタバースは3D仮想社会で、ここに人々が集い、ビジネスが興隆する。
仮想社会は、イメージやボイスやテキストなど、マルチメディアで構成される。
AIがこれらを理解し、リアルな仮想空間を生成する。
言葉で仮想社会を生成
Metaは音声でイメージを生成する技術「Builder Bot」を開発している。
話し言葉で、海や砂浜やヤシの木を描くよう指示すると、Builder Botはこれに従って作画する(下の写真)。
この機能はメタバースで仮想空間を生成するための基礎技術となる。
また、この技術は人間のデジタルツインであるアバターを生成するためにも使われる。話し言葉でアバターの洋服をデザインでき、「Paint me a style of Gauguin」と指示すると、ゴーギャン風のファッションが生成される。
125の言語を同時通訳
Metaは多言語を翻訳するシステム「LASER (Language-Agnostic SEntence Representations)」を開発した。
言語翻訳でAIが使われているが、主要言語が対象で、翻訳できる言語の数は限られている。
Metaは翻訳する言語の数を一気に125に拡張した。
言語モデルの開発では、数多くの教育データが必要だが、LASERは数少ないサンプルで教育できることが特徴となる。
メタバースでは、ARグラスを介し、言語をリアルタイムで翻訳し、異なる国の人々がコミュニケーションできる(下の写真)。
これによりメタバースでは世界の国境がなくなる。
高度な会話型AI
Metaは人間のように会話するAIモデル「Project CAIRaoke」を開発した。
会話型AIは一般にBotと呼ばれ、AIは人間の秘書のように、対話を通じて指示された内容を実行する。
一般に、会話型AIは、自然言語解析(Natural Language Understanding)、会話ポリシー管理(Dialogue Policy Management)、自然言語生成(Natural Language Generation)など複数のモジュールから形成される。
Project CAIRaokeはこれらを統合し、単一のAIで形成されていることに特徴がある。
Project CAIRaokeは、タスクを実行することを目的に開発され、指示された内容をアクションに移すために使われる。(下の写真、AIにレストランの予約を指示している様子。)
ARグラス向けコンピュータビジョン
Metaは人間の視線で周囲の状況を把握するAI「Ego4D」の開発を進めている。
人間の視線で捉えたデータでアルゴリズム教育すると、AIは実社会でインテリジェントな能力を発揮する。
これをARグラスに搭載することで、AIがアシスタントとなり利用者の視覚や聴覚をエンハンスする。
例えば、ARグラスを着装してスープを調理すると、Ego4Dは食材を把握し、その使い方を教えてくれる(下の写真)。
センサーのデータを解析
メタバースでは、イメージやボイスやテキストの他に、センサーが収集する情報の処理がカギとなる。
リストバンドを着用すると、指を動かすだけでエアータイプできる(下の写真)。
リストバンドから筋肉のシグナルを読み取り、AIがその意図を把握し、どのキーボードが押されたかを把握する。
また、触覚センサーを着装して、仮想オブジェクトに触ると、AIがその感触をフィードバックする。
この処理では、AIがセンサーの情報を読み込み、それを解析して、感触を出力する。
AI開発はメタバースにシフト
MetaはAI研究を「Meta AI」に集約し、ここでFacebookとメタバース向けのAI基礎研究が進められている。
Facebook向けのAI研究は「Facebook Artificial Intelligence Research (FAIR)」で行われてきたが、Meta AIがこの組織を継承した。
MetaはAI開発戦略を見直し、ソーシャルメディアからメタバースに開発の比重をシフトしている。
今では、MetaのAI研究者の1/3がメタバースの開発に携わっているとされる。
AI基礎研究でもMetaは、ソーシャルメディア企業からメタバース企業に転身している。