[No.192]Nvidiaは世界基礎モデル「Cosmos」を公開、AIは実社会の物理法則を学びPhysical AI(=ロボットと自動運転車)の開発を加速する

CES 2025の基調講演で、Nvidia CEOのJensen Huangはロボットや自動運転車を開発するための世界基礎モデル「Cosmos」を発表した。

世界基礎モデル「World Foundation Models」とは、実社会の物理法則を理解し、世界観を習得したモデルとなる。Cosmosは物理法則に忠実なデジタル空間を生成し、ここでロボットや自動運転車の教育を行う。

基礎モデル「Foundation Models」はインターネットの知識を習得しコンテンツを生成するが、これに対し、世界基礎モデルは現実社会の仕組みを学習し、物理法則に忠実な仮想社会を生成する。

出典: Nvidia

Cosmosの概要

Cosmosは「物理AI (Physical AI)」を開発するためのプラットフォームとなる。

物理AIとはロボットや自動運転車など、実社会で稼働するAIモデルとなる。Cosmosはトランスフォーマで構成され、イメージやビデオを入力すると、次の動きを予想し、それをビデオとして出力する。また、テキストで指示された内容のビデオを生成する。

Cosmosで実社会のデジタルツインを生成し、この環境でロボットや自動運転車のアルゴリズムを教育する。(下の写真、テキストの指示に従ってCosmosは視界の悪い夜のハイウェーを生成)

出典: Nvidia

世界基礎モデルとは

Cosmosは「世界基礎モデル(World Foundation Model)」というコンセプトのAIモデルとなる。

世界基礎モデルは、テキストやイメージやビデオや動作を入力とし、3D空間を生成し、また、次の動きを予測する機能を持つ。Cosmosは言葉の指示で配送センターを描き出し、ここでロボットのシミュレーションを実行するために使われる(下の写真)。

言葉の指示で3D空間を描き出すモデルは沢山あるが、Cosmosは実社会の物理現象を学び、オブジェクトの関係や相互作用を正しく描写する。

出典: Nvidia

ロボットのシミュレーション

Cosmosはロボットのシミュレーション環境を生成する(下の写真)。

Nvidiaは3D環境のデジタルツインを生成する技術「Omniverse」を提供しており(左側)、これとCosmosを組み合わせることで、物理法則を正しく反映した3D空間を生み出すことができる(右側)。

Omniverseで生成した3Dモデルに、Cosmosが実社会の法則をインポーズする。この3D空間でロボットは作業プロセスを学習しスキルを獲得する。

出典: Nvidia

Cosmosの機能

Cosmosはトランスフォーマで構成されるニューラルネットワークで、物理法則に沿ったビデオを出力する。

ChatGPTなど大規模言語モデルがテキストやイメージやビデオを生成するのに対し、Cosmosは実社会の世界観を描きだす。Cosmosの主要機能は:

Autoregressive Models:入力されたイメージやビデオの次のシーンを予測する(下の写真)。モデルはイメージやビデオの構成要素(Tokens)を読み込み、それに続く次のTokenを予測する。ロボットなどに搭載し、リアルタイムで次のシーンを予測し、最適なアクションを出力する。

出典: Nvidia

Diffusion Models:入力されたビデオのノイズを除去するスキルを学習することで高品質なビデオを生成する(下の写真)。入力されたテキストに従ってビデオを生成する機能を持つ。物理法則に準拠したビデオを生成し、これをロボットや自動運転車の教育で使う。

出典: Nvidia

Autoregressive Modelsを使ってみると

NvidiaはCosmosの機能をライブラー「API Library」で公開しており、ここで性能や機能を検証することができる。

Autoregressive Modelsについては「cosmos-1.0-autoregressive-5b」のモデルが公開されている(下の写真)。

イメージやビデオを入力すると、それに続くシーンを予測し、それをビデオとして出力する。ロボット開発において、最適な次のアクションを選択するために使われる。

出典: Nvidia

Diffusion Modelsを使ってみると

また、Diffusion Modelsについては「cosmos-1.0-diffusion-7b」のモデルが公開されている(下の写真)。

テキストを入力すると、Cosmosはそれに従ってビデオを生成する。例えば、「クルマのウェブカメラが雪道をゆっくり進む情景」と指示すると、そのシーンが生成される。

自動運転車の開発において、特殊なシーン(雪道や悪天候や夜の情景など) をCosmosで生成し、これを教育データとして使う。

出典: Nvidia

オープンソースとして公開

NvidiaはCosmosをオープンソースとして公開しており、このプラットフォームを使ってロボットや自動運転車の開発を展開できる。

CosmosはNvidiaのカタログ「NGC Catalog」とAIオープンスースサイト「Hugging Face」(下の写真)に公開されており、モデルをダウンロードして開発環境を構築する。NvidiaはCosmosをオープンソースとして公開することで、ロボットや自動運転車などPhysical AIの開発が進むと期待している。

出典: Hugging Face

ヒューマノイドロボット開発プロジェクト

Nvidiaはヒューマノイドロボット開発プロジェクト「GR00T」を運用しており、パートナー企業はここで多彩なロボットを開発している。

Nvidiaが世界におけるヒューマノイドロボット開発のハブになっている。ヒューマノイドロボットは大規模言語モデルを搭載し、人間のようなインテリジェンスを持ち、汎用的に稼働するモデルとなる。Cosmosはこれに次ぐプロジェクトで、ロボット開発のためのシミュレーション環境を生成し、アルゴリズム教育を効率化する。

基調講演で、Jensen Huangは共同開発しているヒューマノイドロボットと共に壇上に立ち、エコシステムの広がりをアピールした(下の写真)。

出典: Nvidia