[No.79]AIで短編映画を制作する時代が到来!Metaはテキストからビデオを生成する技法「Make-a-Video」を公開

Metaはテキストをビデオに変換するAIを公開した。これは「Make-a-Video」と呼ばれ、言葉の指示を理解し、それに従ってビデオを生成する機能を持つ。

例えば、「スーパーマンのマントをまとった犬が空を飛ぶ」と指示すると、AIはそのシーンをビデオとして生成する(下の写真)。

生成されたビデオの品質は高く、メタバースやプロモーションビデオの作成などで利用される。

出典: Meta

Make-a-Videoの概要

「Make-a-Video」は入力されたテキストを解析し、その意味を理解して、指示に沿って、ショートビデオを生成する。AIは異なるスタイルのビデオを生成し、現実には起こりえないシーンを描き出す(上の写真、「空を飛ぶ犬」)。

また、これとは対照的に、現実のシーンを高精度で描写する(下の写真左側、「水を飲んでいる馬」)。

更に、油絵のタッチなど、特定のスタイルでビデオを生成することもできる(下の写真右側、「イブニングドレスを着た二人が帰宅中に土砂降りの雨にあったシーン」)。

出典: Meta

ビデオを生成する仕組み

Make-A-Videoは複数のAIを組み合わせ、入力されたテキストを、荒い動画に変換し、その解像度をあげて、解像度の高いビデオを生成する仕組みとなる(下のグラフィックス)。

AIは、入力されたテキストの意味を把握し、それをイメージに変換する(「P」の部分)。更に、そのイメージから、動画を構成するフレームを生成し(「Dt」)、フレームの数を増やし(「F」)、それらの解像度を上げる(「SRtl」と「SRh」)処理を実行する。

Make-A-Videoは、テキストからラフな動画を生成し、複数のAIでその解像度を向上し、最終ビデオを生成する構造となる。

出典: Uriel Singer et al.

イメージからビデオを生成

Make-A-Videoはこの他に、イメージをビデオに変換する機能がある。AIが、入力された1枚のイメージを、ショートビデオに変換する。

例えば、オランダの画家レンブラント(Rembrandt)の名作「ガラリアの海の嵐(The Storm on the Sea of Galilee)」をMake-A-Videoに入力すると(下の写真左側)、アルゴリズムはこれをショートビデオに変換する(右側)。

ここには、嵐の中でキリストを乗せた船が、高波を受けて航行する様子が、動画で描かれている。

出典: Meta

ビデオからバリエーションを生成

更に、Make-A-Videoは、入力したビデオからそのバリエーションを生成する機能がある。AIが、入力されたビデオのフレームを解析し、その意味を理解して、バリエーションを生成する。

宇宙飛行士が宇宙遊泳しているビデオを入力すると(下の写真左側)、AIはそれをアレンジしたビデオを生成する(右側)。

出典: Meta

AIがイメージを生成

Metaは、これに先立ち、テキストをイメージに変換するAI「Make-A-Scene」を公開している。AIは、入力された言葉の指示に従って、イメージを生成する。

例えば、「笑っている紫色のヤマアラシ」と言葉で指示すると、Make-A-Sceneはこのイメージを生成する(下の写真中央)。

出典: Oran Gafni et al.

人間に代わりAIがクリエータになる

今回は、Metaはこの機能を拡張し、「Make-a-Video」として、テキストをビデオに変換するアルゴリズムを開発した。これらはコンテンツを生成するAIで、AI研究のホットテーマとなり、新技術が続々登場している。

人間に代わりAIがビデオを生成する時代に突入し、メタバースの開発や、企業のプロモーションビデオの制作などでの展開が期待されている。