[No.211]Google AIビデオ「Veo 3」が米国で一大センセーション!!ビデオだけでなく音声や音楽を生成、AIで映画を製作できコンテンツ業界が激変
Googleはテキストからビデオを生成するAIモデルの最新版「Veo 3」をリリースした。
Veo 3はビデオの品質が格段に向上したことに加え、会話や背景音や音楽を生成する機能が付加され、AIで完全なビデオを生成できるようになった。ビデオとサウンドが生成され、AIで映画を製作できる時代に突入した。
実際に使ってみると、音楽を演奏するシーンは衝撃的で、楽器の演奏に合わせてクールなサウンドが生成される(下の写真)。
ソーシャルメディアにVeo 3で生成したビデオが数多く掲載され、コンテンツ業界が激変する予兆を示している。

Veo 3の概要
GoogleはAIビデオの最新モデル「Veo 3」をリリースした。
衝撃的にリアルなビデオを生成できソーシャルメディアで波紋を広げている。Veo 3は入力されたテキスト(プロンプト)とイメージに従って、ビデオを生成する機能を持つ。
多くのAIビデオが市場に投入されているが、Veo 3はイメージだけでなくサウンドを生成する機能を持ち、ビデオ撮影したようにリアルな映像を生み出す。Veo 3は720pの画質で8秒間のビデオを生成する。
AIビデオの生成ツール
Googleは同時に、ビデオを生成するツール「Flow」をリリースした。
Flowはプロ向けのAIビデオ制作フレームワークで、多彩な機能を搭載している。FlowはVeoの他に、Imegen(イメージ生成AIモデル)とGemini(言語モデル)とリンクし、AIモデルを組み合わせて高度なビデオを生成できる。
Imegenで生成したイメージを元に、ここからビデオに生成する機能などがある。また、Gemini 2.5 Proを使いブラウザーのインターフェイスからビデオを作成するオプションもある。
Gemini の「Videoボタン」を選択し、プロンプトを入力してビデオを生成する(下の写真)。

Veo 3のシステム構成
Veo 3は三つのAIモデルを組み合わせた構造で、言語モデル「Gemini」が入力されたプロンプトを理解する。
ビデオモデルがプロンプトに従って映像を生成し、オーディオモデルが映像に沿ったサウンドを付加する。
ビデオモデルは「ディフュージョン(Diffusion)」というアーキテクチャに基づき、ランダムなノイズからこれらを除去する手法でクリアなイメージを生成する。
物理現象の理解と背景音
GoogleはVeo 3で生成したビデオを公開している。
デリケートな鳥の羽が風で飛ばされて、蜘蛛の巣に引っ掛かる映像が示されている(下の写真)。軽い羽根が風に乗る物理現象を正確に描いている。
また、AIモデルは情景を理解し、風の音などの背景音を自動で生成する。
人間がプロンプトで背景サウンドを指示する必要は無く、AIがシーンを理解し自動で背景音を挿入する。

スパイ映画のワンシーン
Veo 3は映画のシーンを生成する。
込み合っている駅のプラットフォームで、スパイが機密情報の受け渡しを会話するシーンが描かれている(下の写真)。ここでは背景の騒音と二人の人物の会話が描写されている。
背景の騒音はVeo 3が自動的に生成するが、会話の内容はプロンプトで設定できる。ハリウッドで制作される映画のクリップがVeo 3で生み出される。

バイオリンを演奏
Veo 3の衝撃は音楽の演奏をシンセサイズできることにある。
バイオリンを演奏するシーンでは、楽器を操作する細やかな動作を忠実に再現し、それに同期して鮮明なサウンドを生成する(下の写真)。プロのバイオリニストのレベルの演奏をVeo 3で生成できる。
実際にVeo 3を使ってみると、簡単に演奏のシーンを生成できる。「東京タワーの下でバンドがジャズを演奏」と指示するだけで、ピアノ、サキソフォン、ベース、ドラムが描き出され、クールな音楽が生成される(先頭の写真)。

コマーシャルビデオを生成
Veo 3によりクリエイティブ産業が激変することになる。
Veo 3は8秒間の短編ビデオを生成する機能を持ち、コマーシャルビデオの多くがVeo 3で生成されることになる。実際に、ビデオ制作の専門家は、Veo 3で生成したビデオを連結してコマーシャルビデオのプロトタイプを生成している(下の写真)。
日常目にするコマーシャルビデオと全く遜色は無く、低価格で魅力的なビデオを生成できる時代となった。
コンテンツ業界のビジネスプラクティスが根底から変わることになる。

フェイクビデオとその対策
Veo 3で生成した映像はカメラで撮影したビデオと全く見分けがつかない。
業界はこの現象を「Singularity」と表現し、AIビデオとリアルビデオの境界が消滅したことを示している。高品質のフェイクニュースやフェイクビデオが大量に生成されることになり、消費者はコンテンツの真偽を判定するスキルをアップデートする必要がある。
目に入る映像からはリアルとフェイクの判断は不可能で、多角的な視点から本物を見分ける技能が必須となる。
ビデオ製作者や配布メディアやコンテンツの背後情報など、複数の要素を頼りに総合的な判断能力が求められる。(下の写真、偽のモーターショーから実況中継するビデオ)
