[No.226]Google「ナノ・バナナ」の衝撃!!米国メディア業界が激変、最新モデルGemini 2.5 Flashが画像を編集しフォトショップを置き換える
Googleは今週、イメージを編集するAIモデル「Gemini 2.5 Flash Image」を公開した(下の写真、イメージ)。
このモデルは“ナノ・バナナ(Nano Banana)”の愛称で呼ばれ、入力した写真をプロンプトに従って編集する機能を持つ。Adobe Photoshop(アドビ・フォトショップ)の機能をAIモデルが代行するもので、言葉でイメージを編集でき、米国で爆発的に利用が広がっている。
実際に使ってみると、プロのクリエーターではなく素人がエンタープライズ品質のクリエイティブを簡単に生成でき、AIイメージの中で最先端を走る製品であると実感する。

ナノ・バナナの概要
“ナノ・バナナ”の機能はシンプルで、写真をアップロードし、これをプロンプト(言葉)で編集することができる。
多くのAIモデルが同等の機能を搭載しているが、ナノ・バナナが決定的に異なるのは、入力した写真のイメージを忠実に保持することにある。写真に写っている人物の顔イメージを正確に記憶し、これを編集して出力する。
結果はフォトショップで編集したように、入力イメージを正確に保持し、指示されたタスクをピンポイントで実行する。(下の写真、ジュリア・ロバーツの顔写真(左側)を芸術家(右側)に編集したもの、顔イメージが正確に再現されている。)

ナノ・バナナの使い方
ナノ・バナナはGoogleのAIクラウド「Google AI Studio」で利用する。メディア生成のページで「Nano Banana」を選択する。
このページでイメージ生成モデル「Imagen」やビデオ生成モデル「Veo」などを使うことができる。
また、Geminiアプリからナノ・バナナを使うことができる。GoogleはGeminiシリーズでマルチモダルを基盤とする応用技術の開発を重点的に展開している。

コア機能1:イメージを編集
ナノ・バナナの基本機能はイメージを編集する機能で、入力した写真をプロンプトで編集することができる。
テイラー・スウィフトの顔写真を入力し(上段)、「東京のファッションモデル」に編集するよう指示すると、渋谷の交差点でポーズをとるシーンが生成される(下段)。
ナノ・バナナは顔イメージから全体像を生成し、背景に渋谷交差点のイメージを生成する。

コア機能2:イメージのフュージョン
ナノ・バナナは二つの写真を合成して新たなイメージを生成する機能がある。
トランプ大統領(左端)とゴールデンリトリバー(中央)の写真を入力し、「ホワイトハウスで大統領が犬を抱いているイメージ」を生成するよう指示すると、そのシーンが生成される(右端)。
ナノ・バナナは著名人をフィルタリングすることなく、アルゴリズムが編集イメージを出力する。

コア機能3:マルチステップ
ナノ・バナナは対話形式でイメージを編集していく機能がある。
シャンゼリゼ通り(上段)をクリスマスのシーンに編集する際に、ステップごとにオブジェクトを追加することができる。最初のステップでクリスマス飾りをインポーズし、次の段階でサンタクロースのパレード(下段)を付加できる。
企業などがアイディアをステップごとにブレーンストーミングし、最終モデルを生成するなどの使い方が想定される。

コア機能4: イマジネーション
ナノ・バナナは入力したイメージをシードとし指示されたオブジェクトを生成する。
桜の花の写真を入力し(上段)、「このデザインの着物を生成」するよう指示すると、桜の花をあしらった着物を生成する。
「モデルがこの着物を着てニューヨークのタイムズスクエアを歩くイメージ」を指示すると、このシーンがリアルに生成される(下段)。

ファウンデーションモデル
ナノ・バナナはファウンデーションモデル最新版「Google Gemini 2.5 Flash」をベースとするAIモデルとなる。
Gemini 2.5 Flashはネイティブのマルチモダルで、イメージ(写真)とテキスト(プロンプト)を単一のニューラルネットワークで処理することができる。
ナノ・バナナは世界のナレッジを有し、イメージやテキストのコンテクストを理解し、プロンプトの命令を正確にイメージに反映する。
イメージの一貫性
AIモデルでイメージを生成する際の最大の課題がオブジェクトの一貫性(Consistency)で、シーンが変わっても、オブジェクトの形状が変わらないことが最重要エレメントとなる。
ナノ・バナナは、入力したイメージが変わることなく、その形状やシーンを忠実に再現する。
女性の顔や背景のシーンが維持され、出力される画像に高精度に反映される(下の写真)。他のAIモデルでイメージを編集すると、入力した写真の顔が微妙に変形し、これがクリエイティブ作成の最大のネックとなっている。

イメージの一貫性を保つ技法
Gemini 2.5 Flashはこの一貫性を実現するために複数の手法を使っている。
その一つが前述のマルチモダルで、テキストとイメージを単一のモデルで処理する。もう一つがイメージを編集する手法で、アルゴリズムは写真ではなくそれを圧縮したデータを対象とする。
圧縮したデータは「Latent Space」と呼ばれ、入力したイメージを「Embedding(埋め込み)」という手法でベクトル化したものとなる。
AIモデルは編集処理をこのLatent Spaceで実行し、オブジェクトは一貫性を保つことができる。(下の写真、入力した写真(左側)を様々なシーンに編集するが(右側)、顔イメージは異感性を保つ)

ウォーターマーク
ナノ・バナナは生成したイメージはAIで造られたものであることを示すためウォーターマーク(Watermark)を挿入する。
生成されたイメージの右下にGeminiのロゴを表示する。また、イメージの中に人間の眼では識別できないデジタルなウォーターマークを挿入する。これはGoogle DeepMindが開発した「SynthID」という手法が使われ、生成したイメージの出典などのメタデータが添付される。
ナノ・バナナで生成した画像は、人間の眼では真偽を判別することができないため、ウォーターマークが必須となる。
メディア業界が激変
専門家が高度なツールを使って広告などのコンテンツを生成してきたが、ナノ・バナナを使うことで、誰でもがクリエーターになれる時代となった。
Adobe Photoshopを使うスキルが無くても、プロレベルのコンテンツを生成でき、メディア業界のビジネスモデルが大きく変わる。
同時に、ソーシャルメディアにはAIで生成したイメージやビデオが大量にポストされ、所謂“フェイクイメージ”が日常生活の一部を構成する。
消費者はフェイク時代を生き延びるためのノウハウを修得することが新たな課題となる。