[No.52] OpenAIの「DALL·E 2」はテキストを高品質なイメージに変換、AIがイラストレータとなり命令されたことを描き出す

OpenAIは言葉の指示に従ってイメージを生成するAI「DALL·E 2」を開発した。

生成されるイメージは高品質で、人間が作成したものと区別はつかない。

描きたい内容をテキストで入力すると、DALL·E 2はそれに沿った画像を生成する。

「馬に乗った、宇宙飛行士を、写真イメージで」と入力すると、DALL·E 2は架空の世界を描き出す(下の写真)。画家サルバドール・ダリ(Salvador Dali)のように、機知に富んだ芸術性を発揮する。

出典: OpenAI

DALL·E 2とは

OpenAIは2022年4月、テキストをイメージに変換する機能を持つDALL·E 2を公開した。

初代のモデルは「DALL·E」と呼ばれ、2021年1月にリリースされた。

DALL·E 2は機能が大きく進化し、高品質なイメージを生成できるだけでなく、生成したイメージを編集する機能が加わった。

DALL·E 2が描き出すイメージは高品質で、テキストだけでなく、グラフィックスの領域でも、AIが人間を上回る機能を示した。

出典: OpenAI

(上の写真、「朝日の中で、草原にいるキツネを、モネのスタイルで」と指示すると、DALL·Eはそれに沿ったイメージを描き出す。

左側が初代のDALL·Eで、右側がDALL·E 2。DALL·E 2は解像度が上がり、品質が向上していることが分かる。)

言葉の指示に従って作画

DALL·E 2はイメージを生成するAIモデルで、テキストの指示に従って画像を出力する。

例えば、「画家ダリの、肖像画を、半分ロボットで」と指示すると、DALL·E 2はその命令に従った画像を生成する(下の写真左端)。

また、「柴犬が、ベレー帽と、タートルネックをまとう」と入力すると、そのイメージを生成する(下の写真中央)。

因みに、DALL·Eとは、画家サルバドール・ダリ(Salvador Dali)と、映画で有名になったロボット「WALL·E」を掛け合わせた造語で、奇抜な世界を描き出すAI画家を意味する。

出典: Aditya Ramesh et al. 

イメージを編集する機能

DALL·E 2は画像を高精度で編集する機能を持っている。画像の中で編集する場所を示し、そこに指定したオブジェクトを挿入する。

例えば、画像の中の②の場所に、フラミンゴを挿入、と指示すると(下の写真左側)、それに沿ったイメージを生成する(下の写真右側)。挿入されたフラミンゴは、環境に溶け込み、水面での反射も表示されている。

DALL·E 2は、画像に描かれたオブジェクトを把握し、その特性を理解する。

出典: OpenAI

スタイル変換

DALL·E 2は、オリジナルのスタイルを踏襲して、異なるイメージを生成する。

例えば、画家グスタフ・クリムト(Gustav Klimt)の作品「接吻(The Kiss)」のイメージをベースに(下の写真左側)、DALL·E 2は異なる作品を生成する(下の写真右側)。巨匠のタッチを学習し、その秀作を創り出す。

出典: OpenAI

テキストと画像の関係を学習

DALL·E 2は、テキストと画像の関係を学習し、入力されたテキストに従ってイメージを出力する。

例えば、DALL·E 2は「コアラ(Koala Bears)」というテキストに対応するコアラの画像を数多く学習し、両者の関係を学習する。

また、DALL·E 2は、「バイク(Motorcycle)」というテキストに対応するバイクの画像を学習する。

そして、DALL·E 2は、コアラとバイクという概念を把握し、「バイクを運転するコアラ」のイメージを生成できるようになる(下の写真)。

出典: OpenAI

開発された目的

DALL·E 2は商用モデルではなく、AIの基礎研究のために開発された。

DALL·E 2は、クリエーター向けには、簡単に思い通りのイメージを生成するツールとなる。

創造性の発揮を支援するAIとして位置付けられる。また、AI研究者は、DALL·E 2のアルゴリズムが何を学んだかを検証できる。

例えば、DALL·E 2に「Tree Bark」と指示すると、アルゴリズムは「木の樹皮」(下の写真左側)や「木に向かって吠える犬」(下の写真右側)を出力する。DALL·E 2は「Bark」という言葉を「樹皮」と「吠える」という意味に解釈していることが分かる。

このように、DALL·E 2は、AIが人間の世界をどう解釈しているかがイメージで示され、アルゴリズムのブラックボックスを開き、判定理由を説明する機能を提供する。

出典: OpenAI

制限事項

DALL·E 2が生成するイメージは、教育データが正しいことを前提にしている。

間違った教育データを使うと、DALL·E 2は間違ったイメージを生成する。

例えば、「飛行機」の写真を「犬」の写真と、間違って教育されると、DALL·E 2は教えられた通り、間違ったイメージを生成する。

また、教育を受けていない事項を問われると、間違った回答をする。

例えば、サルの一種である「Howler Monkey(ホエザル)」と指示されると、DALL·E 2はこの単語について教育を受けておらず、「吠えているサル」のイメージを出力する(下の写真左側)。Howling Monkeyは南米を中心に生息するサルの一種(下の写真右側)。

出典: OpenAI / Wikipedia

危険性の評価

DALL·E 2はAIが内包している危険性が高く、一般には公開されていない。

現在、OpenAIのチームが、どのような危険性があるのか、アルゴリズムを評価している。

DALL·E 2は、ヌードイメージ、ヘイトスピーチ、暴力など、危険なコンテンツを生成する可能性がある。

特に、著名人に関連する危険なイメージが生成されると、その社会的な影響は甚大で、取り扱いには注意を要す。

また、DALL·E 2が悪用されると、自由自在に高品質なフェイクイメージを生成でき、世論操作などに使われるリスクがある。

バイアス

DALL·E 2が出力するイメージは、人種や性別に関し公平ではなく、バイアスしていることも分かっている。

これは教育データが特定の種別に偏っているためで、生成されるイメージは白人が中心で、西洋のライフスタイルが描写される。

また、性別によるバイアスもあり、「a flight attendant」と指示すると、DALL·E 2は女性のキャビンアテンダントを生成する(下の写真)。ここには男性のキャビンアテンダントは含まれていない。

DALL·E 2はアルゴリズムのバイアスを検知するツールとして使われる。

出典: OpenAI

AIがクリエーターを置き換える

研究成果はソーシャルメディアにも公開されており、DALL·E 2が生成したイメージは好意的に受け止められている。

DALL·E 2は、現実社会には存在しない仮想空間を幻想的に描き、表現が感動的とのコメントが目立つ。

同時に、DALL·E 2は人間レベルのスキルに達し、これからクリエーターがアルゴリズムで置き換わることになる。

AIがアニメを制作する時代になり、また一つ人間の雇用が脅かされる。(下の写真左側「ウサギの探偵が、ベンチに腰掛け新聞を読む、ビクトリア風に」に描いたもの。下の写真右側「16世紀の日常生活を、8K HDで、詳細に」描いたもの。)

出典: Loreto Parisi / Merzmensch Kosmopol