[No.130]OpenAIは「GPT-4V」を公開、生成AIが視覚を持ち図形の意味を理解、媒体がテキストからイメージに広がりスキルが飛躍的に向上、同時に危険性も拡大
OpenAIはGPT-4に視覚機能を付加し機能を大幅に強化した。
新モデルは「GPT-4V」と呼ばれ、テキストを理解するGPT-4にビジョンを搭載したモデルとなる。実際に使ってみると、GPT-4Vはイメージを理解する能力が極めて高く、人間のように多彩なタスクを実行できる。
同時に、GPT-4Vはイメージに関する偏見や危険性を持っていることが明らかになり、新たに安全対策が求められる。

GPT-4Vとは
GPT-4VはGPT-4にビジョンの機能を付加したモデルとなる。
OpenAIはこの機能を論文で公開していたが、GPT-4Vがリリースされ、実際に利用できるようになった。GPT-4に写真を入力すると(左側)、GPT-4Vがこれを解析し、結果をテキストで出力する(右側)。
プロンプトで「写真を詳細に説明して」と指示すると、写真に映っているビルやケーブルカーや通りや歩行者などを綿密に描写する。
言葉を読むとその情景を再現できるほど詳細に回答する。

調理方法を説明
GPT-4Vの利用方法は様々で、料理の写真を入力し、その調理法を尋ねると(左側)、その結果を出力する(右側)。
GPT-4は写真に写っている料理の種類を把握し、それぞれの調理方法を出力する。例えば、朝食の写真を入力すると、オムレツを作るための具材とその調理法を解説する。
レストランで美味しい料理を食べた時に、それをカメラで撮影しておくと、その調理法を知ることができる。

数学の問題を解く
GPT-4Vは手書きの文字を理解することができ、プロンプトに従ってそれを解析する。
例えば、数学の問題を入力すると(左側)、GPT-4Vはそれを解くことができる(右側)。その際に、GPT-4Vは、問題を解く手順をステップごとに解析し、回答を導き出した手順を示す。
答えだけでなく、回答を導き出したロジックを知ることができる。

芸術作品の鑑賞
GPT-4Vは芸術作品について豊富な知識を持っている。
例えば、アメリカの画家Edward Hopperの作品「Summertime」を入力すると(左側)、その作品の意味を教えてくれる。なぜこの作品が評価されているかを尋ねると、GPT-4Vは、この絵画は「現代社会の孤独感を光と陰で表現している」と説明する(右側)。
美術館で音声ガイドを使って作品を鑑賞するように、GPT-4Vが学芸員となり、絵画の背景や価値を解説する。

解けない問題も少なくない
GPT-4Vにパズルを入力すると、それが何かを把握し、回答を出力するが、間違っているケースが多々ある。
クロスワードパズルを入力すると(左側)、GPT-4Vはそれを解析し、回答を導き出す(右側)。しかし、この答えは間違っており、正解にたどり着けない。
また、数独(Sudoku)の問題を入力してもこれを解くことができない。
数学のように論理に裏付けられた問題は得意であるが、定石が無いゲームは苦手のようである。

マルチモダルの年
今年2023年は「Year of Chatbots(チャットボットの年)」といわれ、OpenAIのChatGPTやGoogleのBardが高度な技術を示し、社会で急速に普及した。
来年2024年は「Year of Multi-Modal」といわれ、生成AIがマルチメディアを理解する年になる。生成AIは、テキストの他に、ボイスやイメージを理解し、マルチモダルとなる。
生成AIは、言語を理解し、言葉を話し、目で見ることができ、人間とオーバーラップする領域が大幅に増え、インテリジェンスが大きく向上すると期待されている。
【補足情報:GPT-4Vの機能制限】
システムカード
OpenAIはGPT-4Vの機能概要と制限事項を「GPT-4V(ision) system card」として公開した。
これはシステムカードと呼ばれ、GPT-4Vの機能と制限事項を纏めたドキュメントとなる。OpenAIはGPT-4Vの機能を改善してきたが、まだ様々な危険性があると指摘している。
GPT-4Vの利用に際しては、これらの問題を考慮してシステムを運用する必要がある。
健康に関する情報
GPT-4Vを医療や健康に関する情報の解析で利用する際は注意を要す。
GPT-4Vは化学構造(Chemical Structure)を正しく判別することができない(右側)。また、キノコの種類を判定する精度は限られている。キノコの写真をGPT-4Vに入力し、その味を尋ねると、「これはタマゴテングタケ(Death Cap)で、味は無いが猛毒である」と回答(左側)。
これは正解の事例であるが、多くのケースで判定が間違っており、GPT-4Vを毒キノコの判定で使うのは危険である。

偏見と差別
GPT-4Vは事実と異なるバイアスしたコメントを出力する。
例えば、女性の写真を入力し、アドバイスを求めると、GPT-4Vは「太っていても美しい」と、身体に関する意見を出力する(左端)。これはステレオタイプを反映したもので、GPT-4Vは女性の写真を身体の形状に結び付けるという、偏った解釈を示す。
このため、最新モデルのGPT-4Vは、「回答できない」として、偏見を抑止する。

GPT-4V開発手法
GPT-4VはGPT-4の技術に構築され、これにビジョン機能を搭載したモデルとなる。
GPT-4Vは、テキストの中で次の言葉を予測するアルゴリズムで、モデルは大量のテキストとイメージのデータを使って教育された。更に、教育したモデルを人間が介在して最適化するプロセスを経た。
この手法は、「Reinforcement Learning from Human Feedback (RLHF)」と呼ばれ、GPT-4Vが生成した回答の中で最適なものを人間が選び、これをモデルにフィードバックし、強化学習が回答のスキルを習得した。
GPT-4Vはビジョン機能を持つ最初のモデルで、多くの危険性を内包しており、開発が続けられている。