[No.137]Googleは生成AI次世代モデル「Gemini」を投入、ベンチマークでGPT-4を上回るがその差は僅か、キーワードは「推論機能」と「マルチモダル」

Googleは12月6日、生成AI次世代モデル「Gemini」を発表した。

GeminiはベンチマークでOpenAIのGPT-4を上回り最先端の言語モデルとなる。Geminiは複雑なタスクをステップごとに思考する「推論機能」が強化され回答の精度が向上した。

また、Geminiはテキストの他に、イメージやビデオやオーディオを理解する「マルチモダル」が導入され、視覚や聴覚を備えたモデルとなる。

一方、Googleが満を持して投入したGeminiであるが、GPT-4を上回るもののその差は僅かで、生成AI開発で苦戦していることが窺われる。

出典: Google
出典: Google

Geminiの概要

GeminiはGoogleが開発した最大規模の言語モデルで高度な機能を持つ。

Geminiの特徴は、データセンターからスマホで稼働できる構成で、三つのサイズから構成される。

  • Gemini Ultra:最大構成のモデルでデータセンターで使われ複雑なタスクを実行する。このモデルがGPT-4対抗機種となる。ただし、リリースは2024年1月を予定。
  • Gemini Pro:中規模構成のモデルで幅広いレンジのタスクを実行する。Googleのチャットボット「Bard」のエンジンとして稼働している。
  • Gemini Nano:最小構成のモデルでモバイルデバイスの上で稼働する。Googleのスマホ「Pixel 8 Pro」に搭載されている。
出典: Google
出典: Google

ベンチマーク結果

GoogleはGemini Ultraのベンチマーク結果を公開し、GPT-4の性能を上回ったことをアピールしている。

標準的な32のベンチマークで、Geminiが30部門でGPT-4をうわまわり、この市場でトップの機能を持つモデルとなる。

ベンチマーク結果のサマリーは下記の通り(いずれもGemini Ultraの性能):

  • MMLU (massive multitask language understanding):言語モデルの総合性能を評価するベンチマーク(下のテーブル最上段)。GPT-4を上回ったことに加え、人間の言語能力を初めて超えた。
  • Big-Bench Hard:言語モデルの推論機能を評価するベンチマーク(上から二段目)。GPT-4の性能をわずかに上回る。
  • MATH:数学の問題を解く能力を評価するベンチマーク(上から六段目)。推論機能を評価するもので、試験の中で最難関の分野。
出典: Google
出典: Google

推論機能

Geminiは推論機能が強化され、複雑なタスクを正確に実行することができる。

推論機能とは、与えられた指示をステップごとに考察し、最終ゴールに到達するための基礎技術となる。推論機能を使うと、複雑な検索を正確に実行できる。

研究者は過去の論文から、特定のテーマに関するものを検索するが、その数は膨大で選別には時間を要する。ここでGeminiを使うと、このプロセスを高速で実行できる。

Geminiに、特定のテーマ(例えば非コードゲノム変異(Non-Coding Variants))に関する論文を検索するよう指示すると、推論機能を使ってプロセスを検証しながらこれを実行する。Geminiは20万件の論文を読み、指示されたテーマが書かれているものを250点選び出す(下の写真)。

実行結果を表示させる指示では、過去の研究成果のグラフを入力すると、Geminiは新しい情報を反映したグラフを生成する。

出典: Google
出典: Google

マルチモダル

Geminiはマルチモダル機能が導入され、テキストに加え、イメージ、ビデオ、オーディオなどのモードを理解することができる。

Geminiは手書きの文字を理解することができ、生徒が提出した算数の答案を採点することができる。生徒の手書きの回答(下の写真左側)を読み、正解かそうでないかを判定する。

更に、間違っている個所を特定(左側赤色の枠)し、なぜ間違っているかを説明し、問題の正解を示す(右側)。

このケースではマルチモダルの他に、推論機能を使って物理の問題の解法を説明する。

出典: Google
出典: Google

アーキテクチャ

Geminiは大規模言語モデルであるが、そのアーキテクチャはGPT-4とは大きく異なる。

従来のモデルは、メディアの種類によってそれを処理するための専用ネットワークを備える。テキストを処理するネットワークや、イメージを処理するネットワークが構築され、最終的にそれを統合してマルチモダルの処理を実行する。

これに対しGeminiは、単一のネットワークで異なるメディアを処理する構造となる。テキスト、オーディオ、イメージ、ビデオを単一のネットワーク(Transformer)で処理する(下の写真)。

このため、Geminiはマルチモダル・ネイティブのネットワークという位置づけになる。

出典: Google
出典: Google

次世代モデルの開発競争

GoogleはGeminiを11月に発表すると噂されていたが、この予定が一か月延伸された形となった。

しかし、Geminiのハイエンドモデル「Gemini Ultra」について製品は投入されず、製品発表に留まった。リリースは2024年1月に予定されている。

GeminiはGPT-4の性能を上回るがその差は僅かで、製品開発が難航していることをうかがわせる。Geminiはマルチモダルの中でビデオを強化し、ここでGPT-4に大きく先行するといわれてきたが、発表ではその新機能は登場しなかった。

OpenAIは次世代モデル「GPT-5」を開発しており、生成AIの開発競争が一段と激化する。