[No.237]Google「Gemini 3」はベンチマークテストで他社を圧倒!!AI市場で独走態勢に突入、マルチモダル推論機能が格段に向上しAGIに向けて大きく前進
Googleは11月18日、最新モデル「Gemini 3」を発表し、同日に製品をリリースした。
Gemini 3はベンチマークテストでトップの性能を示し他社を圧倒した。AI開発競争でGoogleがOpenAIやAnthropicを大きく引き離し独走態勢に突入した。
Gemini 3はマルチモダルと推論機能が格段に強化され、高度なAIエージェントを構築するベースとなる。DeepMindのCEOであるDemis Hassabisは「AGI開発に向けた大きな一歩となる」と述べた。
実際に使ってみると、Gemini 3は高度なインテリジェンスを発揮し、AGIエージェント時代に突入したとの印象を受けた。

製品構成
Googleは二つのモデル、「Gemini 3 Pro」と「Gemini 3 Deep Think」、をリリースした。
前者はベースモデルで日々の業務やAIエージェントの基盤技術となる。後者は推論機能を強化したモデルで、長時間にわたる考察を通し極めて複雑なタスクを実行する。
Googleは検索エンジンの「AI Mode」にGemini 3 Proを導入しサーチ機能が大きく向上した。
Gemini 3 Proの性能
Gemini 3 Proは業界の標準ベンチマークテスト「LMArena Leaderboard」で二位を大きく引き離しトップの性能をマークした(下のグラフ)。
xAI Grok-4.1がトップであったがGemini 3 Proが1501をマークし大きく躍進した。
LMArena Leaderboardは利用者のフィードバックで性能を決めるベンチで世論調査による性能評価となる。
これは利用者の実感を反映したもので、Gemini 3は大きなメリットを感じるモデルとなる。

Gemini 3 Deep Thinkの性能
Gemini 3 Deep Thinkはベースモデルを拡張したもので、推論機能とマルチモダルを理解する能力が大きく向上した。
Gemini 3 Deep Thinkは極めて複雑な問題を解決するために使われる。Gemini 3 Deep Thinkは最も難解なベンチマーク「Humanity’s Last Exam」でGPT-5 Proを引き離してトップの成績をマークした(下のグラフ、左側)。
また、AIモデルの知能指数を測定するベンチマーク「ARC-AGI-2」では、Gemini 3 Deep ThinkはGPT-5.1の2.5倍の性能をマークし、インテリジェンスの高さを示した(下の写真、右側)。
また、前世代モデルGemini 2.5から性能が10倍近く向上し、Gemini 3 Deep Thinkは推論機能が格段に向上したことが分かる。

コア機能#1:理解能力
Gemini 3はマルチモダルの推論機能がエンハンスされ、マルチメディアのコンテンツを理解する能力が格段に進化した。
イメージやビデオを読み込みその内容を理解する。ピックルボール(Pickleball)の試合のビデオを入力し(下の写真、左側)、Gemini 3に「右手前のプレーヤの動きを解析し、スキルを向上するためのアドバイス」を求めると、モデルは「パドル(ラケット)の位置が下がる傾向にあり、常にお腹の高さに構えておくこと」と助言した(右側)。
Geminiがスポーツ競技のコーチとなり、プレーヤに的確なアドバイスを行う。

コア機能#2:開発能力
Gemini 3の最大の特徴はプログラム・コーディングなど開発能力が格段に向上したことにある。
これは「バイブコーディング(Vibe Coding)」とも呼ばれ、シンプルなプロンプトでGemini 3がホームページを開発し、ビデオゲームを生成する。
Gemini 3に「レトロなイメージの3D宇宙船ゲームを開発しブラウザーに展開」と指示すると、それを開発しそれをHTMLファイルに格納する。ゲームはJavaScriptベースのWebGLで可視化され、これをブラウザーに展開してゲームをプレーする(下の写真)。
ゲームボーイ(Game Boy)などに搭載されているゲームはバイブコーディングで生成できる。

コア機能#3:計画能力
計画能力とは複雑なタスクを完遂するために長期レンジのプランを策定しこれを実行する機能となる。
AIエージェントのコア技術でGemini 3は計画機能が大きく向上した。計画能力を査定するベンチマークの代表が「Vending-Bench 2」で、AIエージェントが人間に代わり自動販売機の管理を司り、指定された期間の収入を比較するものとなる(下の写真)。

Vending-Bench 2で、主要モデルをAIエージェントとして360日間稼働させると、Gemini 3 Proがトップの性能をマークした(下のグラフ)。収入額は5,462ドルで二位のClaude Sonnet 4.5の3,840ドルを大きく上回った。Gemini 3はAIエージェントのコア技術としてデザインされているがその実力を発揮した。

実際に使ってみると:Google AI Studio
Gemini 3 Proはアプリとクラウド「Google AI Studio」(下の写真)で使うことができる。
実際に使ってみると、Gemini 3 Proはコーディング能力が大きく進化したと感じる。バイブコーディングを体験でき、本当に言葉だけでプログラムを開発できる。
Gemini 3 Proに「会社が主催するダンスパーティーのイベントに関するホームページを生成」するよう指示すると(下の写真、中央部)、ウェブサイトのランディングページを生成した。

実際に使ってみると:ホームページ
ホームページはHTMLで記述されそれをブラウザーで閲覧するとデザインを見ることができる(下の写真)。
ここでは「未来志向のデザイン」とプロンプトで指示しており、その命令が反映されたページが生成された。このページでイベントの概要を読み、RSVPボタンをクリックして、チケットを購入する。
プログラミングの知識がなくてもプロンプトで本格的なウェブサイトやコードを生成することができ、ソフトウェア開発は新たな時代を向けたことを実感する。

AGIに向けた大きな一歩
三年前にChatGPTがリリースされ、生成AIブームが起こり、OpenAIがAI市場をリードしてきた。
その後、Googleは「Google Brain」と「DeepMind」を統合し、AI研究所「Google DeepMind」を創設し、基礎研究と製品開発を一本化した。GPTシリーズの対抗モデルとしてGeminiシリーズを投入し、OpenAIを追いかけてきた。
ついに、Gemini 3で順位が逆転し、GoogleがAI市場のトップに立った。
GoogleはGeminiをAIエージェントのプラットフォームと位置付け、Gemini 3はAGI開発に向けた大きな一歩をしるした。
【捕捉情報:Gemini 3 Proのベンチマークテスト結果】
推論機能・一般知識
Gemini 3は推論機能が大幅に強化され、全てのベンチマークテストで競合他社のモデルの性能を上回った。
最難関のベンチマークテスト「Humanity’s Last Exam」でGemini 3 Deep ThinkだけでなくGemini 3 Proもトップの性能をマーク(下のグラフ、左端)。

数学・ロジック
AGIの達成度を査定するベンチマークテスト「ARC-AGI-2」で、Gemini 3 Deep ThinkだけでなくGemini 3 Proもトップの性能をマーク(下のグラフ、左端)。

ビジョン・マルチモダル
Gemini 3はマルチモダル機能が強化され全てのベンチマークテストで競合他社のモデルの性能を上回った。
PC画面のGUIを理解する機能を査定するベンチマークテスト「ScreenSpot-Pro」で他社を大きく上回り、AIエージェントとしてツールを使う機能の高さが示された。(下のグラフ、左から二番目)。

コーディング・エージェント
Gemini 3はコーディング機能で他社を上回ったが、「SWE-Bench」でClaude Sonnet 4.5に及ばなかった。
SWE-BenchはAIエージェントのエンジニアリング機能を査定するベンチマークテスト。(下のグラフ、左から二番目)。


