[No.219]xAI最新モデル「Grok-4」は破格の性能で他社を圧倒!!推論機能が10倍向上、マスクはこのモデルをヒューマノイドロボットに適用する構想を発表

xAIは7月9日、最新モデル「Grok-4」をリリースした。

発表イベントはX Spacesでストリーミングされ、イーロン・マスクと開発者がモデルの機能や性能を解説した。Grok-4は性能が格段に向上し、他社を大きく引き離しトップの座を占めた。

特に、AIのインテリジェンスを測定する試験では、他社モデルの二倍の性能をマークし、AGIに一番近い製品となった。マスクはGrok-4をTeslaとヒューマノイドロボット「Optimus」に適用する計画を明らかにした。

xAIはGrok-4をクルマやロボットなどの物理社会に展開することで、モデルが世界感「World Models」を理解し、AGI開発で他社との差別化を図る。

出典: xAI

Grok-4の概要

Grok-4はxAIのフロンティアモデルで第四世代の製品となる。

xAIは2023年から開発を開始し、マスクの指揮の下で、短期間で急速に性能を伸ばした。Grok-4は世界最大のAIスパコン「Colossal」で開発され、このデータセンタが巨大モデルの開発を支えている。

AIモデルを評価するベンチマークではGrok-4は、OpenAI o3-proとGoogle Gemini 2.5 proを抜いてトップの成績をマークした(下のグラフ、左端の棒グラフ)。

出典: Artificial Analysis

AGIの性能を測定するベンチマーク

Grok-4はインテリジェンスを測定するベンチマーク「ARC-AGI-2」で他社の性能を二倍上回り、トップの成績を達成した。

これは、AGIの性能を測定するもので、モデルのIQ(知能指数)を査定する指標となる。

Grok-4は16%を超える性能を示し、それまでトップであったAnthropic Claude Opus 4の二倍の性能を示した(下のグラフ)。

出典: xAI

推論機能が格段に向上

この背景にはGrok-4の推論機能が大きく向上したことがある。

Grok-4はGrok-3に比べ、言語機能の性能の伸びはほぼフラットであるが、推論機能が10倍向上した。また、Grok-4の推論機能の教育では、教育時間に比例して性能が向上する特性「スケーリング(Scaling)」を示した(下のグラフ)。

また、実行時には、計算時間を長くすると、これに応じて性能が向上した。この事実は、Grok-4はこれからも性能が伸び続ける可能性を示している。

出典: xAI

AIエージェントの機能

Grok-4はAIエージェントとして高い機能を備えていることを示した。

人間に代わりAIエージェントが自動販売機を管理運用するベンチマーク「Vending-Bench」でトップの性能をマークした。

この試験は自動販売機をAIエージェントで運用し、その事業成績を競うもので、Grok-4の売り上げ高は4694.15ドルで、今までトップであったAnthropic Claude Opus 4の二倍の成績を達成した。

出典: xAI

本当に性能が高いのか

Grok-4はベンチマークで驚異的な性能を示しAI業界にショックを与えた。

市場では研究者や開発者が独自の手法でGrok-4の性能を検証しているが、推論機能の高さが追認されている。研究者や著名人がGrok-4をベンチマークした結果が数多く「X」に掲載されている。

Grok-4で物理現象をシミュレーションする試験「Hexagon Vibe Check」では一回のトライアルで合格した(下の写真)。

出典: Flavio Adamo

説明資料が殆ど無い

一方で、Grok-4に関する技術資料は公開されてなく、モデルの構成や開発手法などは明らかにされていない。

また、Grokシリーズは「究極の真実を探求するモデル」として開発されているが、ガードレールなどセーフティ技術に関する情報も開示されていない。

マスクはオープンな手法でAIを開発すると宣言したが、開示されている情報は限られ、Grok-4のシステム構成や教育手法などを把握することができない。

ヒューマノイドロボット

マスクは発表イベントの中でGrok-4をTeslaが開発しているヒューマノイドロボット「Optimus」(下の写真)に適用する構想を明らかにした。

Teslaがロボットのハードウェアを開発し、xAIがロボットのブレインとしてGrok-4を開発する。具体的には、Teslaはロボットのセンサーやアクチュエータなどを開発し、Grok-4はロボットを制御する言語機能や推論機能を提供する。

Grok-4の言語機能でロボットは言葉による指示を理解し、人間との対話を通して仕事をこなす。

ロボットはコンピュータビジョンで周囲のオブジェクトを認識し、Grok-4の推論機能でその意味を把握し、次のアクションを生成する。

出典: xAI

世界モデル

Grok-4は実社会とのインタラクションを通して、世界モデル「World Models」を学習する。

Grok-4はサイバー空間だけでなく物理社会で稼働することで、3D空間における物理現象を学ぶ。更に、これに基づき新たな仮説を生み出し、仮説が正しいかどうかを検証することで、新しい法則を生み出す。

これは、ロボティックスだけでなく、AGIの基礎技術となり、Grok-4がAGI開発の重要なステップとなる。

マスクの人気が上昇中

発表イベントは深夜に行われ、マスクと開発者がスライドを説明する形で進行した。

マスクはトランプ政権のDOGE(政府効率化省)を退き、政界から遠ざかっていたが、今では政治新党「America Party」を設立すると表明し、再度、政治に関与している。

マスクはDOGEにおいて過激な手法で予算を削減し、アメリカ社会で信頼が急落した。一方、新党結成では多くの有権者がこれに賛同しており人気が上昇傾向にある。

マスクはX、xAI、Tesla、SpaceXの事業経営と政治活動を掛け持ちしており、AGI開発で成果を上げることができるのか、手腕が試されている。

出典: xAI