[No.233]GPT-5はAGI完成度が58%、読み書き数学は人間に匹敵するが長期記憶・学習能力が決定的に劣る、AGI規制に向けた基礎研究が進む

大学の研究グループはAGIに関する科学的な定義を制定する試みを進めており、今週、その成果を公開した。

この定義をOpenAI GPT-5に適用すると、モデルはAGIである要件の58%を満たし、人間の知能の半分程度を実現していることが判明した。GPT-5は言葉の理解や数学の問題を解く能力は人間レベルに到達したが、長期的な記憶や、新しいスキルを学ぶ能力はゼロで、AIモデルは機能が偏っていることが明らかになった。

AGIは来年にも登場すると言われているが、現行モデルが人間レベルの知能を実現するには多くの課題を解決する必要があることが明瞭になった。

出典: Dan Hendrycks et al.

「A Definition of AGI」とは

この研究は非営利団体「Center for AI Safety」を中心に、カリフォルニア大学バークレー校など全米の主要大学が共同で、AGIを定義しそれを測定する技術を開発した。

これによるとAGIを「高等教育を受けた成人の知能レベル」と定義し、それを人間の知能特性と結び付けて評価した。

この定義に基づき実際にAIモデルを評価したところ、OpenAI GPT-5は58%の、また、GPT-4は27%のAGI要件を満たすとしている。

AGIを構成する10の要件

研究グループは、AGIは10の要素で構成されると考える。

AIモデルがAGIとなるためには、これら10の要件を満たす必要がある。これら10の要件は4つのグループに分類される(下の写真)。

出典: Dan Hendrycks et al.
  • グループ1:知識(Acquired Knowledge)
    • 汎用知識(General Knowledge):成人レベルの知識読み書き能力(Reading and Writing Ability):言語を理解し生成する能力
    • 数学能力(Mathematical Ability):数学に関する知識と解法能力
  • グループ2:思考回路(Central Executive)
  • 推論能力(On-the-Spot Reasoning):新たな問題を解く能力
  • ワーキングメモリ(Working Memory):問題解決時に記憶を維持する能力
  • 長期記憶(Long-Term Memory Storage):新情報を整理して記憶する能力
  • 長期記憶読み出し(Long-Term Memory Retrieval):長期記憶を読み出す能力
  • グループ3:知覚(Perception)
  • 視覚能力(Visual Processing):イメージを理解し、イメージを生成する能力
  • 聴覚能力(Auditory Processing):音声を認識、記憶、処理する能力
  • グループ4:出力(Output)
  • 処理速度(Speed):検索、比較、発言、筆記、読書などのスピード

AGIのシステム構造

AGIを構成する4つのグループと10の要素技術は連携して動作しインテリジェンスを構成する。研究グループはAGIのシステム構成とその内部構造を次のように考える(下の写真):

  1. AGIは入力された情報を「知覚(Perception)」で処理し、それらの意味を理解し、情報を凝縮(Attention)する。
  2. 「思考回路(Central Executive)」はこの情報を受け取り、推論などの処理を実行する。このプロセスで長期記憶を読み出し、また、処理結果を長期記憶に格納する。
  3. 「長期記憶(Long-Term Memory Storage)」には学習した知識が保存され、また、読み書き数学などの基本機能を持つ。
  4. 「出力(Output)」は処理された情報を言葉や音声などで出力する。
出典: Dan Hendrycks et al.

現行AIモデルの評価

研究グループはこの定義に基づき、現行のAIモデルを評価し、AGIの要件を満たす度合いを測定した(下のグラフ)。

ベンチマークではOpenAI GPT-5(赤線)とGPT-4(青線)が使われた。GPT-5はGPT-4から格段に技術が進化しているが、AGIの要件の58%を満たし、人間のインテリジェンスへの道半ばであると評価した。

AGIを構成する10要件については、項目ごとに性能が大きく異なり、現行AIモデルは偏った特性を持つ構造となる。

出典: Dan Hendrycks et al.

AIモデルの評価:長期記憶

GPT-5のAGI要件を評価すると「長期記憶(Long-Term Memory Storage)」の機能(下の写真)がゼロで、これがAGIとなるための最大のネックとなる。

これは新しい情報を整理して記憶する能力と、処理しているタスクに関連する情報を記憶から引き出す能力となる。

この代表が連想記憶(Associative Memory)で、独立した情報から、関連する他の情報を思い出す能力となる。この他に、意味のある記憶(Meaningful Memory)と逐語記憶(Verbatim Memory)から構成される。

出典: Dan Hendrycks et al.

AIモデルの評価:読み書き数学

一方で、GPT-5は言語を理解し生成する能力「読み書き能力(Reading and Writing Ability)」と数学に関する知識と解法能力「数学能力(Mathematical Ability)」(下の写真)は人間に匹敵すると評価され、この二つの構成要素についてはAGIの要件を満たす。

数学能力は算術(Arithmetic)、代数(Algebra)、幾何学(Geometry)、確率論(Probability)、微積分(Calculus)で構成されるが、これらの分野で人間に匹敵するスキルを示した。

出典: Dan Hendrycks et al.

AGI規制の基礎データ

市場ではAGIの規制政策について議論が広がっている。

AGIは人間レベルのインテリジェンスを持ち、科学技術が格段に進化すると期待されるが、その危険性について重大な懸念が示されている。AGIの規制法を準備するための最初のステップがAGIに関する理解で、業界で統一した定義を確立する必要がある。

今回の研究成果はこれに向けた第一歩となり、これを契機に議論が深まると期待される。