[No.208]Anthropicは人間の知能を超えるAIモデル・AGIを2027年までに投入、危険性を低減するためモデルの可視化技術「AI向けMRI」を開発中、安全技術開発は時間との競争

AnthropicのCEOであるDalio Amadeiは、人間の知能を超えるAIモデル・AGIの開発が急速に進み、2026年から2027年までに出荷が始まるとの見解を明らかにした。

AGIは国家の頭脳となり経済活動を支えるが、同時に甚大な危険性を含み、これを安全に開発運用するための技術開発を加速すべきと提言した。AnthropicはAGIを制御するために、そのアルゴリズムを可視化するアプローチを取る。

これは人間の頭脳をスキャンする手法に匹敵し、この技術を「MRI-for-AI(AI向けMRI)」と呼ぶ。

AGIをスキャンしてモデルの思考回路を明らかにし、人間を欺き価値観に反する挙動を検知し、これを修正することで責任あるAGI開発を進める。

出典: Generated with Google Imagen 3

AIモデルの不透明性

AGIのベースとなる大規模AIモデルはシステムの構造がオペーク(Opaque、不透明)でモデルの挙動の仕組みを理解することができない。

膨大な数のパラメータ(重みなど)の組合せで挙動が決まり、これを数値解析してアルゴリズムを理解することは現実的でない。

大規模AIモデルはエンジニアが創り上げたシステムではなく、モデルが学習を重ね成長した成果で、植物が成長する過程に似ている。

AGIの危険性

アルゴリズムがオペークであるため、大規模AIモデルは様々な危険性を内包している。

その主なものは:

  • Deception:人間を欺くリスク、モデルは与えられたタスクを効率的に完遂するために人間を騙す挙動を示す
  • Misuse:モデルが敵対国などに悪用されるリスク、開発過程でガードレールを設定し、危険な情報の出力を抑止しするが、この防御網が突破される
  • Regulatory:モデルが法令に準拠できないリスク、アルゴリズムがオペークで判定理由を理解できない、銀行におけるローン審査の判定理由を説明できないなど

可視化技術の開発

AI開発企業は大規模言語モデルのブラックボックスを開き、アルゴリズムの挙動を解明する研究を進めている。

ニューラルネットワークのニューロン(Neuron、ノード)の活性化(Activation、機能がオンになること)に着目し、特定のニューロンが活性化することが特定の意味を持つと考えられてきた。

例えば、写真からその種別を判定する際に、特定のニューロンが活性化され、これがクルマやネコやリンゴなどを識別すると解釈されてきた。

可視化技術の開発:Mechanistic interpretability

これに対し、Anthropicは活性化した複数のニューロンの組み合わせが、特定のコンセプトを示すと考え、この組み合わせを「機能特性(Feature)」と呼び、機能特性を把握することで、AIモデルのアルゴリズムを解明する手法を探求している。

例えば、「ゴールデンゲートブリッジ」という機能特性は、「ゲート」や「橋」や「サンフランシスコ」などの要素を含み、単一のコンセプトは複数の単語から構成されることを明らかにした。

(下の写真、テキストのなかで「ゴールデンゲートブリッジ」に関連の深い単語をハイライトした事例、「ゲート」や「橋」や「サンフランシスコ」などの単語がハイライトされている。)

出典: Anthropic

可視化技術の開発:Circuit Tracing

Anthropicは推論モデルの挙動を解明するために「Circuit Tracing」という手法を開発している。

これは、ニューロンの思考回路をマッピングする手法で、推論モデルが思考の鎖で考察を重ねるプロセスを可視化し挙動を解明する。

例えば、「ダラスがある州の州都はどこか」との質問に、Circuit Tracingは思考回路をステップごとに可視化しモデルの思考パターンを解明する(下の写真)。

出典: Anthropic

タイムライン

Anthropicは大規模AIモデルの安全技術をAGIが登場するまでに開発することを目指している。

具体的には三つの目標を設定しこれに向かって開発を進めている:

  • 2025年から2026年:30Mから1Bの機能特性(Feature)を検知し、これをインデックスとして整理する
  • 2026年から2027年:AGIを含む危険性の高いモデル(ASL-4)の思考回路を把握し問題点を特定する
  • 2027年以降:リアルタイムでモデルのロジックを可視化し問題点を検知するダッシュボードを開発

安全技術開発は時間との闘い

AnthropicはAGI開発を進めているが、機能や性能だけでなく、その安全技術の研究を重点的に展開している。

AGIの機能の成長のスピードは速く、安全技術の開発がこれに追従できない状態となっている。AGIが2026年から2027年のタイムフレームでリリースされるが、安全機能の準備が間に合わないことを懸念している。

AGI安全技術の整備で残された時間は僅かで、開発は時間との闘いとなっている。