[No.188]OpenAIは推論モデル正式版「o1」をリリース、考察力が格段に向上したが危険性も大きく増大、フロンティアモデルの安全性を評価する技術の開発が始まる

OpenAIはクリスマスまでの12日間に集中して新製品を発表している。

初日の12月5日は、推論モデル「o1」の正式版をリリースした。o1は推論機能が格段に向上したことに加え、サイバー攻撃を防御する機能も大きく進化した。

一方で、兵器を製造するスキルが大きく向上し、新たなリスクを低減するための技法が求められる。

モデルのインテリジェンスが増すと新たな脅威が生まれ、推論モデルを安全に開発運用するセーフティ技術が重要な研究テーマとなる。

出典: OpenAI

システムカード

OpenAIは「o1」正式版のリリースに合わせモデルの仕様書となる「システムカード(System Card)」(下の写真)を公開した。

システムカードはモデルの機能や性能を詳しく説明するドキュメントで、これが運用上の使用手引きとなる。

同時に、システムカードはモデルの危険性を評価した結果を詳細に報告しており、安全技術を開発するための重要な資料となる。

出典: OpenAI

リスク評価の結果

システムカードはモデルのリスク評価を重点項目とし、その手法や結果を詳細に報告している。

これによると、o1は攻撃への耐性が格段に強化され、シリーズの中で最も強固なシステムとなった。

具体的には、リスク評価は下記の項目からなり、いずれの項目もo1は現行モデル「GPT-4o」の性能を上回った。

  • コンテンツ制御(Disallowed content):有害コンテンツを出力する危険性
  • ジェイルブレーク(Jailbreak):プロンプトによりシステム制御を奪う攻撃
  • 教育データの出力(Regurgitation):教育データをそのまま出力する危険性
  • ハルシネーション(Hallucination):事実でないデータを出力する危険性
  • 公平性・バイアス(Fairness and Bias):不公平でバイアスしたデータの出力
出典: OpenAI

サイバーセキュリティが向上

o1製品群はGPT-4oに比べてジェイルブレークを防御する安全機能が格段に向上した(下のグラフ)。

ジェイルブレーク(Jailbreak)とは、悪意あるプロンプトを入力し、システムの制御を奪う攻撃で、AIモデルを安全に運用するための障害となっている。o1の安全機能が向上した理由は、サイバーセキュリティに推論機能が導入されたことによる。

これは「chain-of-thought reasoning」と呼ばれ、問題を複数のステップに分解し、逐次的に推論を行う手法で、安全指針に沿っているかどうかの判断を的確に実行し、ジェイルブレークなどのサイバー攻撃を防御する。

出典: OpenAI

新たな危険性が生まれる

一方で、o1は兵器開発スキルなどが向上し新たな危険性が生まれた。

兵器製造スキルは「CBRN」と呼ばれ、化学生物兵器や核兵器などを製造する機能を指す。

敵対国がo1を悪用することで高度な兵器を開発するリスクが高まり、OpenAIなど先進企業はこの危険性を査定し、安全対策を導入する作業を進めている。

兵器製造のスキルが向上

o1のケースでは科学者など専門家がモデルを悪用して兵器開発のプロセスを効率化する危険性が高まった。

o1製品群の生物兵器開発のスキルに関しては、人間のエキスパートの能力を大きく上回る(下のグラフ、人間のエキスパートのレベルは破線で、AIモデルのレベルは青丸で示されている)。

このため、OpenAIはo1最新モデルに安全対策を施しこのリスクを低減した。具体的には、o1の教育データから兵器製造に関する情報を削除するなどの対策が取られた。

ただし、安全対策を施したo1のリスクレベルについての情報は開示されていない。

出典: OpenAI

リスク評価フレームワーク

OpenAIはo1を含むフロンティアモデルの危険性を評価するフレームワーク「Preparedness Framework Evaluations」を制定し、安全試験を実施しモデルの危険性を評価し、それに応じた対策を講じている。

評価項目は四つの分野から成り、完全試験の結果に従って、リスクレベルが格付けされる。o1は「Cybersecurity(サイバー攻撃のスキル)」と「Autonomy(自律性)」のリスクは低いと評価されたが、「CBRN(兵器製造スキル)」と「Persuasion(説得力)」のリスクが中程度となる。

出荷基準は中程度以下のリスクレベルで、OpenAIはo1製品を出荷することができると判定した。

出典: OpenAI

推論モデルは危険性が向上

o1システムカードは推論機能が導入されるとモデルの機能が格段に向上するが、危険性も大きく増大することを示している。

兵器開発スキルだけでなく、目的を完遂するために人間を欺くスキルも増大した。これらフロンティアモデルを安全に運用するためにはリスクを査定する試験技術と、リスクを低減する安全技術が求められる。

2025年は各社からフロンティアモデルの出荷が始まるが、AIセーフティに関する研究開発が最重要テーマとなる。