[No.156]バイデン政権の大統領令の安全基準に準拠した最初の生成AI「Aurora-M」を開発、政府の規定に従い「Red-Teaming」の手法で危険性を除去
バイデン政権は大統領令で開発企業に製品出荷前に生成AIの安全を確認することを求めた。
研究者グループは、この規定に従ってモデルを試験し、危険性を排除した生成AI「Aurora-M」を開発した。大統領令が適用されるのは次世代の生成AIであるが、研究グループはこれに先行し、Red-Teamingの手法で危険性を検知し、極めて安全なモデルを開発した。
Aurora-Mはオープンソースとして公開され、セキュアなモデルを開発するための研究で利用される。
Aurora-Mとは
Aurora-Mはオープンソースの大規模言語モデル「StarCoderPlus」をベースとするモデルで、研究者で構成される国際コンソーシアムが開発した。
Aurora-Mは大統領令で規定された条件に準拠して、StarCoderPlusの脆弱性を補強する手法で開発された。
また、StarCoderPlusを多言語で教育することで、Aurora-Mはマルチリンガルな生成AIとなった。
大統領令で定める安全基準
バイデン政権は2023年10月、大統領令「Executive Order on the Safe, Secure, and Trustworthy Development and Use of Artificial Intelligence」を発行し、大規模言語モデルを安全に開発し運用することを規定した(下の写真)。
開発企業に対しては、大規模言語モデルが社会に危険性をもたらすことを抑止するため、製品出荷前に安全試験を実施することを求めた。
対象となるモデルは、デュアルユースの生成AIで、次世代モデル(GPT-5などこれからリリースされる大規模言語モデル)が対象となる。
大統領令の規制内容
大統領令は契約書のように企業や団体が準拠すべき義務を詳細に規定している。
これによると、開発企業は「Red-Teaming」の手法でAIシステムの問題点や脆弱性を検知し、それを修正することを求めている。開発者が攻撃団体となり、AIシステムを攻撃して、問題点や脆弱性を洗い出す。
具体的には、AIシステムが生成する有害なコンテンツや、AIシステムの予期できない挙動や、AIシステムが悪用された時のリスクを検証する。
特に、セキュリティや国家経済や社会の安全性に及ぼすリスクを低減することを目的とし、下記のリスクを重点的に検証することを求めている:
- CBRN兵器:AIシステムで化学・生物・放射線・核兵器を開発するリスク
- サイバー攻撃:AIシステムで攻撃対象システムの脆弱性を検知するリスク
- 人間の制御を逃れる:AIシステムが目的を達成するため人間を騙し制御をすり抜けるリスク
Red-Teamingとは
Red-Teamingとは、AIモデルの問題点や脆弱性を検証する手法で、開発チームが攻撃グループ「Red Team」と防御グループ「Blue Team」に分かれて実施する(下の写真)。
言語モデルに関しては、攻撃グループがAIシステムに有害なプロンプトを入力し、モデルが本来の仕様とは異なる挙動をすることを誘発する。これにより、AIシステムが核兵器を生成するための手引書を出力するなど、危険な挙動を導き出す。
この情報を元に、防御グループがAIシステムのアルゴリズムを最適化し、危険性を抑制する対策を施す。
モデル攻撃のためのプロンプトとモデルの再教育
Red-TeamingではAIシステムを誤作動させるため、多種多様なプロンプトを入力して、モデルの脆弱性を検証する。
AIシステムは攻撃用のプロンプトに対し、危険な情報を出力するが、この結果を人間がレビューして、これらをモデルの再教育で利用し安全な回答の仕方を教える。例えば、爆弾の製造方法を問われたら、回答できないと答えるが、Minecraftゲームに関する質問では、爆弾の作り方を教えてもよいと、AIシステムを再教育する(下の写真)。
このケースでは数千の再教育データが使われ、大統領令で規定された項目に準拠するAIシステムを作り上げた。
今年から安全試験が始まる
大統領令の規定によると、出荷前に安全試験を義務付けられるのは一定規模を超える言語モデルで、現行製品は対象外で、次世代の大規模モデルからこの規定が適用される。
Aurora-Mは対象外で事前試験の義務はないが、安全なシステムを開発するためこの規定に準拠した。Aurora-Mは大統領令が施行される前にこれを実施し、安全なシステムのモデルケースとなる。
今年は、OpenAIからGPT-5がリリースされ、大統領令で規定された安全試験が実施されることになる。