[No.183]オープンソースAIの定義が決まる、ソースコードの他にデータを開示する義務を規定、Meta Llamaをオープンソースと呼べない!!
オープンソース管理団体「Open Source Initiative (OSI)」は、10月28日、AIに関するオープンソースの定義を公開した。
Linuxに代表されるように、ソフトウェアに関するオープンソースの定義は確定し、共通の理解が形成されている。しかし、生成AIを中心とするAIはソフトウェアとは構造が大きく異なり、オープンソースについての議論が続いていた。
異なる定義が混在し市場が混乱していたが、OSIの発表によりオープンソースAIの位置づけが明確になった。しかし、Metaはこの定義を受け入れることはできないとして議論が再燃した。
Metaは生成AIモデル「Llama」をオープンソースとして事業を構築しているが、この戦略の見直しを迫られる。
オープンソース・ソフトウェアとは
OSIはソフトウェアに関するオープンソースを「The Open Source Definition」として定義している。
これによるとオープンソースのコンセプトは、ソフトウェアを自由に利用、改造、再配布できるものと定めれられている。この代表がLinuxでソフトウェアを無償で利用することができ、また、そのソースコードを自由に改造し、それを製品として販売することができる。
これにより、誰もがソフトウェアの恩恵を受けることができ、また、技術開発が進むと期待される。
オープンソースAIの定義
これに対しOSIは新たにAIに関するオープンソースの定義「The Open Source AI Definition」を制定した(下の写真)。
この理由は、AIはソフトウェアとは構成が大きく異なり、前述のThe Open Source Definitionを適用することができない。AIも広義のソフトウェアであるが、コードが単独で稼働するのではなく、データと密接に関連し、またシステム構成やそのパラメータが重要な役割を担う。
AIオープンソースの定義は、これら要件を包括した内容となっている。
オープンソースAIの定義の概要
OSIによるオープンソースAIはデータ、コード、パラメータの三つのエレメントを含むと定義している。ソフトウェアのオープンソースはコードだけであるが、AIのケースではデータとパラメータが加わる。
具体的には:
- データ(Data Information):モデルの教育で使ったデータに関する詳細な情報。データの出典やデータにアクセスする手法などを公開する義務
- コード(Code):モデルに関するソースコード。モデルを生成するためのコードの他に、モデルを教育及び実行するためのコードを公開する義務。AIモデル自体だけでなく、それを開発・運用するための一連のコードの公開を求めている。
- パラメータ(Parameters):モデルの重み(Weights)や設定情報。重みとはモデルの挙動を決定する数値で、トランスフォーマではQuery、Key、Valueなどの値となる。AIモデルを教育することで重みなどを決定するが、これらを公開することを求めている。
コードとデータとパラメータの重要性
ソフトウェアではソースコードを公開することで、機能を理解しこれを改造して新たなソフトウェアを生成できる。
これに対し、AIではソースコードを公開するだけでは、AIモデルを稼働させることができない。更に、ソースコードだけでは、これを改造して新たなモデルを生成するために多大な労力を要す。
AIモデルを教育するためのデータと、その結果であるパラメータの公開が不可欠で、コードとデータとパラメータが対になり、AIシステムを再構築し、これをベースに新たなモデルを開発することができる。
米国政府はオープンソースAIを推奨
米国連邦政府の機関である取引委員会(Federal Trade Commission、FTC)はオープンソースAI普及を後押ししている。
FTCは独自の見解を示し、AIがオープンソースであるためには、モデルのソースコードと重み(Weights)の公開が最低条件であるとしている。上述のコードとパラメータの公開を求めているが、データについては定義に加えていない。
FTCはこれを「Open-Weights Foundation Models」と呼び、コードと重みの公開で技術開発が進むと期待している(下の写真)。
Metaのオープンソース戦略
多くの企業が生成AIモデルを“オープンソース”として公開し、コミュニティの技術開発を支援している。
Metaは生成AIモデル「Llama」を開発し、そのコードとパラメータを公開し、“オープンソース”としてリリースした。企業や個人はこのモデルを自由に使うことができ、コードを改造してビジネスや研究を進めることができる。
OSIの定義によると、オープンソースと名乗るためには、コードとパラメータだけでなく、データの公開が必須となる。MetaはLlamaに関するデータを公開しておらず、オープンソースの定義を満たすことができない。
このためMetaはOSIとの折衝を続け共通の理解を見つけるとしている。
オープンソースの危険性
生成AIをオープンソースとして公開することに関し、技術進化に寄与するという意見と、安全保障が脅かされるという意見があり、議論が続いている。
特に、ハイエンドモデルは高度な機能を持ち、敵対国や攻撃集団がこれを悪用して、生物兵器などの開発で使われることが懸念される。
また、生成AIを使ったサイバー攻撃が現実問題となり、国家安全保障の観点から重大なリスクを抱えることになる。
企業のオープンソース戦略
これに対し、企業は危険性を回避するため、ハイエンドモデルはクローズドソースとして運営し、ローエンドモデルだけをオープンソースとして公開する戦略を取る。
Googleは、ハイエンドモデル(Gemini)はクローズドソースとして非公開で運用し、ローエンドモデル(Gemma)をオープンソースとして公開している(下の写真)。事業モデルの観点からは、ハイエンドモデルをビジネスの収益源とし、ローエンドモデルでエコシステムを拡大する。
OSIの定義で統一した理解が形成されつつあり、Googleなど主要企業はオープンソースという名称を「オープンモデル(Open Models)」に変更し、その違いを明らかにしている。