[No.183]オープンソースAIの定義が決まる、ソースコードの他にデータを開示する義務を規定、Meta Llamaをオープンソースと呼べない！！

2024年11月3日 2024年11月3日

KaoruIimi

オープンソース管理団体「Open Source Initiative (OSI)」は、10月28日、AIに関するオープンソースの定義を公開した。

Linuxに代表されるように、ソフトウェアに関するオープンソースの定義は確定し、共通の理解が形成されている。しかし、生成AIを中心とするAIはソフトウェアとは構造が大きく異なり、オープンソースについての議論が続いていた。

異なる定義が混在し市場が混乱していたが、OSIの発表によりオープンソースAIの位置づけが明確になった。しかし、Metaはこの定義を受け入れることはできないとして議論が再燃した。

Metaは生成AIモデル「Llama」をオープンソースとして事業を構築しているが、この戦略の見直しを迫られる。

オープンソース・ソフトウェアとは

OSIはソフトウェアに関するオープンソースを「The Open Source Definition」として定義している。

これによるとオープンソースのコンセプトは、ソフトウェアを自由に利用、改造、再配布できるものと定めれられている。この代表がLinuxでソフトウェアを無償で利用することができ、また、そのソースコードを自由に改造し、それを製品として販売することができる。

これにより、誰もがソフトウェアの恩恵を受けることができ、また、技術開発が進むと期待される。

オープンソースAIの定義

これに対しOSIは新たにAIに関するオープンソースの定義「The Open Source AI Definition」を制定した(下の写真)。

この理由は、AIはソフトウェアとは構成が大きく異なり、前述のThe Open Source Definitionを適用することができない。AIも広義のソフトウェアであるが、コードが単独で稼働するのではなく、データと密接に関連し、またシステム構成やそのパラメータが重要な役割を担う。

AIオープンソースの定義は、これら要件を包括した内容となっている。

オープンソースAIの定義の概要

OSIによるオープンソースAIはデータ、コード、パラメータの三つのエレメントを含むと定義している。ソフトウェアのオープンソースはコードだけであるが、AIのケースではデータとパラメータが加わる。

具体的には：

データ(Data Information)：モデルの教育で使ったデータに関する詳細な情報。データの出典やデータにアクセスする手法などを公開する義務
コード(Code)：モデルに関するソースコード。モデルを生成するためのコードの他に、モデルを教育及び実行するためのコードを公開する義務。AIモデル自体だけでなく、それを開発・運用するための一連のコードの公開を求めている。
パラメータ(Parameters)：モデルの重み(Weights)や設定情報。重みとはモデルの挙動を決定する数値で、トランスフォーマではQuery、Key、Valueなどの値となる。AIモデルを教育することで重みなどを決定するが、これらを公開することを求めている。

コードとデータとパラメータの重要性

ソフトウェアではソースコードを公開することで、機能を理解しこれを改造して新たなソフトウェアを生成できる。

これに対し、AIではソースコードを公開するだけでは、AIモデルを稼働させることができない。更に、ソースコードだけでは、これを改造して新たなモデルを生成するために多大な労力を要す。

AIモデルを教育するためのデータと、その結果であるパラメータの公開が不可欠で、コードとデータとパラメータが対になり、AIシステムを再構築し、これをベースに新たなモデルを開発することができる。

米国政府はオープンソースAIを推奨

米国連邦政府の機関である取引委員会(Federal Trade Commission、FTC)はオープンソースAI普及を後押ししている。

FTCは独自の見解を示し、AIがオープンソースであるためには、モデルのソースコードと重み(Weights)の公開が最低条件であるとしている。上述のコードとパラメータの公開を求めているが、データについては定義に加えていない。

FTCはこれを「Open-Weights Foundation Models」と呼び、コードと重みの公開で技術開発が進むと期待している(下の写真)。

Metaのオープンソース戦略

多くの企業が生成AIモデルを“オープンソース”として公開し、コミュニティの技術開発を支援している。

Metaは生成AIモデル「Llama」を開発し、そのコードとパラメータを公開し、“オープンソース”としてリリースした。企業や個人はこのモデルを自由に使うことができ、コードを改造してビジネスや研究を進めることができる。

OSIの定義によると、オープンソースと名乗るためには、コードとパラメータだけでなく、データの公開が必須となる。MetaはLlamaに関するデータを公開しておらず、オープンソースの定義を満たすことができない。

このためMetaはOSIとの折衝を続け共通の理解を見つけるとしている。

オープンソースの危険性

生成AIをオープンソースとして公開することに関し、技術進化に寄与するという意見と、安全保障が脅かされるという意見があり、議論が続いている。

特に、ハイエンドモデルは高度な機能を持ち、敵対国や攻撃集団がこれを悪用して、生物兵器などの開発で使われることが懸念される。

また、生成AIを使ったサイバー攻撃が現実問題となり、国家安全保障の観点から重大なリスクを抱えることになる。

企業のオープンソース戦略

これに対し、企業は危険性を回避するため、ハイエンドモデルはクローズドソースとして運営し、ローエンドモデルだけをオープンソースとして公開する戦略を取る。

Googleは、ハイエンドモデル(Gemini)はクローズドソースとして非公開で運用し、ローエンドモデル(Gemma)をオープンソースとして公開している(下の写真)。事業モデルの観点からは、ハイエンドモデルをビジネスの収益源とし、ローエンドモデルでエコシステムを拡大する。

OSIの定義で統一した理解が形成されつつあり、Googleなど主要企業はオープンソースという名称を「オープンモデル(Open Models)」に変更し、その違いを明らかにしている。

カテゴリ New Technology Report: 生成AI

[No.183]オープンソースAIの定義が決まる、ソースコードの他にデータを開示する義務を規定、Meta Llamaをオープンソースと呼べない！！

オープンソース・ソフトウェアとは

オープンソースAIの定義

オープンソースAIの定義の概要

コードとデータとパラメータの重要性

米国政府はオープンソースAIを推奨

Metaのオープンソース戦略

オープンソースの危険性

企業のオープンソース戦略

[No.182]現行の生成AIモデルは欧州の規制法「AI Act」に準拠できない！！コンプライアンス・チェッカー「COMPL-AI」の評価結果

[No.184]トランプ氏圧勝・アメリカは変わった！！第二次政権でハイテク政策はどうなる、規制緩和でイノベーションが加速か、日本経済への影響は