[No.64]Metaは200言語を翻訳するAIを開発、これをオープンソースとして無償で提供、最終ゴールはユニバーサル機械翻訳AIの開発

MetaのAI研究所Meta AIは、単一モデルで200言語を翻訳できるAIを開発した。
AI翻訳の対象は世界の主要言語に限られていたが、このモデルによりその数が一気に拡大した。

MetaはこのAIをFacebookやInstagramに適用し、多言語の利用者を呼び込む。また、MetaはこのAIをオープンソースとして公開し、企業や大学はこれをベースに独自の翻訳システムを開発できる。

Metaは社外の研究機関と共同で、ユニバーサル機械翻訳AIの開発を進める。

出典: Meta

プロジェクト概要

このプロジェクトは「No Language Left Behind (NLLB)」と呼ばれ、英語や中国語などメジャー言語以外の、マイナー言語(少数言語)のAI翻訳技術を開発することを目的とする。

マイナー言語は、利用者数が少なく、AIを教育するためのデータが限られており、「Low-Resource Languages」とも呼ばれる。これがマイナー言語を対象とするAI機械翻訳技術の開発が進まない原因となっている。

マイナー言語はアジアやアフリカに多く存在し、ビルマ語(Burmese、ミャンマーで使われている言葉、上の写真)がこれに含まれる。

AI機械翻訳の仕組み

このプロジェクトは、単一のAIモデルで多言語を翻訳する、ユニバーサル機械翻訳(Universal Language Translator)を開発することを目指している。

2020年から開発を始め、今月、200言語を翻訳するモデル「NLLB-200」の開発に成功した。NLLB-200がマイナー言語を高精度で翻訳できる理由は、AIで教育データを創り出す技術にある。

このシステムは、四つのコンポーネントから構成される(下のグラフィックス):

  1. マイナー言語を母国語とする開発者による研究
  2. 限られた言語情報からAI(LASER3)が大量の教育データを生成
  3. この教育データを元にAI機械翻訳モデル「NLLB-200」を開発
  4. NLLB-200の精度をベンチマークデータ(FLORES-200)を使って検証
出典: Marta R. Costa-jussà et al.

翻訳精度

この方式により、NLLB-200は従来モデルに比べ、翻訳精度が44%向上した(下のグラフ)。

MetaはNLLBモデルの開発を進めてきたが、当初は、100言語を対象にアルゴリズムを開発(水色の部分)。2022年は、対象言語の数を200に増やし、モデルを大幅に改良した(紫色の部分)。

その中で、最新モデルがNLLB-200(右端のグラフ)で、翻訳精度が大きく向上した。(機械翻訳の精度は「BLEU」という指標で示される。この数値が大きいほど精度が高い。)

出典: Meta

機械翻訳の利用方法

Metaは、NLLB-200をFacebookやInstagramに適用し、マイナー言語を翻訳する計画である。

NLLB-200が、メジャー言語とマイナー言語の懸け橋となり、数多くの人がコンテンツを楽しむことができる。(下の写真、クメール語(Khmer language、カンボジアの国語)で書かれた物語を翻訳して読むことができる)。

また、メタバースでは世界各国の人々が、平等に交流する仮想社会の構築を目指しており、NLLB-200がコミュニケーションで重要な役割を担う。

更に、MetaはWikipediaと共同で、記事を多言語に翻訳するプロジェクトを進めている。

出典: Meta 

オープンソース

Metaは、ユニバーサル機械翻訳の開発を最終ゴールとし、社外の研究機関と共同でプロジェクトを進める。

これを目的に、NLLBで開発したAIモデルとデータセットをオープンソースとして公開しており、研究機関はこれを自由に利用して、独自の機械翻訳システムを開発できる。

また、Metaは、非営利団体を対象に20万ドルを上限に助成金を出し、開発を支援することを表明している。

オープンサイエンスの手法でAI機械翻訳技術を開発し、対象言語を増やす手法を取る。

世界の言語

因みに、世界では7,151の言語が使われており、その多くが、アジアとアフリカに存在している(下のマップ)。これらの言語の40%は、継承者が少なく、絶滅の危機に瀕しているといわれている。

一方、23の言語が世界の半数以上の人により使われている。これらがメジャー言語で、英語、中国語・官話、インド・ヒンディー語がそのトップ3となる。

これらメジャー言語については、多くの企業からAI機械翻訳技術が提供されている。

出典: Ethnologue