[No.64]Metaは200言語を翻訳するAIを開発、これをオープンソースとして無償で提供、最終ゴールはユニバーサル機械翻訳AIの開発

2022年7月8日 2022年7月11日

gdep

MetaのAI研究所Meta AIは、単一モデルで200言語を翻訳できるAIを開発した。
AI翻訳の対象は世界の主要言語に限られていたが、このモデルによりその数が一気に拡大した。

MetaはこのAIをFacebookやInstagramに適用し、多言語の利用者を呼び込む。また、MetaはこのAIをオープンソースとして公開し、企業や大学はこれをベースに独自の翻訳システムを開発できる。

Metaは社外の研究機関と共同で、ユニバーサル機械翻訳AIの開発を進める。

出典: Meta

プロジェクト概要

このプロジェクトは「No Language Left Behind (NLLB)」と呼ばれ、英語や中国語などメジャー言語以外の、マイナー言語(少数言語)のAI翻訳技術を開発することを目的とする。

マイナー言語は、利用者数が少なく、AIを教育するためのデータが限られており、「Low-Resource Languages」とも呼ばれる。これがマイナー言語を対象とするAI機械翻訳技術の開発が進まない原因となっている。

マイナー言語はアジアやアフリカに多く存在し、ビルマ語(Burmese、ミャンマーで使われている言葉、上の写真)がこれに含まれる。

AI機械翻訳の仕組み

このプロジェクトは、単一のAIモデルで多言語を翻訳する、ユニバーサル機械翻訳(Universal Language Translator)を開発することを目指している。

2020年から開発を始め、今月、200言語を翻訳するモデル「NLLB-200」の開発に成功した。NLLB-200がマイナー言語を高精度で翻訳できる理由は、AIで教育データを創り出す技術にある。

このシステムは、四つのコンポーネントから構成される(下のグラフィックス)：

マイナー言語を母国語とする開発者による研究
限られた言語情報からAI(LASER3)が大量の教育データを生成
この教育データを元にAI機械翻訳モデル「NLLB-200」を開発
NLLB-200の精度をベンチマークデータ(FLORES-200)を使って検証

出典: Marta R. Costa-jussà et al.

翻訳精度

この方式により、NLLB-200は従来モデルに比べ、翻訳精度が44％向上した(下のグラフ)。

MetaはNLLBモデルの開発を進めてきたが、当初は、100言語を対象にアルゴリズムを開発(水色の部分)。2022年は、対象言語の数を200に増やし、モデルを大幅に改良した(紫色の部分)。

その中で、最新モデルがNLLB-200(右端のグラフ)で、翻訳精度が大きく向上した。(機械翻訳の精度は「BLEU」という指標で示される。この数値が大きいほど精度が高い。)

出典: Meta

機械翻訳の利用方法

Metaは、NLLB-200をFacebookやInstagramに適用し、マイナー言語を翻訳する計画である。

NLLB-200が、メジャー言語とマイナー言語の懸け橋となり、数多くの人がコンテンツを楽しむことができる。(下の写真、クメール語(Khmer language、カンボジアの国語)で書かれた物語を翻訳して読むことができる)。

また、メタバースでは世界各国の人々が、平等に交流する仮想社会の構築を目指しており、NLLB-200がコミュニケーションで重要な役割を担う。

更に、MetaはWikipediaと共同で、記事を多言語に翻訳するプロジェクトを進めている。

出典: Meta

オープンソース

Metaは、ユニバーサル機械翻訳の開発を最終ゴールとし、社外の研究機関と共同でプロジェクトを進める。

これを目的に、NLLBで開発したAIモデルとデータセットをオープンソースとして公開しており、研究機関はこれを自由に利用して、独自の機械翻訳システムを開発できる。

また、Metaは、非営利団体を対象に20万ドルを上限に助成金を出し、開発を支援することを表明している。

オープンサイエンスの手法でAI機械翻訳技術を開発し、対象言語を増やす手法を取る。

世界の言語

因みに、世界では7,151の言語が使われており、その多くが、アジアとアフリカに存在している(下のマップ)。これらの言語の40％は、継承者が少なく、絶滅の危機に瀕しているといわれている。

一方、23の言語が世界の半数以上の人により使われている。これらがメジャー言語で、英語、中国語・官話、インド・ヒンディー語がそのトップ３となる。

これらメジャー言語については、多くの企業からAI機械翻訳技術が提供されている。

出典: Ethnologue

カテゴリ New Technology Report: GAFAM

[No.63]リモートワークではフィッシング詐欺に注意！！会社の同僚はAIが生成したディープフェイク、社員になりすました犯罪者が企業のITシステムを攻撃

2022年7月1日

[No.65]５Gネットワークの次はEVが国家安全保障を脅かす、中国製自動運転車が監視カメラとなり市街地を走行し機密情報を収集する

2022年7月15日

米ベンチャークレフ代表。広島県出身。大阪大学基礎工学部卒業。1980年富士通に入社。1985年富士通米国法人Amdahl Corp. (カリフォルニア州サニーベール) に出向し、アメリカでスーパーコンピュータ事業の立ち上げに従事。その後、IBM、Oracle、Microsoftなどとのアライアンス事業を推進。
2003年3月富士通を退社し、リサーチ会社VentureClef (所在地：カリフォルニア州マウンテンビュー) を設立。
アナリストとしてコンピュータ技術の最新動向を追う。シリコンバレーのベンチャー企業にフォーカスし、時代を変える技術の発掘と解析を行う。25年に及ぶアメリカでのキャリアを背景に技術トレンドをレポート。

PAGE TOP