[No.56] Googleは大規模AIモデルの開発戦略を公表、人間の言語能力に匹敵するが危険なAIをどうビジネスに応用するか

2022年5月13日 2022年5月31日

gdep

Googleは今週、開発者会議「Google I/O 2022」をライブとオンラインのハイブリッドで開催した(下の写真、ライブ会場)。

CEOのSundar Pichaiが基調講演で、AIを中心に技術開発の最新状況を説明した。

この講演は、アメリカ大統領が連邦議会に対して行う一般教書演説になぞらえ、” State of the Union Address”とも呼ばれる。

今年の講演はAIの基礎研究と応用技術に焦点をあて、高機能であるが危険なAIをビジネスに適用する技法が示された。

マルチ検索

AI言語モデルは既に検索で使われているが、今年はイメージと言葉を統合した「マルチ検索(Multisearch)」が登場した。

これは、イメージ検索とテキストによる検索を併せたもので、マルチメディアの検索サービスとなる。

具体的には、撮影した写真のイメージ検索「Google Lens」とテキスト検索を融合したもの。

例えば、スマホで気になるドレスを撮影すると、Google Lensはドレスの概要や購買サイトを教えてくれる(下の写真左側)。

更に、この検索結果をテキストで操作できる。

同じモデルで色違いの商品を探すため、「Green」と入力すると(中央)、グリーンのドレスを表示する(右側)。

検索はマルチメディアに進化した。

カメラで撮影した有色人種の顔の色は正しく再現されてなく、レンズの”バイアス問題”が指摘されている。

例えば、黒人の顔の写真は暗すぎたり、または、明るすぎたりと、正しい色調が再生されない。

日本人を含むアジア系人種も同じ問題を抱えており、本当の顔色を再現できない。

このため、Googleはスマホカメラで正しい色を再現するための技術「Real Tone for Pixel」を開発し、最新モデル「Pixel 6」に搭載している(下の写真、Pixel 6で撮影した有色人種の顔でリアルトーンが再現されている)。

Googleはこれを拡充し、スマホカメラだけでなく、他の製品にリアルトーンの技術を組み込み、公正な製品の開発を始めた。

これは「Real Tone Filters」と呼ばれ、顔の色調を10段階で定義する。

これをAI開発に適用し、バイアスの無いアルゴリズムを開発する。

コンピュータビジョンの開発で、人間の顔の色を正確に把握することで、偏りのない公正なアルゴリズムを開発する。

有色人種の顔の色を正確に定義することで、人種間で公正に判定できるAIを開発する。(下の写真、Real Tone Filtersをアジア系人種に適用した事例。

アジア人は、カメラで撮影すると、顔色が白っぽくなる(左側)。Real Tone Filtersで補正すると健康的な肌色が再現される。)

Googleは大規模AI言語モデルを開発しており、その中で、会話型AIは「LaMDA」と呼ばれる。

今年は、その最新モデル「LaMDA 2」が公開され、その利用法について様々なアイディアが披露された。

LaMDA 2は人間のように会話できる高度な機能を持つが、これをビジネスに応用する手法は確立されていない。

Googleは、LaMDA 2と会話することで、日々の生活が便利になる三つのモデルを示した(下の写真)。

「Imaging it」は、LaMDA 2が人間の質問に回答するモデル(左側)。「海で一番深い場所にいると想像すると」と指示すると、LaMDA 2は「マリアナ海溝の底にいて、、、」と、その説明をする。
「Talk about it」は、LaMDA 2が指定された話題で会話するモデル(中央)。「犬のバンドの名前は」と問われるとその候補名を回答する。その後の会話で、話題は「犬」から逸れず、人間のように一貫性がある。
「List it」はタスクを実行するために、必要なアクションをリストアップするモデル(左側)。人間が「家庭菜園を計画している」と述べると、LaMDA 2はそれに必要な作業項目をリストアップする。

会話型AIとの対話で知識を得るだけでなく、人間が雑談するように、AIとの会話を楽しむことができる。

更に、会話型AIはプロとして、専門スキルを伝授する。