[No.7] Voice Cloning 誰でもプロのアナウンサーになれる、AIが発言者の音声を編集し言い間違いを修正する

アマチュアがNHKのアナウンサーのように流ちょうに喋るビデオを生成できる。
​ビデオの制作で時間がかかるのがナレーションの録音と編集である。
準備したテキストに従って喋るが、アマチュアの場合、言い間違いやテキストの修正で撮影を繰り返し、ファイナルカットができるまで時間を要す。

ここで最新のAI技法「Voice Cloning」を使うと、発言者のボイスを編集して言い間違いを修正できる。一回の撮影でプロ並みのビデオが完成する。

出典: Descript

Voice Cloningとは

Voice Cloningとは、発言者の声のクローンを生成する技術で、本物と見分けのつかない偽の声が生成される。Voice Cloningは使い方を誤ると危険な技術であり、他人になりすまし、相手を欺き、金銭を奪う犯罪行為につながる。
AI時代の「振り込め詐欺」で、米国で大きな社会問題となっている。

​一方、Voice Cloningは社会に貢献する技術でもあり、録音や録画の音声処理が格段に容易になり、新世代のビデオ編集技術として注目されている。

Desciptというスタートアップ

スタートアップが Voice Cloningを応用した編集技術を開発している。
サンフランシスコに拠点を置く新興企業Descriptは録音した音声をVoice Cloningで編集する技術を開発した。

この技術はポッドキャストやビデオの音声編集で使われる。録音した音声をDescriptに入力すると、AIがそれをテキストに変換する(Transcription)。
変換されたテキストをレビューし、言い間違いがあるとその部分を修正すると、同時に音声ファイルも変更される。

​​つまり、音声テキストを編集するだけで、修正されたナレーションを生成できる。

編集のプロセス

Descriptはこの一連の機能をクラウドとして提供している(下の写真)。

スマホカメラで撮影すると、映像と音声がDescriptに入力される。音声の部分はテキストに変換され、ウインドウに表示される(下の写真、中央部)。
​ここに表示されたテキストを編集すると、変更された通りの音声が生成される。
音声は発言者の声で生成され、何回も録音することなく、テキストの編集だけでこれを実現できる。

また、ビデオやイメージを編集する機能が追加され、テキストの中にイメージアイコンを挿入することで、ナレーションに合わせてビデオが再生される(下の写真、上段)。

出典: Descript

Speech Synthesis

音声を生成する技術は「Speech Synthesis」と呼ばれ、発言者の声でテキストを音声に変換する。

上述の事例のように、利用者の声でテキストを音声に変換する。この他に、Descriptは音声サンプルを提供しており、テキストを好みの音声に変換することができる。

テキストを入力すると、Speech Synthesisは指定された音声(アメリカ英語を話す女性の声など)でナレーションを生成する(下の写真)。

他社の技術と比較すると

多くの企業がSpeech Synthesisを開発しているが、その中で「Amazon Polly」や「Google Text-to-Speech」が有名である。

Descriptの特徴は人間が喋るように自然なナレーションを生成することに特徴がある。
「Polly」が生成する音声はロボットが喋るようにぎこちなく、機械的に生成されたことが分かる。

​一方、「Text-to-Speech」はDescriptのよに人間の発言と区別がつかない。

出典: Descript

LyerbirdのAI技術

Descriptの音声技術は、Lyrebirdが開発したAIをベースとしている。
Lyrebirdとはカナダ・モントリオールに拠点を置く新興企業で、テキストをリアルタイムで音声に変換する技術を開発した。

​特に、人の声を生成するVoice Cloningに特徴があり、AIは本人と見分けのつかないスピーチを生成する。Descriptは2019年9月、Lyrebirdを買収し、この技術をベースに前述の製品を開発した。

オバマ大統領の声を生成

Lyrebirdは当時のオバマ大統領のスピーチをAIで生成して注目を集めた。

オバマ大統領は、「Hi everybody.  This time I like to share with you a cool company…」と語り始めたが(右の写真)、これはオバマ大統領が喋っているのではなくLyrebirdが音声を生成したもので、本人の声と見分けがつかない。

出典: Descript

様々な応用分野

Lyrebirdはこの技術を使って様々なソリューションを開発した。
映画製作で俳優の声を記録しておくと、年をとっても、また、亡くなっても声優として活躍できる。
AIスピーカーやオーディオブックで好みの声を選択できるようになる。

​また、映画俳優だけでなく個人が声を録音しておくと、亡くなった後もチャットボットとして家族と対話できる。(下の写真、Amazon Alexaのスキル「HereAfter」を使うと亡くなった両親や友人と会話できる。)

出典: HereAfter

AI振り込め詐欺

また、声のクローンを簡単に制作できるようになり、新手の犯罪が社会問題となっている。
会社役員の声のクローンを生成し、AI版の振り込め詐欺が始まった。

会社役員になりすました犯罪者は企業の経理部に電話をかけ、役員の声で指定した口座に振り込みを指示する。電話の声は本人と区別がつかず、被害にあう企業が増えている。

​このため、不正行為を監視する連邦取引委員会(FTC)は企業や消費者に対し注意を呼び掛けている。

声のクローンを生成する

声の録音データがあれば簡単にそのクローンを生成できる。
企業幹部は会社紹介などでYouTubeにビデオを公開しているケースが多く、ハッカーはこれらビデオに記録されている音声データを使いクローンを生成する。

10分程度のデータで音声のクローンが生成でき、1時間分あれば本人と見分けのつかない高精度なクローンが生成できる。

使い方には注意を要す

AI技法の進化と共に市場にはテキストを音声に変換する製品が数多く登場している。
Photoshopでイメージを編集するように、Voice Cloningで本人と見分けのつかない音声クローンを生成する。

Voice Cloningは便利な技術であるとともに、犯罪と表裏一体の関係にあり、使い方には注意を要す。

​もはや、電話の声だけで相手を信用することは危険で、本人確認の手順を決めておく必要がある。