[No.44] AIに口説かれると落ちる!?アルゴリズムで造られる音声は人間より豊かな表現力を持ち聞き手に感動を与える

Apple Siriが急に色あせてきた。AIにより生成されるボイスの品質が進化し、今では人間の表現力を上回る。

AIで生成される音声は「Synthetic Voice」と呼ばれ、人間のように流暢な喋りができるだけでなく、多彩な感情を表現できる。

アニメやゲームの中でアバターが喋る言葉はAIで合成され、人間のように感情がこもった会話が交わされる。

出典: Sonantic

感情豊かなAIボイス

多くの企業がAIボイスを開発しているが、英国に拠点を置く新興企業Sonanticは、感情豊かな合成音声を開発している。

生成された音声は人間のものと区別がつかないだけでなく、声優のように、感情に富んだ会話ができる。

AIボイスと言えば、Apple SiriやAmazon Alexaが普及しているが、声はモノトーンで機械的な会話となる。

新興企業から新世代のAIボイスが登場し、Google Assistantなどの魅力が色あせてきた。

デモビデオ

Sonanticが開発するAIボイスは聞き手を会話に引き込む魅力を持っている。

Sonanticはデモビデオを公開しAIボイスの進化をアピールしている(https://www.youtube.com/watch?v=gS1m_TIxEW0)。
ビデオで、女性が視聴者に語り掛けるが、これらはAIにより生成されたもので、言葉の端々に微妙な感情表現が窺える。

また、言葉ではない、笑いや息遣いが混じり、人間らしさがひときわ際立つ。

微妙な感情表現

微妙な感情表現は「Subtle Emotions」と呼ばれ、人間らしさを演出する技術となる。
その一つが、男女関係における駆け引きで、相手の気を引こうとして媚びた感情を表現する。

現実社会の会話でも、これは高度なテクニックになるが、AIボイスはこれをマスターし、なまめかしく魅力的な声で男性を誘惑する。
また、目立たないようにする控えめな表現や、相手の好奇心をくすぐる表現もできるようになった。

言葉にならない表現

AIボイスを人間らしいと感じるのは、言葉以外の発声が混じるためである。
これらは、「Non-Speech Sounds」といわれ、息遣いや、咳払いや、笑いなどを指す。

また、「あー」とか「えー」など、無駄な発声もこの区分となる。人間は、スピーチするときには、これらの口癖を矯正するように教えられるが、AIボイスはあえてこれらを取り込み、人間臭さを演出する。(下の写真、発声の最後に咳ばらいを挿入する操作。)

出典: Sonantic

AIボイスの生成方法

AIボイスはダッシュボードでインタラクティブに生成する(下の写真)。

アバターが発声するテキストを入力し、それに感情を付加するプロセスとなる。
例えば、「The enemy fleet is attacking」というテキストを入力すると、音声が合成される。その際に、シーンに応じて、言葉に感情を与える。

ここでは、「怒り」、「恐怖」、「幸せ」、「悲しみ」、「絶叫」などの要素を注入できる。また、声のピッチやタイミングなどを設定できる。

出典: Sonantic

ゲームで使われている

ゲーム開発会社Obsidianはアバターが喋る言葉をSonanticで合成している(下の写真)。

今までは、声優がシーンに合わせて音声を吹き込んでいたが、今では、Sonanticの技術を使っている。
AIボイスは声優のレベルに達し、人間がマニュアルで声を吹き込む必要がなくなった。

また、AIボイスはゲーム開発の進行に応じて、シーンの変更があれば、何度も作り直すことができ、コンテンツ開発が効率化された。

出典: Obsidian

ニューラルネットワーク

Sonanticはニューラルネットワークを人間の声で教育し、AIボイスを生成する手法を取る。

人間らしいAIボイスを生成するためには、教育データの品質がカギとなる。このため、声優に様々な感情を含む声を録音してもらい(下の写真)、それを教育データとして使った。

しかし、「Non-Speech Sounds」については、この方法では高品質なAIボイスを生成できなかった。このため、SonanticはNon-Speech Sounds向けに独自のニューラルネットワーク開発し、AIボイスが息遣いをマスターした。

出典: Sonantic

声優の役割

声優はゲームやアニメや映画で欠かせない存在であるが、いまその役割がAIボイスで置き換えられている。

声優は、声の吹込みから、AI開発のための教育データの生成に、その役割が変わってきた。長年、エンタメ業界を支えてきた声優の職をどう守るかが問われている。

会話の表現方法

会話はその内容より話し方など表現方法が意思伝達で重要な役割を担う。

会話の中で伝達された情報より、それがどのような形で伝わったかが、発言者の意図を把握する手段となる。

このため、高度なコミュニケーションを構築するには、AIボイスが感情を表現できることが必須の技術となる。

出典: Meta

倫理的な使い方

AIボイスは聞き手の感情を操作する能力を持ち、その使い方には注意を要す。

メタバースでは、自身のデジタルツインを介してコミュニケーションするが、会話の相手は人間だけでなく、AIとの対話が始まる。

AIが多彩な表現力を駆使して、消費者に高額な商品を販売し、危険な契約を結ばせる。AIボイスを使ったヘイトスピーチや虐めが始まると、今以上にダメージが深くなる。

高度なAIボイスが悪用されると、その被害は甚大で、倫理的な使い方のガイドラインの制定が必須となる。