音声認識
[No.70]Googleのロボットは人間の指示を正確に理解してタスクを完遂、家庭向けロボット「Everyday Robots」に大規模言語モデル「PaLM-SayCan」を実装
Googleは家庭向けのロボット「Everyday Robots」を開発しており、家庭やオフィスで人間に代わりタスクを実行する。Googleは高度な言語モデルをロボットに組み込み、人間の指示を正確に理解する機能を実現した。
[No.67]AIアートが生成するイメージは創作か盗作か、著作物でアルゴリズムを教育することは合法か、テキストをイメージに変換する「DALL·E 2」が知的財産権の議論を引き起こす
OpenAIが開発した「DALL·E 2」は、言葉の指示に従ってイメージを生成するAIである。OpenAIは、先週、DALL·E 2の販売を開始することを発表し、企業や個人はこれを有償で使うことができる。この発表を契機に、DALL·E 2が生成するイメージの法的解釈に関する議論が始まった。
[No.61]GoogleのAIは自我を持ち人間になった!?チャットボット「LaMDA」は「自分は感性を持ち人間として認めてほしい」と要求
Googleはチャットボット研究でブレークスルーを達成したと発表した。このAIは「LaMDA」と呼ばれ、人間のように対話する言語モデル。LaMDAは高度な会話のスキルを持ち相手を惹きつける。一方、Googleはこの解釈を否定し、発表した社員は停職処分となった。
[No.59] Googleはテキストをイメージに変換する技術「Imagen」を公開、AIがイラストレータとなり命令されたことを正確に理解し高解像度な画像を描き出す
Googleはテキストをイメージに変換するAI技術「Imagen」を公開した。AIは言葉の指示に従ってイメージを生成するが、その機能が大きく進化した。Imagenは、難しい指示を正しく理解し、それを高解像度のイメージに変換する。
[No.56] Googleは大規模AIモデルの開発戦略を公表、人間の言語能力に匹敵するが危険なAIをどうビジネスに応用するか
Googleは今週、開発者会議「Google I/O 2022」をライブとオンラインのハイブリッドで開催した。…今年の講演はAIの基礎研究と応用技術に焦点をあて、高機能であるが危険なAIをビジネスに適用する技法が示された。
[No.55] Metaは大規模AI言語モデル「OPT-175B」を開発、これを無償で提供することを発表、オープンサイエンスの手法でAIの危険性を解明する
Metaは大規模なAI言語モデル「Open Pretrained Transformer (OPT-175B)」を開発し、これを無償で提供することを明らかにした。世界の研究者は、最先端のAIを自由に使うことができ、これにより自然言語解析の研究が進むことが期待される。
[No.54] Googleは世界最大規模のAI言語モデル「PaLM」を開発、言葉を理解する機能が格段に向上、人間のように論理的に考えジョークのオチを説明する
Googleは世界大規模のAI言語モデル「PaLM」を開発した。AI言語モデルとは言葉を理解するシステムで、規模が大きくなるにつれ、言語機能が向上することが分かっている。AI言語モデルとは言葉を理解するシステムで、規模が大きくなるにつれ、言語機能が向上することが分かっている。
[No.25] 大規模言語モデルGPT-3は人間の能力に到達、しかしAIは重大な危険性を内包し開発したアルゴリズムを制御できない状態が続く
スタンフォード大学の研究グループはGPT-3など大規模言語モデルの危険性に関する研究を進めている。GPT-3はOpenAIが開発した言語モデルで、文章の生成、翻訳、質疑応答、文法の間違いの修正など、多彩な機能を持っている。しかし、GPT-3は特定人種をテロに結び付けるなどアルゴリズムが持つ危険性が明らかになった。
[No.24] AIボイスが人間レベルに到達、感情豊かなスピーチを生成し声優に代わりビデオのナレーションを担う
AIにより生成されるボイスは合成音声(Synthetic Voice)と呼ばれるが、この品質が人間レベルに到達した。AIスピーカーの普及でGoogle AssistantやApple Siriなどが身近になったが、これらは機械的なトーンで人間の喋りとは程遠い。AIの進化で、新世代の合成音声は自然で感情豊かなボイスとなり、人間の喋りと区別がつかなくなった。