[No.194]今年はAIエージェントがブレイク!!OpenAIは「Operator」を公開、AIが人間に代わりコンピュータを操作

OpenAIはAIエージェント「Operator」を公開した。

AIエージェントとは自立的に稼働するAIモデルで、指示されたタスクを人間の介在なく実行する。Operatorは指定された条件でホテルを予約するなど出張の準備などで使われる(下の写真)。

Operatorは、AIがタスクを実行する手順を計画し、それに従ってアクションを取り、目的を達成する仕組みとなる。

既に、主要企業からAIエージェントが投入されているが、OpenAIはOperatorでこの市場に参入した。

出典: OpenAI

Operatorの機能概要

Operatorはコンピュータを操作するAIエージェントで「Computer-Using Agent(CUA)」と呼ばれる。

Operatorは人間の指示に従って、ブラウザー上でマウスやキーボードを操作して、タスクを実行する。ホテルやフライトを予約するほかに、スーパーマーケットで買い物をするなどの機能がある。

Operatorは、人間向けに構築されたウェブサイトというインターフェイスで稼働し、スクリーンを理解し、マウスとキーボードを操作して必要なアクションを実行する。

Eコマースサイトで買い物

Operatorは指示されたタスクに従ってEコマースサイトで買い物をすることができる。

食料品宅配サイト「Instacart」で、指定された食料品を検索し、それらを購入することができる。

例えば、「アサリのパスタを料理するために必要な食材を購入」と指示すると、Operatorは必要な食材を理解し、それをショッピングリストとして生成し、リストのアイテムをInstacartのサイトで購入する。(下の写真、右側:Instacartのサイト、左側:Operatorが実行したアクションのログ)

出典: OpenAI

Operatorの推論機能

Operatorは、指示されたタスクを完遂するための手順を設定し、それに従ってアクションを取る。

人間はOperatorに命令を入力すると、その後は、AIエージェントが自律的に稼働し、人間の介在なく処理を実行する。Operatorはタスク実行のための手順「Chain-of-Thoughts」を出力し、人間はこれを見ることで作業手順を理解することができる(上の写真左側)。

Operatorは実行の途中過程について、「Instacartのサイトで食材を検索」、「パスタを探しそれを買い物かごに投入」、「中型の玉ねぎを買い物かごに投入」などアクションを出力する。

トランザクションの制御

Operatorは人間の介在なく動作する構造となっているが、人間の判断が必要な時は、処理を中断し制御を人間に返す仕組みとなっている。

Eコマースサイトへのログインや決済プロセスでは、Operatorは処理を中断し、メッセージを出力し、人間の判断を仰ぐ。Instacartでの買い物のケースでは、指定された商品を買い物かごに入れた後、支払い処理の段階でメッセージを出力し、人間の判断を仰ぐ。

Operatorが決済処理を実行するのではなく、人間がクレジットカードで決済する設計となっている(下の写真)。

出典: OpenAI

Operatorの提携サイト

OpenAIは人気のEコマースサイトと提携しOperatorを運用している。

Instacartの他に、レストラン宅配サービス「DoorDash」、レストラン予約サービス「OpenTable」、旅行予約サイト「 Priceline」、イベント予約サイト「StubHub」、配車サービス「Uber」などでOperatorを使うことができる(下の写真)。

Operatorはこれら以外のサイトで稼働することができるが、アルゴリズムは提携サイトで教育され、これらのサイトでは高精度でアクションを実行する。

出典: OpenAI

Operatorの動作原理

Operatorは人間のように視覚をもち、デスクトップのスクリーンを理解し、マウスとキーボードを操作して、タスクを実行する(下の写真)。

Operatorはスクリーンのピクセルを読み込み、ウェブページの内容を理解する。推論機能でタスク実行のためのステップを立案し、この計画に従って、マウスで画面をクリックし、キーボードでテキストを入力する。

OperatorはGPT-4oに推論機能が実装された構造で、GPT-4oがスクリーンのイメージを読み込み、内容を理解する。

出典: OpenAI

Robotic Process Automation (RPA)との違い

ビジネスプロセスの自動化技術は数多くあり、その代表がRobotic Process Automation (RPA)で、ロボットが企業の業務を自律的に実行する。

例えば、受信メールを読み込み、顧客リストを自動で生成するなど、業務を自動化するために使われている。しかし、RPAは処理プロセスを人間が事前にルールとして設定する必要がある。

また、RPAはメールのように定型データを処理する構造となる。これに対し、Operatorは、人間がルールを設定する必要はなく、AIが指示されたタスクを理解し、目的完遂のためのルールを自分で設定する。また、定型データだけでなく非定型データを処理することができる。

このため、Operatorは自律性が格段に向上し、応用範囲が広く、幅広い分野で活用が広がると期待されている。

AIエージェント元年

既に、Google、Microsoft、Nvidia、Salesforce、Anthropicなど主要企業はAIエージェントを開発し市場に投入している。

また、スタートアップ企業はユニークなAIエージェントを開発し、利用が広がっている。OpenAIはこれら先行企業にキャッチアップする形でOperatorを投入した。

AIエージェントはウェブサイトなど人間向けに設計されたインフラをそのまま利用することができ、自動化のための特別なインターフェイス(APIなど)が不要で、利用が急速に広がると予測されている。

AIエージェントがブレイクする勢いを示している。