[No.221]OpenAIのAIエージェント「ChatGPT Agent」は一般社員レベルのスキルを持つ!!LAオリンピックの旅行計画を指示すると結果をスライドに纏めて報告
OpenAI は7月17日、高度なAIエージェント「ChatGPT Agent」をリリースした。
AIエージェントはツールを使う機能と高度な推論機能を搭載し、人間に代わり複雑なタスクを実行する。会社においては、企業の財務分析を実行し、その結果をエクセルシートに纏めて報告する。
実際に使ってみると、ChatGPT Agentは汎用性が高く使いやすいインターフェイスとなっている。LAオリンピックの旅行計画の立案を指示すると、ChatGPT Agentは関連情報を収集し、その結果をパワーポイントのスライドに纏めて報告した。
今年はAIエージェントの技術が格段に進化し、ついに人間のレベルに到達した。

ChatGPT Agentの概要
市場で多くのAIエージェントが開発されているが、ChatGPT Agentは最も高機能なモデルとなる。
複数の機能を統合した構成で、指示されたタスクを実行するために、ウェブサイトを閲覧する。
高度な推論機能を持ち、収集したコンテンツを解析し、分析結果を報告する。企業の事務職のような存在で、エントリレベルの仕事を自律的に実行する。
システム構成
ChatGPT Agentは、言語機能「ChatGPT」と推論機能「Deep Search」とツールを使う機能「Operator」が融合したモデルとなる。
推論機能「Deep Search」は人気の機能であるが、ウェブサービスにアクセスすることができず、活動範囲が限定されていた。
これに、ツールを使う機能「Operator」を融合することで、汎用性の高いAIエージェントが生まれた。
ChatGPTを使ってみると
ChatGPT AgentはChatGPTにAIエージェント機能が付加された形で、初期画面で「Agent」のボタンをオンにして使う(下の写真、最下部)。
タスクをプロンプトとして入力し、AIエージェントに仕事の内容を指示する。タスクが起動すると仮想マシンのモニターが表示され、AIエージェントの仕事のステップを見ることができる(下の写真、青枠の部分)。
ここでは「LAオリンピックの旅行計画書の立案」を指示した事例で、AIエージェントがオリンピック公式サイトなどにアクセスし、その内容を読んでいることが分かる。

報告書の作成
ChatGPT Agentは指示されたタスクを実行し、処理が完了するとスマホアプリにその旨を通知する。
このケースでは完了までに1時間を要し、その結果をブラウザーに表示した。処理結果をパワーポイントに纏めて報告するよう指示したので、LAオリンピックの旅行計画をスライド形式で表示した(下の写真)。
グラフィックスやグラフなどを含めビジュアルな報告書となった。

報告書を読むと
ChatGPT AgentはLAオリンピック旅行計画書を8ページのスライドに纏めて報告した。
プロンプトで「日本チームがメダルを獲得する試合を中心にプランを作成」と指示したので、野球やゴルフやスケートボードなどを中心に日程が組まれた。また、ホテルの推奨や移動手段に関するアドバイスを求めたので、AIエージェントは「LA市内では交通渋滞が予想され、レンタカーではなく公共交通機関を利用するよう」回答した。
この報告書は旅行計画の枠組みとして使うことができ、これをベースに最終スケジュールを纏め、フライトやホテルやオリンピックのチケットを予約する手順となる。(下の写真、報告書の纏めのページ、試合や移動手段に関する推奨)

企業における利用形態:データサイエンス
ChatGPT Agentは企業におけるデータ解析で高い能力を発揮する。
ChatGPT Agentは企業の財務分析を実行し、その結果をエクセルシートに纏めて報告する。実際に、ChatGPT Agentにサンフランシスコ市の5年間の財務状況を分析するよう指示すると、AIエージェントは市が公開している様々なドキュメントを探し出し、これらの情報を解析する。
実行過程はChatGPT Agentの仮想コンピュータの中で実行され、利用者はAIエージェントの作業進捗状況を把握できる。
解析結果をスプレッドシートに纏める
ChatGPT Agentは長時間、自律的に稼働し、利用者はタスクを指示した後は、パソコンから離れ別の仕事をすることができる。
作業が完了すると、ChatGPT Agentはその旨をChatGPTアプリに表示する。上述のケースでは、ChatGPT Agentは解析したデータをスプレッドシートの形に纏めて報告する(下の写真)。
利用者はこれをそのままダウンロードして利用することができる。

企業における利用形態:オフィスの開設
ChatGPTは指示されたタスクを実行し、その結果をパワーポイントのスライドに纏めて報告する。
このケースでは、シンガポールにオフィスを開設する際のプロセスを考察したもので、ChatGPT Agentは解析結果をプレゼン形式で提示する。ChatGPT Agentはシンガポールのオフィスの空き物件を検索し、最適なものを推奨する。
また、シンガポール政府の助成制度や税制など事業に関連する要件を検討し、オフィス開設計画書をマルチメディアで提示する(下の写真)。

制御の受け渡し
ChatGPT Agentはクリティカルな操作については、その制御を人間に返す設計となっている。
例えば、サンフランシスコからニューヨークのフライトを検索し予約する際に(下の写真)、ChatGPT Agentは支払いのプロセスでは、処理を停止し人間の判断を仰ぐ。ここで、利用者は制御を受け取り、マニュアルでクレジットカードの決済処理を実行する。
同様に、送金処理などではChatGPT Agentは処理を中断し、人間がトランザクションを実行する。

リスクとセキュリティ
ChatGPT Agentは自律的に稼働するモデルで、それに伴いリスクの度合いが拡大する。
特に、プロンプトインジェクション(Prompt Injection)という危険性が課題となる。プロンプトインジェクションとは、特殊な言葉の列でAIモデルを誤作動させる手口を指す。
AIモデルをサイバー攻撃するために悪用されるが、AIエージェントでは特に問題となる。AIエージェントにおいては、参照するウェブサイトに悪意ある命令を埋め込み、ChatGPT Agentを誤作動させるリスクが発生する。
ウェブサイトに「クレジットカード情報を入力」などとの命令を埋め込み、機密情報を盗用するなど、新たな手口が生まれている。
エンタープライズAIエージェント
OpenAIはChatGPT Agentの発表イベントをストリーミングで配信した(下の写真)。
AIエージェントは多くの企業から提供されており、開発競争が白熱している。ChatGPT Agentはコーディングなど特定のタスクに特化した仕様ではなく、会社業務や日常生活において広範なタスクを実行する。
一方、AIエージェントは黎明期の技術であり、企業が導入するには解決すべき課題は少なくない。
今年後半は、エンタープライズ品質のAIエージェントの開発に向けて、各社が技術力を競うことになる。
