既存ツールを凌駕する柔軟性！「Computer Use」でE2Eテスト自動化を試して見えた希望と現実

開発

新堀瑛司

公開日:2026/06/30

読了目安:約10分

Codex「Computer Use」が切り拓くE2Eテスト自動化の未来

生成AIの進化は、テキスト生成やコード補完の領域を超え、ついに「自律的なPC操作」という新たなフロンティアへと突入しました。本記事では、AIを用いた「Computer Use（コンピューターユース）」機能によるE2E（End-to-End）テスト自動化の仕組み、既存ツールに対する圧倒的な優位性、そして現場導入に向けたリアルな運用課題について、深掘りして解説します。

1. ソフトウェアテストのパラダイムシフト：なぜ今「Computer Use」なのか

Webアプリケーションの開発において、ユーザーと同じ視点でシステム全体をテストする「E2Eテスト」は品質保証の要です。しかし、従来のE2Eテスト自動化には長年のジレンマがありました。

SeleniumやPlaywrightといった従来のテストツールは、HTMLのDOM（Document Object Model）要素やCSSセレクタを基準にして操作を行います。そのため、「UIのデザインが少し変わった」「要素のIDが変更された」「ネットワークの遅延で描画が遅れた」といった些細な環境変化によって、テストが簡単に失敗してしまう現象（Flaky Test）が頻発していました。テストスクリプトのメンテナンスコストは膨大であり、自動化の恩恵を十分に受けられない現場も少なくありません。

そこに登場したのが、Codex等に代表される 「Computer Use」 技術です。
これは、AIが画面のピクセル情報を視覚的に解析し、人間が目で見てマウスやキーボードを操作するのと全く同じように、GUI（グラフィカル・ユーザー・インターフェース）を直接操作するアプローチです。この技術により、テスト自動化は「スクリプトベース」から「自律型AIエージェントベース」へとパラダイムシフトを遂げようとしています。

2. 既存ツール（Playwright等）および MCP等を活用したAIツールとの徹底比較

E2Eテスト自動化の文脈において、Computer Useは魔法の杖ではありません。従来の代表的なツールであるPlaywrightや、昨今注目を集めている「MCP（Model Context Protocol）経由でPlaywrightをLLMに操作させるAIツール」と比較することで、その真価と現状の限界がより明確になります。

比較項目	従来型テストスクリプト (Playwright / Selenium)	DOM連動型AIエージェント (MCP + Playwright等)	視覚駆動型AIエージェント (Computer Use)
要素の特定方法	DOM構造、CSS/XPathセレクタ	LLMによるDOM / アクセシビリティツリー解析	視覚情報（ピクセル）、座標、画像認識
テスト作成の難易度	プログラミング知識が必須（TS, Python等）	自然言語（プロンプト）	自然言語（プロンプトやスプレッドシート）
環境変化への耐性	低い（IDやクラス名が変わると即エラー）	中〜高（DOM構造が大幅に変わらなければ対応可能）	非常に高い（見た目が同じならDOMが変わっても動く）
実行スピード	非常に高速（ミリ秒単位の操作）	中（テキストAPIの推論通信が発生）	遅い（画像解析＋推論のループが発生）
ランニングコスト	マシンリソースのみ（安価）	APIトークン消費（テキストベースで中程度）	APIトークン消費（画像送信が伴うため高価）
操作の範囲	ブラウザ内に限定	ブラウザ内に限定	デスクトップ全体、別アプリへの跨ぎ操作も可能

2.1. 圧倒的なメリット：不安定さ（Flakiness）の解消

AIを活用したアプローチ（DOM連動型および視覚駆動型）の最大メリットは、環境依存に対する「柔軟性」です。

従来のPlaywrightスクリプトは、指定されたDOM要素が1ピクセルでも見つからなければエラーを吐きます。しかし、MCP等を利用したAIエージェントであれば「IDが変わってもラベル名から推測してボタンを探す」ことができ、さらにComputer Useに至っては人間と同じように「少しずれている」「色が違う」といった差異すら視覚的に乗り越えて要素を特定します。これにより、UIのマイナーアップデートによるテスト破損（Flaky Test）を劇的に減らすことが可能になります。

2.2. 直面する現実（デメリット）：スピードとコストのトレードオフ

一方で、従来型のPlaywrightに明確に劣るのが「スピード」と「コスト」です。

MCP等を活用したDOM連動型AIはテキストのやり取りで済むため比較的軽量ですが、Computer Useの場合は「画面をスクリーンショットで取得 → 画像をAPIに投げて解析 → 次のアクションを決定 → マウスを動かす」というプロセスを1ステップごとに繰り返します。Playwrightなら1秒で終わるログイン操作に数秒〜十数秒かかることも珍しくありません。また、AIが迷って試行錯誤を繰り返すたびに画像データを含む膨大なトークン（＝コスト）を消費してしまいます。

2.3. 実務における「3層」の使い分け戦略

現段階では、すべてのテストをComputer Useに置き換えるのは非現実的であり、以下のようなハイブリッド戦略が求められます。

従来型（Playwright単体） : 安定しており、CI/CDで高速に回したいコア機能の回帰テスト。
DOM連動型AI（MCP + Playwright等） : UIの文言や配置変更が激しく、スクリプトのメンテナンスが追いつかないWebアプリの新機能テスト。
視覚駆動型AI（Computer Use） : ブラウザ外のアプリ（Excelのダウンロード確認やPDFリーダーでの表示確認など）と連携する複雑なシナリオ、またはCanvas描画などDOMから情報を取得できないアプリのテスト。

3. 実践検証！AI自動テストの仕組みとリアルな実行レポート

Computer Useの仕組みや既存ツールとの違いを把握したところで、実際にローカル環境にテスト用のショップサイト（localhost:3000）を立ち上げ、AIがいかにしてテスト仕様書を読み解き、自律的にテストを完遂するのか、実証検証を行ってみました。

3.1. 実行プロセスとアーキテクチャの全貌

AIにテストを任せる際の基本的なプロセスは以下の通りです。

事前準備（プラグインの有効化） : アプリケーション（あるいは操作環境）において、Computer Useがシステムにアクセスするための「プラグイン設定」をオンにし、操作権限を与えます。
テスト仕様書のインプット : 自然言語で書かれたテスト仕様書（今回はGoogleスプレッドシート）を用意します。
ローカル環境からのプロンプト指示 : 「仕様書に従ってテストを実行して」というプロンプト（操作指示）を与えます。
自律的実行とエビデンスの自動生成 : AIが画面を視覚的に認識しながらクリックや文字入力を行い、最終的にエビデンス（画面キャプチャ）を含めてテスト結果を自動出力します。

3.2. 検証環境とAIへのリアルな指示（プロンプト）

今回は、Googleスプレッドシート上に「TC-E2E-001」から「004」までのテスト仕様書を用意し、AIに対して以下の厳密なルール（プロンプト）を課しました。

仕様の把握 : 指定URLの仕様書を読み取り、前提条件・手順・期待結果を抽出すること。
確実な操作と待機 : 操作後はローディングが完全に終わるまで待機すること。
エビデンス取得 : 指定タイミングでスクリーンショットを撮影し、シートに貼り付けること。
結果の記録 : 完了ごとにスプレッドシートのI/J列に実施日と結果（OK/NG）を記載すること。
異常時の対応 : ボタンが見つからない等があれば即時中止し、NGとして記録すること。

3.3. 初回実行ログ：AIが直面した壁と自己修正

AIは指示を受け取り自律的にブラウザ操作を開始しましたが、結果は一度で全て成功とはいきませんでした。以下は、初回実行時にAIが直面したリアルな「壁」と、それを乗り越えるための試行錯誤の記録です。

【壁1：待機時間の不足（ローディングの罠）】
事象 : TC-E2E-001のスクリーンショット判定で、アプリのデータ読み込み中（スケルトン画面）に撮影してしまいエラーに。
対応 : AI自ら「読み込み完了待ちが不足している」と特定し、実画面のテキストが出現するまで待機するようロジックを修正。
【壁2：同一UI要素の誤検知】
事象 : TC-E2E-003（複数商品の追加）で、詳細画面下部にある 「関連商品」の「カートに入れる」ボタンを誤検知してクリック してしまう。
対応 : メイン商品のカート追加ボタン（.cart-button-largeクラス）に絞って操作するよう自らスクリプトを修正。
【壁3：アプリ仕様への適応（状態の保持）】
事象 : 商品追加後にトップへ強制再読み込み（リロード）したため、メモリ上のカート状態がリセットされる事象が発生。
対応 : 「人間のブラウザバック等の挙動に合わせるべき」と判断し、リロードを避けて画面リンクから一覧へ戻るよう人間らしい操作手順に修正。

初回の結果、TC-E2E-001、002はパスしたものの、003は仕様とのズレでNG、004も前提条件未達でNGという結果になりました。

3.4. 仕様変更への適応と「未実装ページ」の発見（再テスト）

初回のNG判定を受け、人間の開発者側でアプリと仕様書の修正を行いました（TC-E2E-003の期待結果を「『ご注文ありがとうございます』表示の確認」に更新）。その後、全く同じ仕様書URLとプロンプトでAIに 再テスト（2回目の実行） を依頼しました。

ここでのAIの動きは、もはや「優秀な中級テスター」そのものでした。

仕様変更の自動検知 : AIは更新されたスプレッドシートを読み直し、 「前回からTC-E2E-003の期待結果が変わっている」ことを自律的に認識 。その期待結果に合わせて実行スクリプトを修正してからテストを開始しました。
テスト再実行（結果） :

TC-E2E-001 : OK
TC-E2E-002 : OK
TC-E2E-003 : OK （仕様修正により見事パス！）
TC-E2E-004 : NG

「未実装」の的確なハンドリング :
TC-E2E-004がNGになった理由が非常にリアルです。注文履歴画面のテスト中、遷移先の画面に 「このページは未実装です。課題3で実装してください。」 という開発途中のプレースホルダーが表示されていました。AIはこれを「期待結果（注文情報の確認）が満たされていない」と正しく判定し、NGとしてエビデンスをスクリーンショットに収めました。

3.5. 権限の壁を越える「代替案の提示」

両方のテスト実行を通して、AIの柔軟性が最も光ったのは「予期せぬ権限エラー」への対応でした。
プロンプトでは「Googleスプレッドシートに直接結果を書き込む」よう指示していましたが、対象シートは「閲覧のみ（ログイン必須）」の設定になっていました。

するとAIはそこで処理をクラッシュさせるのではなく、「ブラウザから直接更新できないため、代替としてI列（実施日）とJ列（結果）、各ケースの証跡画像をまとめたExcelファイルを作成する」という判断を自律的に下し、最新の実行結果を反映した完璧なレポート（Excelファイル）を出力してのけたのです。

↓AIが実際に自律生成したExcelファイルを、Googleスプレッドシートにインポートした実物は以下のリンクからご確認いただけます。

↓実際にComputerUseを使用してテストをしている画面

4. 検証から見えた実運用に向けた4つの技術的課題と解決アプローチ

前章の実証検証を通して、Computer Useの高い自律性とポテンシャルを確認できた一方で、実務の現場へ本格導入するためにはいくつかのハードルがあることも見えてきました。検証によって浮き彫りになった、4つの重要な技術的課題とその解決アプローチを整理します。

課題①：エラーハンドリングとトークン消費のジレンマ

【課題の背景】 : 今回の検証の初回実行ログでも見られたように、Computer Useは指定した手順通りに動作しなかった場合、ページをスクロールしたり別の要素を探したりと自律的な探索（試行錯誤）を行います。これは強みである反面、AIが試行錯誤を繰り返すたびに推論APIが呼び出され、 膨大なトークンを消費（＝コスト増大） してしまうという諸刃の剣です。
【解決へのアプローチ】 : 「システム制御」と「プロンプト制約」の二段構えでコストをコントロールします。今回のプロンプトのように最大実行ステップの制限や、「見つからなければ即時中止してNGとする」といった「諦め条件」の明示が実運用では不可欠になります。

課題②：操作権限の制限（サンドボックス化）

【課題の背景】 : AIの暴走リスクです。今回の検証では対象をローカルのテストサイトに絞りましたが、Computer Useは画面全体を操作できる権限を持ちます。指示が曖昧だと「ブラウザを閉じてデスクトップの別ファイルを操作してしまう」といった意図せぬ動作を引き起こす危険性を秘めています。
【解決へのアプローチ】 : Dockerコンテナなどの使い捨ての仮想環境（サンドボックス）内にテスト実行環境を構築し、インフラレベルでの物理的な隔離を実施することが必須となります。

課題③：同一UI要素の識別能力（Visual Disambiguation）

【課題の背景】 : 検証の「壁2」で関連商品のボタンを誤検知してしまった事象に代表されるように、「同じアイコンの識別」は視覚ベースAI特有の難問です。商品リストの各行に並ぶ全く同じデザインの「カートに入れる」ボタンから、目的の商品のものを正確に特定するには工夫が必要です。
【解決へのアプローチ】 : 「アンカー（目印）」を用いた相対的な位置指定で精度を向上させたり、検証時のようにクラス名などのHTMLの構造的特徴を補助的に組み合わせたりするハイブリッドなアプローチが求められます。

5. おわりに

ローカル環境での実証結果が示す通り、Codexの「Computer Use」を活用したE2Eテスト自動化は、もはや机上の空論ではありません。

確かに、ローディングの待機や同一UIの識別など、視覚ベースAIならではの躓きは発生します。しかし、エラーを検知して自己修正し、仕様変更を読み取ってスクリプトを調整し、未実装ページを正しく「NG」として報告し、さらには権限の壁を回避して自らエクセルレポートを作成するその姿は、単なる自動化ツールを超越した存在です。

「人間のように画面を見て、人間のように考え、操作するAI」は、これまで私たちがテストスクリプトのメンテナンスやエビデンス整理に費やしてきた膨大な時間を解放し、より創造的な開発業務に注力するための強力なパートナーとなるでしょう。