はじめに

Testing Agent Demo Open AIの Computer-Using Agent (CUA) モデルを使ったデモ。触ってみようと思った結果、Tier3以上でないとそもそもモデルが使えないことが分かって終了！でしたが、ちょっと見たことのメモ。

とりあえずREADME通りやってみる

サクッと行くと思いましたが、

という環境のせいもあってか、以下のあたりがうまくいきませんでした。（深追いせず）

とはいえ、起動すると以下の感じでテストケースを自然言語で入力する画面が表示されます。テストケースの入力画面

Variables は、URLなどを設定する画面です。設定画面

Submib すると、テストケースを解釈してテスト手順を作成、それを実行していきます。テスト実行画面

前述の通り、サンプルアプリが動かなかったこともあり、テストは動いていません。別のサンプルアプリでもやってみましたが、今度はモデルのエラーになっていて、これはOpenAIの課金が足りずTier3になっていないので、そもそもCUAのモデルが使える状態じゃなかったという落ちでした。モデルエラー

動かないのでちょっと実装を見ていた際のメモ。

ここにプロンプトがあります。テストケースをテストステップに解釈しなおすプロンプトと、テストステップをCUAに食わせてテストを実行するプロンプトです。なるほど、こんな感じでステップに落とすといいのかと思って、Geminiに同じ間でスクリーンショットと合わせて投げてみたらいい感じでした。

この辺で行ってるようで、スクリーンショットを取ってテストステップを繰り返し確認しながら動かしているようです。

追加課金したらCUA modelを試してみたいですが、参考にしたプロンプトと Aether との組み合わせもやってみたいところ。