Peekaboo:AIエージェントのためのmacOSスクリーンショット・インターフェース
本日のテーマは、macOSエンジニアやAI開発者の間で今アツい視線を浴びているツール、「Peekaboo」(ピーカブー)です!
「AIに自分の画面を見せて、指示通りに操作してもらいたい…」そんな願いを叶えるこのツールの正体を、エンジニア視点で紐解いていきましょう。
答え
AIに「目」を授ける、macOS専用のスクリーンショット制御ツールです!
通常のスクリーンショットと違うのは、CLI(コマンドライン)やMCP(Model Context Protocol)として動作する点。つまり、人間が「カシャッ」と撮るのではなく、プログラムやAIエージェントが自律的に「今の画面の状態」を把握するために設計されています。
MCPサーバー対応
Claude DesktopなどのAIエージェントにそのまま組み込めます。
VQA(視覚応答)連携
画像を撮るだけでなく、ローカル(Ollamaなど)やクラウドのAIに「この画面に何が映ってる?」と解析させるところまで一気に自動化できます。
特定アプリ狙い撃ち
システム全体だけでなく、特定のウィンドウだけをターゲットにできます。
答え
Swift製なので、ビルドしてパスを通すだけ!
まずは、お使いのマシンに Xcode が入っていることを確認してくださいね。
リポジトリをクローン
git clone https://github.com/steipete/Peekaboo.git
cd Peekaboo
ビルド
swift build -c release
実行ファイルの配置
ビルドされたバイナリ(.build/release/peekaboo)を /usr/local/bin などに移動させれば、どこからでも peekaboo コマンドが叩けるようになります。
答え
CLIから叩くのも良し、エージェントに任せるも良し!
peekaboo capture --path ./screenshot.png
ここがPeekabooの真骨頂!例えば「今のブラウザに何が映ってる?」とAIに聞く場合
peekaboo vqa --prompt "この画面に表示されているエラーメッセージを書き出して" --model gpt-4o
Claude Desktopの config.json に以下のように追記すれば、AIがあなたの画面を自由に「見る」ことができるようになります。
{
"mcpServers": {
"peekaboo": {
"command": "path/to/peekaboo",
"args": ["mcp"]
}
}
}
答え
GUI操作の自動化(RPA)が、AIによって劇的に簡単になるからです!
これまでは、画面上のボタンの位置(座標)をプログラムに教える必要がありました。しかし、Peekabooがあれば
AIがPeekaboo経由で画面を見る。
AIが「あ、右上に送信ボタンがあるな」と判断する。
AIが次のアクションを決定する。
という、より人間に近い自律的なワークフローが組めるようになるんです。まさにAIエージェント時代の「必須アイテム」と言えますね!
いかがでしたか?Peekabooを使えば、あなたのmacOSライフがもっと自動化されること間違いなしです!