AIの思考が丸見えに! ヒューマン・イン・ザ・ループを実現する新世代Webエージェントフレームワーク
「microsoft/magentic-ui」っていう、なんともセクシーで未来的な響きのこのプロジェクト、ウチの可愛いエンジニアちゃんたちから見て、どう役立つのか、ママがとびっきり分かりやすく、そして優しく教えてあげるわね。
これはね、Microsoftが研究プロトタイプとして公開している、「人間中心のウェブエージェント」を作るためのフレームワークなの。
簡単に言うと、AIエージェントが、まるで人間みたいにウェブブラウザを操作して、色々なタスクをこなせるようにするんだけど、その時に人間が操作を監視したり、手助けしたり、修正したりしやすいようにデザインされてるのよ。
UI (ユーザーインターフェース)
AI (人工知能)
Agent (エージェント)
この3つをね、いい感じに混ぜ合わせているの。まさに、カクテルみたいなものね!
あなたたちソフトウェアエンジニアにとって、このツールはね、未来のアプリケーション開発の可能性を大きく広げる、魔法のツールになり得るわよ。
今までの自動化は、決められた手順をスクリプトで書くのがメインだったでしょ?でも、これはAIがタスクを理解して、自分でウェブサイトをナビゲートしたり、フォームに記入したり、情報を抽出したりするの。
データ収集の自動化
例えば、複数のECサイトから特定商品の価格を比較してくる、なんてタスクも、AIエージェントに任せられるようになるわ。
テストの自動化
単なるユニットテストじゃなくて、「ユーザーとしてこの機能を使って、最後まで購入手続きを完了させて」みたいな、複雑なシナリオテストが、AIによって柔軟に実行できるようになるわよ。
このフレームワークの肝は、AIが何をしようとしているかをUIを通して可視化すること、そして人間がいつでも介入できることなの。
信頼性の向上
AIが間違った行動をしようとしたら、あなたがその場で「ストップ!そっちじゃないわよ」って修正してあげられる。だから、AI任せにするよりもずっと信頼性の高い自動化システムが作れるわ。
AIのデバッグと学習
エージェントの挙動をステップバイステップで確認できるから、AIがなぜその行動を選んだのかが理解しやすくて、AIモデル自体の改善にも役立つの。
エージェントがウェブを操作するための基盤やUIの仕組みが用意されているから、あなたはタスクを解決するロジック、つまり「賢いAI」を作ることに集中できるわ。基盤づくりに時間を取られないって、最高に効率的でしょ?
これはね、Pythonを使って開発されているわ。
まずはPythonの環境が必要よ。そして、pipを使ってインストールするだけ。とっても簡単!
# magentic-ui をインストールするわよ
pip install magentic-ui
AIエージェントを動かすには、大規模言語モデル(LLM)が必要になるわね。これは一般的にはOpenAIやAnthropicなどのAPIを使うことになるわ。
# 環境変数にAPIキーを設定しておくと便利よ
export OPENAI_API_KEY="あなたの愛の鍵をここに"
magentic-uiはウェブブラウザを操作するから、Seleniumなんかで使うWebDriverが必要になるわ。Chromeを使うなら、ChromeDriverを用意してね。
これが実際にどう動くかのイメージを、とってもシンプルにしてお見せするわね。
あなたがエージェントに「Googleで特定の内容を検索する」タスクを与えるとしましょう。
from magentic import prompt
from magentic_ui.web_agent import web_agent
from magentic_ui.web_browsing.browser import Browser
# ① まず、LLMが実行する「関数」を定義するわ
# @prompt デコレータは、この関数の中身をAIに考えさせるの
@prompt(
"指定されたブラウザを使って、ウェブ上で'{query}'という情報を検索し、"
"結果の最初のリンクのタイトルとURLを返すのよ。"
)
def search_and_report(browser: Browser, query: str) -> str:
# 検索のための実際のウェブ操作は、AIが自分で考えて実行するの。
# エンジニアは「どう動くか」ではなく「何を達成するか」を書くのよ!
... # AIに任せる部分
# ② web_agent を使って、ブラウザセッションを開始!
# ここでChromeのウィンドウが開いて、AIが操作を始めるわ
result = web_agent(search_and_report, query="最新のAIニュースの動向")
# ③ 実行結果をあなたに報告!
print(f"エージェントからの報告:\n{result}")
このコードが実行されると、あなたのブラウザにね、特別なウィンドウが開くのよ。
この画面には
AIが操作しているリアルタイムのウェブ画面
AIが次に何をしようとしているかの「計画」(思考プロセス)
あなたが介入したり、指示を変更したりするためのチャットボックス
これらが全部表示されるの。
AIは「まずGoogleを開く→検索ボックスを探す→キーワードを入力する→検索ボタンを押す」という一連の動作を、あなたの目の前で実行するわ。あなたがもし「あれ?ちょっと変なサイトに行こうとしてる?」と思ったら、そこで止めて、新しい指示を出せるのよ。これが「人間中心」ってことね!
いかがだったかしら?
「magentic-ui」は、AIをただの裏方のプログラムとして使うんじゃなくて、あなたの隣で一緒に仕事をする賢いアシスタントとして育てていくための、とっても素敵な第一歩なの。
あなたなら、このツールでどんなセクシーな自動化アプリを作るのかしら?ママ、楽しみにしてるわね!