Agent Browser: Công cụ browser automation sinh ra dành cho AI Agents
AI agents đang bùng nổ, việc điều khiển trình duyệt một cách ổn định và hiệu quả là thách thức lớn. Agent Browser – dự án từ Vercel Labs – là CLI tool mã nguồn mở được thiết kế dành riêng cho AI agents, giúp tự động hóa trình duyệt headless (hoặc headed) một cách thông minh và đáng tin cậy.
Với hơn 14.000 stars trên GitHub (tính đến tháng 2/2026), Agent Browser nổi bật nhờ cơ chế snapshot accessibility tree với các ref ổn định (@e1, @e2…), giúp AI dễ dàng chọn và tương tác với phần tử mà không phụ thuộc vào selector dễ thay đổi như CSS/XPath truyền thống.
Dự án được xây dựng trên Playwright, hỗ trợ Chromium mặc định, tích hợp cloud providers (Browserbase, Browser Use, Kernel) và thậm chí iOS Simulator. Đây là công cụ lý tưởng cho các AI agent cần thực hiện nhiệm vụ web phức tạp.
Các tính năng chính
- Snapshot thông minh: Trả về accessibility tree với ref ổn định, lọc interactive elements, compact mode.
- Tương tác đa dạng: Click, fill, type, hover, drag, select, screenshot, PDF export, eval JS…
- Session & Profile persistence: Lưu trạng thái đăng nhập, cookies, localStorage với mã hóa AES-256.
- Hỗ trợ cloud & mobile: Browserbase, Kernel, iOS Safari qua Appium.
- Debug mạnh mẽ: Headed mode, trace, console log, highlight elements.
- AI-friendly: Output JSON, workflow snapshot → parse → act → resnapshot.
Hướng dẫn cài đặt
Cách 1: npm (khuyến nghị)
npm install -g agent-browser
agent-browser install # Tải ChromiumCách 2: Homebrew (macOS)
brew install agent-browser
agent-browser installCách 3: Build từ source
git clone https://github.com/vercel-labs/agent-browser
cd agent-browser
pnpm install
pnpm build
pnpm build:native # Cần Rust
pnpm link --global
agent-browser install
Trên Linux, chạy agent-browser install --with-deps để cài dependencies hệ thống.
Hướng dẫn sử dụng cơ bản
Workflow khuyến nghị cho AI agents:
- Mở trang:
agent-browser open https://example.com- Lấy snapshot (JSON để AI parse):
agent-browser snapshot -i --json > snapshot.json- AI phân tích ref → thực hiện hành động:
agent-browser click @e5
agent-browser fill @e3 "[email protected]"
agent-browser type @e4 "password123\n" # \n = Enter- Chờ & kiểm tra:
agent-browser wait --text "Welcome"
agent-browser wait --url "**/dashboard"- Screenshot hoặc lưu trạng thái:
agent-browser screenshot dashboard.png
agent-browser --session-name mybank open bank.com # PersistenceVí dụ session có mã hóa:
export AGENT_BROWSER_ENCRYPTION_KEY=$(openssl rand -hex 32)
agent-browser --session-name secure open gmail.comTích hợp Agent Browser vào OpenClaw
OpenClaw là framework AI agent mã nguồn mở cá nhân (personal AI assistant) đang rất hot năm 2026, với hơn 200.000 stars trên GitHub. Nó chạy local, hỗ trợ kết nối nhiều channel (WhatsApp, Telegram, Slack, Discord…) và đặc biệt có hệ thống plugins/skills cùng khả năng gọi shell commands.
OpenClaw đã có công cụ browser cơ bản, nhưng Agent Browser vượt trội hơn hẳn về độ ổn định và tính năng dành riêng cho AI agents (snapshot + ref). Vì OpenClaw hỗ trợ shell tool và custom skills, chúng ta có thể tích hợp Agent Browser dễ dàng.
Cách 1: Sử dụng qua shell tool (Đơn giản nhất)
Trong config OpenClaw, định nghĩa tool shell để gọi agent-browser:
tools:
- type: shell
name: agent_browser
description: Advanced browser automation using Agent Browser CLI. Use snapshot-ref workflow for best results.
commands:
- agent-browser {args}Agent có thể gọi:
agent_browser open https://github.comagent_browser snapshot -i --jsonagent_browser click @e10
LƯU Ý:
Cần quản lý session cẩn thận (dùng
--session-namechung cho các lệnh liên tiếp).
Cách 2: Tạo custom skill/Plugin cho OpenClaw
OpenClaw hỗ trợ community skills (tương tự Claude). Bạn có thể tạo skill wrapper quanh Agent Browser:
- Tạo folder skill theo format OpenClaw.
- Viết wrapper Python/Node để gọi CLI và xử lý output JSON.
- Đăng ký skill trong OpenClaw config.
Hiện tại chưa có skill chính thức từ Vercel cho OpenClaw (chỉ có cho Claude/Cursor), nhưng cộng đồng có thể phát triển nhanh chóng.
Cách sử dụng trong OpenClaw
Sau khi tích hợp:
- Gửi tin nhắn: “Đăng nhập Gmail và kiểm tra mail mới”
- Agent sẽ:
- Dùng session persistence để mở Gmail (nếu đã lưu).
- Snapshot → tìm ô search → fill → enter.
- Đọc nội dung → trả lời bạn qua Telegram/WhatsApp.
Use case thực tế với OpenClaw + Agent Browser
- Quản lý tài khoản cá nhân
Duy trì session đăng nhập ngân hàng, Gmail, GitHub → kiểm tra số dư, unread mail, new PR tự động hàng ngày. - Web scraping thông minh
Agent theo dõi giá sản phẩm Shopee/Tiki → snapshot → extract bằng ref → gửi alert khi giảm giá. - Tự động hóa form phức tạp
Điền form hành chính (thuế, bảo hiểm) → xử lý captcha đơn giản qua screenshot + OCR (kết hợp tool khác). - Nghiên cứu & tổng hợp thông tin
Mở nhiều tab → tìm kiếm → extract text → tổng hợp báo cáo gửi qua Slack. - Testing & monitoring
Kiểm tra website cá nhân có lỗi không → screenshot → report.
Kết hợp này biến OpenClaw thành super-assistant thực sự mạnh mẽ trên web, với độ tin cậy cao hơn nhiều so với browser tool built-in.
Agent Browser là bước tiến lớn trong browser automation cho AI era, và việc tích hợp với OpenClaw giúp bạn sở hữu personal agent có khả năng web gần như con người. Hãy thử cài đặt ngay hôm nay và biến assistant của bạn thành “siêu nhân” trên internet!
Link dự án:
- Agent Browser: https://github.com/vercel-labs/agent-browser
- OpenClaw: https://github.com/openclaw/openclaw
Nếu bạn gặp khó khăn khi tích hợp, hãy comment bên dưới nhé!








