UI-TARS: Native Agent tự động hóa GUI thế hệ mới từ ByteDance

Tóm tắt nhanh

Native Interaction: UI-TARS điều khiển máy tính bằng cách “nhìn” màn hình (screenshot) và thao tác chuột/phím, không cần API hay DOM.
Hiệu suất SOTA: Vượt qua GPT-4o và Claude 3.5 Sonnet trên các benchmark quan trọng như OSWorld, AndroidWorld và GUI Grounding.
Đa nền tảng: Hoạt động tốt trên Windows, Linux, macOS, Android và cả môi trường game 3D.
Mã nguồn mở: Cung cấp đầy đủ model weights và bộ công cụ desktop stack trên GitHub.

UI-TARS là gì? Cơ chế hoạt động của native GUI agent

UI-TARS (User Interface – Transformer Agent for Reasoned Search) là một mô hình Vision-Language Model (VLM) được thiết kế chuyên biệt để tương tác với giao diện người dùng đồ họa mà không cần truy cập vào mã nguồn ứng dụng.

Thay vì dựa vào các API automation truyền thống hay phân tích cây HTML/DOM, UI-TARS hoạt động dựa trên quy trình mô phỏng con người:

Quan sát: Chụp ảnh màn hình (screenshot) hiện tại.
Suy luận: Phân tích yêu cầu (instruction) và lịch sử thao tác.
Hành động: Sinh ra thao tác chuột hoặc bàn phím cụ thể.

Mô hình này giải quyết điểm yếu chí mạng của các agent cũ: khả năng hoạt động trên các phần mềm legacy, remote desktop, hoặc game – những nơi không có “dây cắm” API.

Kiến trúc cốt lõi giúp UI-TARS hiểu giao diện

Để đạt được khả năng điều khiển máy tính chính xác, UI-TARS xây dựng kiến trúc dựa trên 4 trụ cột chính, chuyển đổi từ việc “nhìn ảnh” sang “hiểu và hành động”.

Perception và GUI grounding

UI-TARS được huấn luyện trên tập dữ liệu GUI khổng lồ, bao gồm các thành phần giao diện từ nhiều hệ điều hành khác nhau. Khả năng GUI grounding giúp mô hình xác định chính xác tọa độ (bounding box) của các phần tử như nút bấm, thanh tìm kiếm hay icon, ngay cả khi chúng thay đổi vị trí hoặc giao diện.

Unified action modeling

Mô hình sử dụng một không gian hành động thống nhất (Unified Action Space) để chuẩn hóa thao tác giữa các nền tảng. Dù là click chuột trên Windows hay chạm (tap) trên Android, UI-TARS đều quy về các lệnh chuẩn hóa, giúp dễ dàng mở rộng sang môi trường mới mà không cần train lại từ đầu.

System-2 reasoning

UI-TARS áp dụng cơ chế suy luận kiểu “System-2” (tư duy chậm và sâu). Thay vì phản xạ tức thì, agent có khả năng:

Phân rã nhiệm vụ lớn thành các bước nhỏ (Task decomposition).
Tự kiểm tra và lập lại kế hoạch nếu gặp lỗi (Reflection & Replanning).
Nhận diện các mốc quan trọng trong quy trình (Milestone recognition).

Memory và iterative training

Hệ thống sử dụng cơ chế học tăng cường (Reinforcement Learning) dựa trên lịch sử tương tác thực tế. Agent chạy trên hàng trăm máy ảo, thực hiện nhiệm vụ, ghi lại kết quả (thành công/thất bại) và dùng dữ liệu đó để tự cải thiện khả năng ra quyết định theo thời gian.

TIP:

Khi triển khai UI-TARS, hãy tận dụng khả năng System-2 reasoning cho các tác vụ phức tạp (như đặt vé máy bay, xử lý dữ liệu nhiều bước). Với các tác vụ đơn giản (như click vào một nút cụ thể), bạn có thể dùng chế độ grounding để tối ưu tốc độ.

Các tính năng đột phá của UI-TARS 1.5

Phiên bản UI-TARS 1.5 mang lại những cải tiến vượt bậc về hiệu năng và khả năng thích ứng môi trường, vượt xa các giới hạn của mô hình ngôn ngữ lớn (LLM) thông thường khi dùng tool.

Tương tác không cần API (API-less Interaction)

UI-TARS loại bỏ hoàn toàn sự phụ thuộc vào HTML DOM hay Accessibility Tree. Điều này cho phép tự động hóa trên:

Ứng dụng Desktop cũ (Legacy software).
Môi trường Citrix / Remote Desktop.
Game 3D (Minecraft, Web games) và ứng dụng đồ họa nặng.

Hiệu suất dẫn đầu trên Benchmark

Theo báo cáo kỹ thuật, UI-TARS-1.5 đạt kết quả State-of-the-Art (SOTA):

OSWorld: 42.5% (so với 36.4% của OpenAI CUA và 28% của Claude 3.7).
AndroidWorld: 64.2%, vượt trội so với mức ~34.5% của GPT-4o.
GUI Grounding: 61.6% độ chính xác trong việc định vị phần tử UI.

Xử lý đa tác vụ phức tạp

Khả năng ghi nhớ và suy luận cho phép agent thực hiện các chuỗi hành động dài hơi (long-horizon tasks). Ví dụ: Đọc thông tin từ file Excel, mở trình duyệt tìm kiếm dữ liệu bổ sung, sau đó tổng hợp và gửi email báo cáo – tất cả đều thao tác trên giao diện như người thật.

Hướng dẫn cài đặt và sử dụng UI-TARS

ByteDance cung cấp bộ công cụ mã nguồn mở giúp lập trình viên dễ dàng tích hợp UI-TARS vào ứng dụng của mình.

Cài đặt thư viện xử lý

Bạn có thể sử dụng thư viện Python ui-tars để parse output từ model thành hành động thực thi:

pip install ui-tars
# hoặc
uv pip install ui-tars

Code mẫu xử lý output

Dưới đây là ví dụ cách chuyển đổi phản hồi từ model thành code pyautogui để điều khiển chuột:

from ui_tars.action_parser import (
    parse_action_to_structure_output,
    parsing_response_to_pyautogui_code
)

# Giả lập response từ model
response = "Thought: Click the button\nAction: click(start_box='(100,200)')"
original_image_width, original_image_height = 1920, 1080

# Parse response thành cấu trúc dữ liệu
parsed_dict = parse_action_to_structure_output(
    response,
    factor=1000,
    origin_resized_height=original_image_height,
    origin_resized_width=original_image_width,
    model_type="qwen25vl",
)
print(parsed_dict)

# Chuyển đổi thành code Python thực thi (PyAutoGUI)
parsed_pyautogui_code = parsing_response_to_pyautogui_code(
    responses=parsed_dict,
    image_height=original_image_height,
    image_width=original_image_width,
)
print(parsed_pyautogui_code)

Lựa chọn Prompt Template

Để tối ưu kết quả, hãy sử dụng đúng template cho từng môi trường:

COMPUTER_USE: Cho Windows/macOS/Linux.
MOBILE_USE: Cho Android/iOS giả lập.
GROUNDING: Khi chỉ cần lấy tọa độ phần tử mà không cần thực thi hành động.

TIP:

Để trải nghiệm trọn vẹn khả năng của native agent mà không cần tự code từ đầu, hãy thử UI-TARS-desktop. Đây là một ứng dụng Electron mã nguồn mở tích hợp sẵn model, hỗ trợ cả chế độ có giao diện (headful) và chạy ngầm (headless).

Câu hỏi thường gặp

1. UI-TARS khác gì so với Selenium hay Playwright?
Selenium và Playwright hoạt động dựa trên cấu trúc code (DOM, CSS Selectors) của web, nên rất dễ lỗi khi giao diện web thay đổi code ngầm. UI-TARS hoạt động dựa trên hình ảnh hiển thị (Visual), giống mắt người, nên bền vững hơn trước các thay đổi về code backend miễn là giao diện nhìn vẫn giống cũ.

2. Cần phần cứng như thế nào để chạy UI-TARS?
UI-TARS có nhiều phiên bản kích thước khác nhau (dựa trên Qwen2-VL). Phiên bản 2B hoặc 7B có thể chạy trên GPU tiêu dùng cao cấp (như RTX 3090/4090). Phiên bản 72B sẽ yêu cầu hạ tầng server mạnh mẽ hơn (A100/H100) để đảm bảo độ trễ thấp khi suy luận thời gian thực.

3. UI-TARS có an toàn không?
Vì agent có khả năng điều khiển toàn bộ máy tính, rủi ro về an toàn là có (ví dụ: tự động xóa file, gửi tin nhắn nhạy cảm). ByteDance khuyến cáo sử dụng trong môi trường sandbox (máy ảo, container) và luôn có cơ chế giám sát (human-in-the-loop) khi triển khai các tác vụ nhạy cảm.