Open-AutoGLM - AI Agent mã nguồn mở cho điện thoại của bạn

Hãy tưởng tượng bạn đang bận rộn giữa cuộc họp, nhưng cần đặt gấp một đơn hàng trên ứng dụng mua sắm. Bạn chỉ cần nói: “Mở eBay và tìm tai nghe không dây” – rồi điện thoại tự động làm tất cả: mở app, gõ từ khóa, lướt kết quả, thậm chí chọn sản phẩm phù hợp. Không cần chạm tay. Không cần macro. Không cần kịch bản tự động hóa cứng nhắc.

Nghe như viễn tưởng? Không hẳn. Đó chính xác là những gì Open-AutoGLM đang biến thành hiện thực.

Được phát triển bởi ZAI Org, Open-AutoGLM là một dự án mã nguồn mở (open source) cung cấp cả mô hình AI lẫn khung phát triển (framework) để xây dựng AI agent trên điện thoại – nghĩa là một “trợ lý ảo” có khả năng nhìn màn hình, hiểu giao diện, lập kế hoạch hành động và tự thao tác trên thiết bị Android của bạn. Slogan của dự án nói lên tất cả: “Unlocking the AI Phone for Everyone” – mở khóa AI điện thoại cho mọi người.

Và phần tuyệt vời nhất? Mọi thứ đều miễn phí, mở, và bạn có toàn quyền kiểm soát.

Open-AutoGLM là gì? Vì sao nó đặc biệt?

Open-AutoGLM (hay còn gọi là Phone Agent) là một khung trợ lý thông minh trên di động, được xây dựng trên nền tảng mô hình ngôn ngữ – thị giác (vision-language model) mang tên AutoGLM-Phone-9B. Khác với những công cụ tự động hóa truyền thống dựa trên kịch bản cố định (macro, script), Open-AutoGLM sử dụng AI đa phương thức (multimodal) để thực sự quan sát nội dung trên màn hình và ra quyết định thông minh.

Cơ chế hoạt động tuân theo một vòng lặp đơn giản mà hiệu quả: Chụp màn hình → Mô hình thị giác hiểu giao diện → Xuất tọa độ thao tác → ADB thực thi hành động → Lặp lại. Hệ thống điều khiển thiết bị thông qua ADB (Android Debug Bridge), cho phép gửi lệnh chạm, vuốt, nhập liệu trực tiếp lên điện thoại Android.

Những điểm nổi bật khiến Open-AutoGLM khác biệt hoàn toàn:

Hiểu màn hình đa phương thức: Kết hợp thị giác máy tính và xử lý ngôn ngữ tự nhiên để nhận diện nút bấm, văn bản, bố cục giao diện – giống như cách con người nhìn và hiểu màn hình điện thoại.
Lập kế hoạch tự động: Người dùng chỉ cần mô tả yêu cầu bằng ngôn ngữ tự nhiên, hệ thống tự phân tích ý định, hiểu giao diện hiện tại, lập kế hoạch bước tiếp theo và hoàn thành toàn bộ quy trình.
Hỗ trợ 50+ ứng dụng phổ biến: Từ Gmail, Google Maps, WhatsApp đến WeChat, Taobao và nhiều app khác – phạm vi hoạt động cực kỳ rộng.
Cơ chế an toàn tích hợp: Xác nhận trước khi thực hiện thao tác nhạy cảm, cho phép con người can thiệp thủ công khi gặp tình huống đăng nhập hoặc mã xác thực (CAPTCHA).
Điều khiển từ xa qua Wi-Fi: Sau khi thiết lập ban đầu, không cần cáp USB – kết nối và điều khiển thiết bị qua mạng nội bộ.

Tại sao Open-AutoGLM quan trọng với bạn?

Dân chủ hóa AI trên di động

Trước đây, khả năng “Phone Use” – để AI thực sự thao tác trên điện thoại – chỉ nằm trong tay một vài tập đoàn công nghệ lớn. Điều này tạo ra những walled garden nơi đổi mới bị giới hạn bởi API mà các nền tảng cho phép mở. Open-AutoGLM phá vỡ rào cản đó bằng cách biến khả năng này thành nền tảng công cộng mà toàn bộ cộng đồng có thể sở hữu và cải tiến.

Với giấy phép MIT cho mô hình và Apache-2.0 cho mã nguồn, bạn hoàn toàn tự do sử dụng, sửa đổi, thậm chí tái cấu trúc hoàn toàn cho mục đích riêng – dù là thương mại hay nghiên cứu.

Quyền riêng tư thuộc về bạn

Một trong những mối lo ngại lớn nhất khi AI thao tác trên điện thoại là dữ liệu cá nhân: tin nhắn, thanh toán, ảnh, lịch sử duyệt web. ZAI Org hiểu rõ điều này và thiết kế Open-AutoGLM theo triết lý rõ ràng: “Công nghệ mở cho hệ sinh thái; Dữ liệu và Quyền riêng tư mãi mãi thuộc về người dùng”.

Nhờ khả năng triển khai riêng tư (private deployment), doanh nghiệp và nhà phát triển hoàn toàn kiểm soát dữ liệu, nhật ký và quyền truy cập trong môi trường tuân thủ của riêng mình. Mọi phân tích hình ảnh và lập luận đều diễn ra cục bộ (locally), trừ khi bạn chủ động định tuyến đến dịch vụ bên ngoài.

Ứng dụng thực tế đa dạng

Open-AutoGLM không chỉ là demo công nghệ – nó đã được kiểm chứng qua nhiều kịch bản thực tế. Một số trường hợp sử dụng tiềm năng bao gồm:

Kiểm thử ứng dụng tự động – giảm thiểu công sức kiểm thử thủ công trên di động
Tự động hóa quy trình làm việc – xử lý hàng loạt thông báo, bình luận, tác vụ lặp lại
Hỗ trợ tiếp cận (accessibility) – giúp người dùng gặp khó khăn thao tác điện thoại dễ dàng hơn
Thu thập dữ liệu và giám sát – tự động lấy thông tin từ nhiều ứng dụng
Nghiên cứu AI – nền tảng lý tưởng để thử nghiệm agent trên môi trường di động thực

Cách bắt đầu với Open-AutoGLM

Bắt đầu với Open-AutoGLM không quá phức tạp, ngay cả khi bạn không phải lập trình viên chuyên nghiệp. Dưới đây là các bước cơ bản:

Bước 1 – Clone mã nguồn:

git clone https://github.com/zai-org/Open-AutoGLM.git

Bước 2 – Cài đặt thư viện:

pip install -r requirements.txt
pip install -e .

Bước 3 – Kết nối điện thoại Android qua ADB:

adb devices

Đảm bảo thiết bị của bạn hiển thị trong danh sách kết nối. Bạn cần bật chế độ USB Debugging trên điện thoại.

Bước 4 – Chạy agent với một câu lệnh:

Bạn có hai lựa chọn cho dịch vụ mô hình:

Lựa chọn A – Dùng API có sẵn (không cần GPU mạnh):

python main.py --base-url https://api.z.ai/api/paas/v4 --model "autoglm-phone-multilingual" --apikey "your-api-key" "Mở Chrome và tìm thời tiết hôm nay"

Lựa chọn B – Tự triển khai mô hình cục bộ (cần GPU, ~20GB):

python3 -m vllm.entrypoints.openai.api_server \
  --served-model-name autoglm-phone-9b-multilingual \
  --model zai-org/AutoGLM-Phone-9B-Multilingual \
  --port 8000

Ngoài ra, bạn cũng có thể sử dụng Python API để tích hợp vào ứng dụng riêng chỉ với vài dòng code:

from phone_agent import PhoneAgent
from phone_agent.model import ModelConfig

config = ModelConfig(
    base_url="http://localhost:8000/v1",
    model_name="autoglm-phone-9b-multilingual",
)
agent = PhoneAgent(model_config=config)
agent.run("Mở YouTube và phát video trending")

Hệ thống hỗ trợ cả tiếng Anh và tiếng Trung, chuyển đổi qua tham số --lang en hoặc --lang cn

Tương lai của AI di động: Thập kỷ của Agent

Hành trình phát triển AutoGLM bắt đầu từ tháng 4/2023 – thời điểm hầu hết mọi người chưa từng nghe đến mô hình ngôn ngữ lớn – và trải qua 32 tháng nghiên cứu không ngừng. Từ những phiên bản đầu “bấm lung tung” đến khả năng hoàn thành chuỗi thao tác ổn định trên thiết bị thực vào tháng 10/2024, đội ngũ ZAI đã chứng minh rằng AI có thể thực sự “hành động”, không chỉ “nói chuyện”.

Vào tháng 11/2024, AutoGLM đạt cột mốc lịch sử: gửi thành công “Lì xì điện tử” (Red Packet) đầu tiên do AI tự động thực hiện – không phải kịch bản, không phải API nội bộ, mà AI tự nhìn màn hình và thao tác từng bước qua giao diện ngân hàng.

Năm 2025, phiên bản AutoGLM 2.0 ra mắt với các thuật toán MobileRL, ComputerRL và AgentRL, cho phép agent học đồng thời trên hàng nghìn môi trường ảo, nâng cao đáng kể độ chính xác và khả năng tổng quát hóa.

Như Andrej Karpathy đã nhận định, chúng ta đang bước vào không chỉ “Năm của Agent” mà là “Thập kỷ của Agent”. Open-AutoGLM chính là viên gạch nền tảng để mỗi nhà phát triển, mỗi doanh nghiệp, mỗi người dùng đều có thể sở hữu một AI agent di động của riêng mình.

Cộng đồng cho anh em tham gia để học hỏi

Open-AutoGLM không chỉ là một công cụ – đó là một lời mời gọi tham gia xây dựng tương lai AI di động. Dù bạn là nhà phát triển muốn xây ứng dụng AI-native, nhà nghiên cứu muốn thử nghiệm thuật toán mới, hay đơn giản là người yêu công nghệ muốn tự động hóa điện thoại, đây là thời điểm lý tưởng để bắt đầu.

GitHub: https://github.com/zai-org/Open-AutoGLM – Clone, star, và đóng góp mã nguồn
Blog chính thức: https://xiao9905.github.io/AutoGLM/blog.html – Đọc toàn bộ câu chuyện phát triển và tầm nhìn dự án
Hugging Face: https://huggingface.co/zai-org/AutoGLM-Phone-9B – Tải mô hình và bắt đầu thử nghiệm
Tài liệu API: https://docs.z.ai/guides/vlm/autoglm-phone-multilingual – Hướng dẫn chi tiết tích hợp

Hãy là một phần của cộng đồng đang định hình lại cách con người tương tác với điện thoại. Vì như đội ngũ ZAI đã viết: