AI & AUTOMATION

PhoneClaw: On-device AI Agent biến iPhone của bạn thành trợ lý cá nhân hoàn toàn offline

Tóm tắt nhanh:

  • PhoneClaw là một AI Agent mã nguồn mở, chạy hoàn toàn trên iPhone không cần internet, không gọi API đám mây, không gửi dữ liệu đi bất cứ đâu.
  • Được vận hành bởi các mô hình on-device hàng đầu: Gemma 4 E2B/E4B (qua MLX) và MiniCPM-V 4.6 cho khả năng hiểu hình ảnh.
  • hệ thống Skill dạng file Markdown (SKILL.md) – thêm hoặc sửa năng lực mới không cần compile lại app, ai cũng có thể viết skill mới.
  • Tích hợp sâu với iOS: Calendar, Reminders, Contacts, Clipboard, HealthKit, Translate, và đặc biệt là LIVE Mode trò chuyện thoại thời gian thực kết hợp camera.
  • Có hai cách cài: nhanh nhất là TestFlight, còn build từ source cần macOS + Xcode 16, iOS 17+, CocoaPods và một iPhone thật (Gemma 4 E4B khuyến nghị iPhone 15 Pro trở lên).
  • Toàn bộ mã nguồn miễn phí trên GitHub kellyvv/PhoneClaw dưới giấy phép Apache 2.0.

Trong bối cảnh các trợ lý AI ngày càng tinh vi nhưng cũng ngày càng “ngốn” dữ liệu cá nhân, ý tưởng về một AI Agent chạy thuần túy trên thiết bị của bạn trở thành xu hướng mới. PhoneClaw chính là câu trả lời cho câu hỏi: “Liệu iPhone có đủ mạnh để chạy một AI Agent thực thụ mà không cần đám mây?”

PhoneClaw là gì

PhoneClaw là một AI Agent cá nhân chạy local trên iPhone, được phát triển bởi kellyvv và phát hành mã nguồn mở dưới giấy phép Apache 2.0. Khác với các app chatbot thông thường vốn chỉ là “vỏ” gọi API về server, PhoneClaw thực hiện toàn bộ inference, lý luận và gọi công cụ ngay trên thiết bị.

Triết lý cốt lõi của dự án có thể tóm gọn trong ba từ: on-device, offline, private. Không có kết nối mạng mặc định nào được tạo ra. Hội thoại, hình ảnh và dữ liệu cá nhân của bạn không bao giờ được upload lên bất kỳ máy chủ thứ ba nào.

Vì sao PhoneClaw đáng để thử

Quyền riêng tư tuyệt đối

Đây là điểm bán hàng lớn nhất. Khi bạn yêu cầu PhoneClaw đọc dữ liệu HealthKit, đặt nhắc nhở, hay phân tích một bức ảnh, toàn bộ quá trình diễn ra trong sandbox của iOS trên iPhone của bạn. Không có request HTTP nào rời khỏi thiết bị.

Sức mạnh từ Gemma 4 và MLX

PhoneClaw tận dụng phiên bản 4-bit quantized của Gemma 4 E2B (~3.58 GB)E4B (~5.22 GB) từ cộng đồng mlx-community. MLX là framework máy học của Apple được tối ưu cho Apple Silicon, cho phép mô hình chạy mượt với tốc độ đáng kinh ngạc – các benchmark cộng đồng cho thấy Gemma 4 E2B có thể đạt ~40 token/s trên iPhone 17 Pro.

Hệ thống Skill dạng file

Mỗi năng lực được định nghĩa trong một file SKILL.md duy nhất. Bạn không cần biết Swift, không cần compile lại – chỉ cần soạn một file Markdown với metadata phù hợp và thả vào thư mục skills. Điều này biến PhoneClaw thành một nền tảng skill cộng đồng thực sự, ai cũng có thể đóng góp.

LIVE Mode – đột phá về tương tác

Từ phiên bản v1.3+, PhoneClaw hỗ trợ LIVE Mode: chế độ thoại thời gian thực với khả năng ngắt lời (interrupt) tự nhiên, không cần đợi mô hình nói hết. Kết hợp với camera, agent có thể nhìn và mô tả môi trường xung quanh thông qua MiniCPM-V 4.6 – khả năng đa phương thức thật sự trên điện thoại.

Yêu cầu hệ thống

Trước khi cài đặt, bạn cần chuẩn bị:

  • macOS với Xcode 16 trở lên (nếu build từ source).
  • iOS 17.0 trở lên trên thiết bị thật.
  • CocoaPods để quản lý dependency.
  • Apple ID với developer account (free account cũng được, nhưng cert sẽ hết hạn sau 7 ngày).
  • iPhone gợi ý theo model:
Mô hìnhTrường hợp sử dụngThiết bị tối thiểu
Gemma 4 E2BChat nhẹ, dịch, single-turnA16 trở lên
Gemma 4 E4BMulti-turn, agent flow phức tạpiPhone 15 Pro trở lên
MiniCPM-V 4.6Q&A hình ảnh, LIVE mode cameraA17 Pro trở lên khuyến nghị

Hướng dẫn cài đặt

PhoneClaw cung cấp hai con đường: nhanh chóng qua TestFlight, hoặc build từ source để có toàn quyền kiểm soát.

Cách 1: TestFlight (đơn giản nhất)

Đây là cách được khuyến nghị cho người dùng thông thường. Truy cập link TestFlight của PhoneClaw trên iPhone, cài đặt, mở app và vào Model Settings để download Gemma 4 E2B hoặc E4B trực tiếp trên thiết bị. Lưu ý quy mô file mô hình lớn, nên dùng Wi-Fi.

Cách 2: Build từ source bằng Xcode

Bước 1 – Clone repository
git clone https://github.com/kellyvv/phoneclaw.git
cd phoneclaw
Bước 2 – Cài dependency
pod install
Bước 3 – Tải mô hình (tùy chọn)

Quy trình mặc định hiện tại là shell app + tải mô hình ngay trên iPhone. Bạn chỉ cần thư mục Models/ trên Mac nếu muốn bundle mô hình thẳng vào app.

Nếu chọn bundle, hãy cài Hugging Face CLI và tải Gemma 4:

brew install hf

# Chỉ E2B (khuyến nghị)
mkdir -p ./Models/gemma-4-e2b-it-4bit
hf download mlx-community/gemma-4-e2b-it-4bit \
  --local-dir ./Models/gemma-4-e2b-it-4bit

# Hoặc cả E2B và E4B
mkdir -p ./Models/gemma-4-e4b-it-4bit
hf download mlx-community/gemma-4-e4b-it-4bit \
  --local-dir ./Models/gemma-4-e4b-it-4bit

Người dùng ở Trung Quốc có thể dùng mirror ModelScope mà không cần VPN.

Nếu muốn dùng LIVE Mode với nhận dạng và tổng hợp giọng nói, tải thêm:

# ASR - Streaming speech recognition (~160MB)
hf download csukuangfj/sherpa-onnx-streaming-zipformer-zh-int8-2025-06-30 \
  --local-dir ./Models/sherpa-asr-zh \
  --exclude "test_wavs/*" "*.md" ".gitattributes"

# TTS - Text-to-speech (~125MB)
hf download csukuangfj/vits-zh-hf-keqing \
  --local-dir ./Models/vits-zh-hf-keqing \
  --exclude "*.py" "*.sh" ".gitattributes"

Sau khi tải, thêm các thư mục này dưới dạng folder reference vào Copy Bundle Resources trong Xcode.

Bước 4 – Mở workspace
open PhoneClaw.xcworkspace

Lưu ý: luôn mở file .xcworkspace, không phải .xcodeproj, vì CocoaPods sinh ra workspace để liên kết các pod.

Bước 5 – Cấu hình ký số và chạy

Trong Xcode, chọn target PhoneClaw, mở tab Signing & Capabilities, đặt Team của bạn và đổi Bundle Identifier sang giá trị duy nhất. Kết nối iPhone qua cáp và nhấn R (Run).

Nếu iPhone hỏi tin cậy developer cert, vào Settings → General → VPN & Device Management → Trust.

Bước 6 – Trải nghiệm đầu tiên

Mở app, vào Model Settings (biểu tượng slider góc phải), tải Gemma 4 E2B. Sau đó cấp quyền cho Calendar, Reminders, Contacts và thử các câu lệnh:

Nhắc tôi 8 giờ tối nay gửi file cho sếp
Lưu số của Wang 13812345678
Dịch câu cuối sang tiếng Nhật
Hôm nay tôi đi bao nhiêu bước?

Các Skill tích hợp sẵn

PhoneClaw đi kèm một bộ skill phong phú khai thác sâu hệ sinh thái iOS:

  • Calendar – tạo sự kiện bằng ngôn ngữ tự nhiên với tiêu đề, thời gian, địa điểm.
  • Reminders – đặt nhắc nhở theo thời gian, đẩy thông báo hệ thống chính xác.
  • Contacts – lưu/cập nhật liên hệ, tự động dedupe theo số điện thoại.
  • Clipboard – đọc/ghi clipboard, hữu ích trong các tác vụ nhiều bước.
  • Translate – dịch giữa các cặp ngôn ngữ, tự động phát hiện nguồn.
  • Health Data – đọc 9 loại dữ liệu HealthKit: số bước, quãng đường, calo, nhịp tim, giấc ngủ, workout. Toàn bộ xử lý local, không upload.

Tạo Skill tùy chỉnh

Sức mạnh thực sự của PhoneClaw nằm ở khả năng mở rộng. Để tạo skill mới, chỉ cần tạo file tại:

Application Support/PhoneClaw/skills/<skill-id>/SKILL.md

Cấu trúc cơ bản:

---
name: MySkill
description: Mô tả skill làm gì
version: "1.0.0"
icon: star
type: device   # device = gọi iOS API; content = chỉ dùng prompt
triggers:
  - keyword1
allowed-tools:
  - my-tool-name
examples:
  - query: "Câu lệnh người dùng có thể nói"
    scenario: "Tình huống kích hoạt skill này"
---

# Hướng dẫn cho mô hình
Khi nào gọi tool, cách cấu trúc tham số, khi nào trả lời trực tiếp...

Skill loại device sẽ gọi API iOS thật (ví dụ calendar, clipboard, contacts). Skill loại content chỉ dùng prompt để xử lý logic. Nếu cần tool mới gọi native API, đăng ký trong Tools/ToolRegistry.swift và thêm handler tương ứng.

Khắc phục sự cố thường gặp

  • Không thấy dialog xin quyền sau khi cài – skill chưa chạm đến API hệ thống. Nếu trước đó bạn đã từ chối, iOS sẽ không hỏi lại, hãy vào Settings để cấp lại quyền thủ công.
  • Mô hình load lỗi sau khi switch – kiểm tra tên thư mục mô hình khớp với availableModels trong MLXLocalLLMService.swift, và đảm bảo bộ nhớ thiết bị đủ.
  • E4B fail trên IPA sideload – do giới hạn bộ nhớ của Sideloadly cert, E4B chỉ chạy được trên CPU khi sideload. Build từ Xcode sẽ không bị giới hạn này.

Lộ trình phát triển

Dự án có roadmap rất hứa hẹn: hỗ trợ thêm nhiều API iOS native (Photos, Notes, Maps), thêm mô hình local chuyên biệt (OCR, embedding, reranker), tự động hóa cross-app qua App Intents/Shortcuts và Share Sheet, và khám phá đầu vào video/màn hình bên ngoài. Tầm nhìn cuối cùng là chuyển từ “một mô hình lớn làm tất cả” sang “nhiều mô hình local hợp tác” – một mini AI stack ngay trong túi bạn.


PhoneClaw đại diện cho một làn sóng mới của AI cá nhân: mạnh mẽ, riêng tư và hoàn toàn thuộc về bạn. Với việc Gemma 4 đã đạt chất lượng đủ tốt để chạy trên silicon di động, kỷ nguyên agent thuần on-device không còn là viễn cảnh xa vời mà đã trở thành hiện thực có thể cài và dùng ngay hôm nay.

Nếu bạn quan tâm tới quyền riêng tư, muốn thử nghiệm các mô hình AI biên (edge AI), hoặc đơn giản là yêu thích triết lý “máy của tôi, dữ liệu của tôi”, hãy truy cập repository PhoneClaw trên GitHub hoặc tham gia TestFlight và bắt đầu hành trình AI offline của riêng mình.

Duy Nghiện
Hãy làm khán giả, đừng làm nhân vật chính :)

You may also like

Nhận thông báo qua email
Nhận thông báo cho
guest

0 Bình luận
Mới nhất
Cũ nhất Nhiều like nhất
Phản hồi nội tuyến
Xem tất cả bình luận