AI & AUTOMATION

Hướng dẫn xây dựng AI Agent tạo ảnh tự động với n8n và Nano Banana

06/09/2025522 views0

Trong thế giới marketing và sáng tạo nội dung, việc sản xuất hình ảnh quảng cáo độc đáo và thu hút (ad creatives) luôn là một thách thức tốn nhiều thời gian và nguồn lực. Bạn đã bao giờ mơ ước có một “trợ lý Photoshop” cá nhân, có thể biến ý tưởng của bạn thành hình ảnh chỉ bằng vài câu lệnh? Tin vui là, với sự phát triển của các công cụ no-code như n8n và các mô hình AI tạo ảnh mạnh mẽ như Nano Banana, điều này không còn là viễn tưởng.

Trong bài viết này, mình sẽ chia sẻ một cách chi tiết cách tự xây dựng một AI Agent tạo ảnh hoàn chỉnh bằng n8n mà không cần viết một dòng code nào. Hệ thống này có khả năng kết hợp, chỉnh sửa hình ảnh theo yêu cầu và quản lý file ngay trên Google Drive, tất cả được điều khiển tiện lợi qua Telegram. Hãy cùng đi sâu vào kiến trúc và cách thiết lập từng bước một.

Chia sẻ bởi Nate Herk

Mô hình hoạt động của AI Agent tạo ảnh

Trước khi đi vào chi tiết kỹ thuật, chúng ta cần hiểu rõ kiến trúc tổng thể của hệ thống. Về cơ bản, AI Agent của chúng ta sẽ hoạt động như một bộ não trung tâm, điều phối các “công cụ” chuyên biệt để thực hiện yêu cầu.

Hãy hình dung nó như một giám đốc sáng tạo ảo, và đây là đội ngũ của anh ta:

Kênh giao tiếp (Input): Người dùng sẽ tương tác với Agent thông qua Telegram. Bạn có thể gửi yêu cầu bằng văn bản (prompt) hoặc gửi trực tiếp hình ảnh. Workflow chính sẽ tự động phân loại đây là tin nhắn văn bản hay hình ảnh để xử lý phù hợp.
Bộ não trung tâm (The Agent): Đây là trái tim của hệ thống, được xây dựng trên workflow “Nano Photoshop Agent” của n8n. Nó sử dụng một mô hình ngôn ngữ lớn (ví dụ: Claude 3.5 Sonnet) để hiểu yêu cầu của người dùng. Dựa trên sự thấu hiểu đó, nó sẽ quyết định cần sử dụng công cụ nào và truyền đạt thông tin gì cho công cụ đó.
Các công cụ chuyên dụng (Tools): Đây là các workflow phụ và các node tích hợp trong n8n, mỗi công cụ thực hiện một nhiệm vụ cụ thể:
- Công cụ tạo và chỉnh sửa ảnh: Sử dụng workflow “Combine Images Nano Banana” để ghép hai ảnh hoặc “Edit Image Nano Banana Tool” để chỉnh sửa một ảnh. Cả hai đều tích hợp sức mạnh của mô hình AI tạo ảnh Nano Banana thông qua API của Fal.ai.
- Công cụ quản lý file: Tương tác với Google Drive để đổi tên file, tìm kiếm file gốc (trong thư mục Pictures), hoặc tìm kiếm các ảnh đã được AI tạo ra (trong thư mục AI Image Generation).
Không gian lưu trữ (Storage): Tất cả các file ảnh gốc và ảnh do AI tạo ra sẽ được quản lý và lưu trữ một cách có tổ chức trong Google Drive.

Khi người dùng gửi một yêu cầu, ví dụ: “Hãy kết hợp ảnh có ID ‘abc’ và ảnh có ID ‘xyz’ để tạo ra một người đàn ông đang cầm túi granola khi leo núi, và đặt tên file là ‘Granola Man'”, Agent sẽ tự động phân tích, kích hoạt công cụ “Combine Images” với các ID và prompt chi tiết. Kết quả cuối cùng sẽ được lưu lại và một liên kết sẽ được gửi trả về cho người dùng qua Telegram.

Xây dựng các công cụ cốt lõi cho AI Agent với n8n

Download workflow (n8n): https://romhub.io/n8n/Photoshop_AI_Agent

Sức mạnh của Agent nằm ở các công cụ mà nó có thể sử dụng. Trong các workflow đã cung cấp, chúng ta có các công cụ sau:

Các công cụ xử lý file trên Google Drive

Đây là những công cụ cơ bản nhưng cực kỳ quan trọng, được tích hợp trực tiếp vào workflow “Nano Photoshop Agent”:

Đổi tên file (Change Name): Node này nhận đầu vào là ID của một file (File_to_Update) và một cái tên mới (New_Updated_File_Name). Nó sử dụng node Google Drive để thực hiện thao tác đổi tên file tương ứng.
Tìm kiếm file gốc (Search Raw Files): Cho phép tìm kiếm file trong một thư mục cụ thể chứa ảnh gốc. Agent sẽ sử dụng công cụ này khi người dùng yêu cầu tìm một ảnh đã tải lên từ trước.
Tìm kiếm ảnh AI (Search AI Images): Tương tự như trên, nhưng công cụ này tìm kiếm trong thư mục chứa các ảnh đã qua xử lý bởi AI.

Việc tách bạch các công cụ này giúp hệ thống trở nên rất linh hoạt, cho phép Agent tự quyết định khi nào cần tìm file hay đổi tên, tạo ra một luồng làm việc thông minh và tự động.

Công cụ kết hợp hình ảnh (Combine Images Tool)

Đây là một workflow n8n riêng biệt có tên “Combine Images NanoBanana”, được Agent chính gọi đến khi có yêu cầu kết hợp ảnh.

Quy trình hoạt động của nó như sau:

Nhận đầu vào: Workflow này nhận các tham số từ Agent chính, bao gồm: prompt, image1 (ID file ảnh thứ nhất), image2 (ID file ảnh thứ hai), và imageTitle (tên cho file ảnh mới).
Tải file từ Google Drive: Sử dụng các ID nhận được, workflow sẽ song song tải về nội dung (dạng binary) của hai file ảnh từ Google Drive.
Tạo URL công khai: Mô hình NanoBanana (thông qua API của Fal.ai) yêu cầu đầu vào là URL công khai của hình ảnh. Workflow sẽ tự động tải dữ liệu binary của hai ảnh lên dịch vụ ImgBB và nhận về hai URL công khai tương ứng.
Gọi API NanoBanana: Workflow sẽ gửi một yêu cầu POST đến API của Fal.ai, trong đó phần body của request chứa: prompt và mảng chứa hai URL ảnh công khai.
Chờ và kiểm tra kết quả (Polling): Việc tạo ảnh AI mất một chút thời gian. Sau khi gửi yêu cầu, API sẽ không trả về kết quả ngay. Workflow sẽ đợi 10 giây, sau đó liên tục gửi yêu cầu GET (cách nhau 5 giây) để kiểm tra xem quá trình đã hoàn tất chưa.
Tải và lưu kết quả: Khi có kết quả, API sẽ trả về một URL chứa ảnh đã tạo. Workflow sẽ tải ảnh này về, sau đó tải nó lên thư mục “AI Image Generation” trên Google Drive với tên đã được xác định ở bước 1.
Phản hồi cho Agent chính: Cuối cùng, workflow sẽ gửi một thông báo trả về cho Agent chính, xác nhận rằng ảnh đã được tạo thành công cùng với liên kết đến file trên Google Drive.

Công cụ chỉnh sửa hình ảnh (Edit Image Tool)

Công cụ này là workflow “Edit Image NanoBanana Tool”, hoạt động gần như y hệt công cụ kết hợp hình ảnh. Điểm khác biệt duy nhất là nó chỉ nhận đầu vào là một ID ảnh (imageID) thay vì hai. Quá trình tải file, tạo URL công khai, gọi API, và lưu kết quả là hoàn toàn tương tự.

Thiết lập bộ não cho AI Agent: System Prompt và Memory

Sau khi đã có các công cụ, chúng ta cần lắp ráp chúng lại và tạo ra “bộ não” cho Agent trong workflow “Nano Photoshop Agent”.

System Prompt – Lời chỉ dẫn cho AI

System Prompt là bản mô tả nhiệm vụ và các quy tắc mà AI phải tuân theo. Dựa trên workflow, một cấu trúc hiệu quả như sau được sử dụng:

Vai trò: “Bạn là một trợ lý cá nhân. Nhiệm vụ của bạn là sử dụng các công cụ được cung cấp để giúp người dùng thực hiện yêu cầu của họ.”
Liệt kê công cụ: Liệt kê tên và mô tả ngắn gọn từng công cụ (Change Name, Combine Images, Search Raw Files, Search AI Images, Edit Image).
Hướng dẫn đặc biệt: Thêm vào các quy tắc xử lý cụ thể. Logic của workflow xử lý việc này rất thông minh:
1. Khi người dùng gửi một bức ảnh qua Telegram, workflow sẽ tự động tải ảnh đó lên Google Drive trước.
2. Sau đó, nó tạo ra một tin nhắn văn bản dạng: “The user just submitted a picture. Here is the ID of that file in Google Drive: [ID của file vừa tải lên]”.
3. Tin nhắn này được chuyển đến cho AI Agent.
4. System Prompt của Agent có chỉ dẫn: “Nếu người dùng gửi một bức ảnh, hãy hỏi họ muốn đặt tên file là gì. Sau khi họ trả lời, hãy sử dụng công cụ Change Name để đổi tên file đó.”

Bằng cách này, Agent không cần xử lý file nhị phân, mà chỉ cần làm việc với text và ID, giúp quy trình trở nên đơn giản và đáng tin cậy.

Memory – Trí nhớ của Agent

Để Agent có thể duy trì một cuộc hội thoại, workflow sử dụng node Memory với Session ID được đặt là ID của cuộc trò chuyện trên Telegram. Điều này cho phép Agent ghi nhớ các thông tin trong phiên làm việc. Ví dụ, sau khi bạn tải ảnh lên, Agent sẽ biết ID của file đó. Trong các tin nhắn tiếp theo, bạn có thể ra lệnh “đổi tên file đó thành ‘Chân dung tháng 9′”, và Agent sẽ sử dụng ID đã nhớ để thực hiện yêu cầu mà không cần hỏi lại.

Tối ưu và mở rộng tiềm năng

Hệ thống chúng ta vừa phân tích đã rất mạnh mẽ, nhưng vẫn còn nhiều không gian để cải tiến và mở rộng:

Chuyên gia tạo Prompt: Thay vì để Agent tự nghĩ ra prompt, bạn có thể thêm một AI Agent phụ vào bên trong các workflow tạo ảnh. Agent phụ này sẽ chuyên về việc viết prompt tối ưu cho NanoBanana, dựa trên yêu cầu đơn giản từ người dùng, giúp cải thiện đáng kể chất lượng hình ảnh đầu ra.
Hệ thống ghi nhận (Logger): Để theo dõi hoạt động và chi phí, bạn có thể thêm một bước để ghi lại mọi hành động của Agent (yêu cầu đầu vào, công cụ đã gọi, kết quả thành công hay thất bại) vào một trang Google Sheets hoặc cơ sở dữ liệu.
Mở rộng sang Video: Tại sao phải dừng lại ở hình ảnh? Bạn hoàn toàn có thể xây dựng thêm các công cụ mới sử dụng các mô hình AI image-to-video. Vẻ đẹp của kiến trúc module là bạn chỉ cần “cắm” thêm công cụ mới vào Agent chính là xong.

Việc xây dựng một AI Agent tạo ảnh với n8n không chỉ là một dự án công nghệ thú vị mà còn mở ra những khả năng vô tận cho việc tự động hóa các tác vụ sáng tạo. Bằng cách kết hợp nền tảng no-code linh hoạt như n8n, các mô hình AI tiên tiến như NanoBanana, và các dịch vụ đám mây quen thuộc, bạn có thể tạo ra một trợ lý ảo mạnh mẽ, được tùy chỉnh hoàn toàn theo nhu cầu của mình.

Hy vọng rằng những phân tích chi tiết từ các workflow thực tế này sẽ giúp bạn có một lộ trình rõ ràng để bắt đầu xây dựng AI Agent của riêng mình. Sức mạnh của tự động hóa sáng tạo giờ đây đã nằm trong tầm tay bạn.