AI & AUTOMATION

waoowaoo AI Studio – Nền tảng AI agent mã nguồn mở biến văn bản thành phim ngắn và video truyện tranh tự động

Tóm tắt nhanh

waoowaoo AI Studio là nền tảng AI agent mã nguồn mở, tự nhận là giải pháp đầu tiên trong ngành cho sản xuất phim và video có kiểm soát theo chuẩn Hollywood. Điểm cốt lõi của dự án là pipeline hoàn toàn tự động: đưa vào một đoạn văn bản tiểu thuyết hoặc kịch bản, hệ thống AI sẽ tự phân tích, trích xuất nhân vật và cảnh, sinh ảnh nhân vật nhất quán, tạo storyboard, lắp ghép video và tổng hợp giọng đọc đa nhân vật.

Toàn bộ được đóng gói và triển khai bằng một lệnh Docker duy nhất. Dự án đang ở giai đoạn beta sớm, hỗ trợ tích hợp ByteDance Volcano Engine (Seedance, Seedream) và Google AI Studio, giao diện song ngữ Anh-Trung. Phù hợp cho nhà sản xuất nội dung, creator cá nhân và nhóm phát triển muốn thử nghiệm pipeline sản xuất video AI có kiểm soát.

waoowaoo là gì?

waoowaoo AI Studio là một nền tảng AI agent mã nguồn mở được thiết kế cho quy trình sản xuất phim và video có thể kiểm soát. Dự án được phát hành tại github.com/waoowaooAI/waoowaoo và định vị bản thân là giải pháp đầu tiên trong ngành ứng dụng AI agent cho toàn bộ chuỗi sản xuất từ phim ngắn đến live-action theo quy chuẩn Hollywood.

Điểm khác biệt chính so với các công cụ tạo video AI thông thường là waoowaoo không chỉ sinh từng đoạn video rời lẻ từ prompt. Thay vào đó, nó vận hành như một studio ảo: nhận vào văn bản tiểu thuyết hoặc kịch bản thô, tự động phân tích cấu trúc, xác định nhân vật và cảnh quay, duy trì tính nhất quán hình ảnh của nhân vật xuyên suốt, tạo storyboard và lắp ghép thành video hoàn chỉnh kèm lồng tiếng.

Tính đến thời điểm hiện tại, đây là dự án beta sớm do một cá nhân chủ lực phát triển, nên người dùng cần chuẩn bị tinh thần cho các bug và thay đổi nhanh. Nhóm phát triển cam kết lộ trình cập nhật tính năng liên tục với mục tiêu trở thành giải pháp hàng đầu trong lĩnh vực.

Screenshot

Tính năng chính

Phân tích kịch bản bằng AI

Khi nhận vào văn bản nguồn, hệ thống AI tự động phân tích cấu trúc nội dung: xác định các nhân vật, trích xuất bối cảnh từng cảnh, theo dõi diễn biến cốt truyện và phân đoạn thành các đơn vị sản xuất riêng biệt. Đây là bước nền tảng cho toàn bộ pipeline phía sau.

Sinh nhân vật và cảnh nhất quán

Một trong những thách thức lớn nhất của sản xuất video AI là tính nhất quán hình ảnh giữa các frame và cảnh. waoowaoo giải quyết điều này bằng cách tạo và ghi nhớ các đặc điểm hình ảnh của nhân vật, sử dụng lại chúng khi sinh hình ảnh cho các cảnh tiếp theo, giúp khán giả nhận ra cùng một nhân vật xuyên suốt video.

Tạo storyboard và lắp ghép video tự động

Từ phân tích kịch bản, hệ thống tự động thiết kế bố cục shot cho từng cảnh, sinh hình ảnh tương ứng, sắp xếp theo trình tự và ghép thành video hoàn chỉnh. Người dùng không cần biết về biên tập video hay kỹ thuật sản xuất.

Tổng hợp giọng đọc đa nhân vật

waoowaoo tích hợp AI voiceover hỗ trợ nhiều nhân vật, tự động gắn thoại của từng nhân vật với giọng đọc tương ứng và đồng bộ vào track âm thanh của video.

Giao diện song ngữ và tích hợp nhiều dịch vụ AI

Giao diện hỗ trợ tiếng Anh và tiếng Trung, có thể chuyển đổi ở góc trên bên phải. Hệ thống hỗ trợ tích hợp các dịch vụ AI từ ByteDance Volcano Engine (Seedance, Seedream), Google AI Studio và OpenRouter cho các mô hình văn bản.

Yêu cầu hệ thống

Để chạy waoowaoo, chỉ cần một yêu cầu bắt buộc duy nhất:

Không cần cài Node.js, cơ sở dữ liệu hay bất kỳ runtime nào khác trực tiếp trên máy host. Toàn bộ tech stack bao gồm Next.js 15, React 19, MySQL, Redis và BullMQ đều được quản lý bên trong các container Docker.

Hướng dẫn cài đặt

Bước 1: Clone repository

git clone https://github.com/waoowaooAI/waoowaoo.git
cd waoowaoo

Bước 2: Khởi động bằng Docker Compose

docker compose up -d

Cơ sở dữ liệu được khởi tạo tự động trong lần chạy đầu tiên, không cần thực hiện bất kỳ bước cấu hình thủ công nào.

Bước 3: Truy cập giao diện web

Mở trình duyệt và truy cập:

http://localhost:13000

Chạy qua HTTPS (tùy chọn)

Nếu gặp tình trạng lag do HTTP mode giới hạn số kết nối của trình duyệt, cài thêm Caddy để bật HTTPS:

caddy run --config Caddyfile

Sau đó truy cập qua:

https://localhost:1443

Cập nhật lên phiên bản mới nhất

git pull
docker compose down && docker compose up -d --build

Cấu hình API sau khi cài đặt

Sau khi khởi động thành công, bước tiếp theo là cấu hình API key cho các dịch vụ AI. Vào mục Settings trong giao diện, nơi có hướng dẫn tích hợp sẵn.

Các dịch vụ được khuyến nghị

ByteDance Volcano Engine là lựa chọn chính thức được nhóm phát triển kiểm chứng, cung cấp hai mô hình:

  • Seedance: dịch vụ tạo video
  • Seedream: dịch vụ tạo ảnh

Google AI Studio cũng được hỗ trợ và kiểm chứng, phục vụ cho việc sinh hình ảnh.

OpenRouter được yêu cầu cho các mô hình văn bản, bao gồm bước phân tích kịch bản và sinh thoại nhân vật.

Sau khi cấu hình API key, hệ thống sẵn sàng nhận văn bản đầu vào và bắt đầu pipeline sản xuất.

Tech stack và kiến trúc

waoowaoo được xây dựng trên các công nghệ hiện đại và đã được kiểm chứng trong môi trường production:

  • Frontend: Next.js 15 và React 19, cung cấp giao diện web phản hồi nhanh
  • Database: MySQL với Prisma ORM quản lý schema và migration
  • Queue system: Redis kết hợp BullMQ xử lý các tác vụ AI bất đồng bộ và tốn thời gian (sinh video, tổng hợp âm thanh)
  • Styling: Tailwind CSS v4
  • Authentication: NextAuth.js

Việc sử dụng hàng đợi (queue) thông qua BullMQ là quyết định kiến trúc quan trọng, cho phép người dùng đưa vào nhiều tác vụ cùng lúc và theo dõi tiến trình xử lý mà không bị block giao diện.

Các trường hợp sử dụng tiêu biểu

Creator nội dung cá nhân: Tác giả có kịch bản web drama hoặc truyện tranh nhưng không có đội ngũ sản xuất có thể dùng waoowaoo để tạo video pilot, demo hay teaser với chi phí gần như bằng 0, chỉ trả chi phí API cho các dịch vụ AI tích hợp.

Studio sản xuất nội dung quy mô nhỏ: Các nhóm sản xuất phim ngắn, video quảng cáo hay nội dung mạng xã hội có thể dùng waoowaoo như bước pre-production nhanh để tạo storyboard animatic trước khi quyết định đầu tư vào quay thật.

Nhà phát triển và nhà nghiên cứu AI: waoowaoo là một case study thực tế về cách xây dựng pipeline sản xuất video có kiểm soát với AI agent, phù hợp để nghiên cứu kiến trúc và thử nghiệm tích hợp các mô hình AI mới.

Nền tảng đào tạo kỹ năng kể chuyện: Học sinh, sinh viên ngành điện ảnh có thể dùng waoowaoo để nhanh chóng chuyển kịch bản thành bản visualize, giúp nhận phản hồi về cấu trúc câu chuyện trước khi đầu tư vào sản xuất thật.

Những điểm cần lưu ý

Vì đây là dự án beta sớm, người dùng nên biết một số điểm thực tế:

Chất lượng đầu ra phụ thuộc nhiều vào chất lượng và hạn ngạch của các dịch vụ API được tích hợp, đặc biệt là Seedance và Seedream từ ByteDance Volcano Engine. Chi phí vận hành thực tế là chi phí API của các dịch vụ này, không phải chi phí của waoowaoo.

Nhóm phát triển chấp nhận Issue để báo cáo bug và đề xuất tính năng, nhưng Pull Request từ cộng đồng bên ngoài không được merge trực tiếp mà chỉ được tham khảo, vì nhóm tự triển khai fix nội bộ.


waoowaoo AI Studio tiếp cận vấn đề sản xuất video AI theo hướng pipeline có kiểm soát thay vì sinh nội dung đơn lẻ từ prompt, đây là định hướng phù hợp hơn với nhu cầu sản xuất nội dung thực tế. Với kiến trúc hàng đợi bất đồng bộ, tích hợp nhiều dịch vụ AI chuyên biệt và khả năng triển khai tức thì qua Docker, dự án đặt nền móng vững chắc cho một công cụ sản xuất video AI hoàn chỉnh.

Dù đang ở giai đoạn beta và có không ít giới hạn, đây là thời điểm tốt để theo dõi và thử nghiệm với dự án, đặc biệt nếu bạn đang tìm kiếm một giải pháp tự host cho quy trình sản xuất video AI có kiểm soát.

  • Mã nguồn: github.com/waoowaooAI/waoowaoo
  • Tài liệu và demo: xem README trong repository
  • Triển khai: Docker Desktop + một lệnh duy nhất
  • Giấy phép: xem repository để biết thông tin license cụ thể
Duy Nghiện
Hãy làm khán giả, đừng làm nhân vật chính :)

You may also like

Nhận thông báo qua email
Nhận thông báo cho
guest

0 Bình luận
Mới nhất
Cũ nhất Nhiều like nhất
Phản hồi nội tuyến
Xem tất cả bình luận