Tóm tắt nhanh:
- Pixelle-Video là dự án mã nguồn mở của AIDC-AI giúp tạo video AI hoàn chỉnh từ một prompt văn bản, tích hợp sẵn sinh kịch bản (LLM), sinh ảnh (ComfyUI/RunningHub), TTS lồng tiếng và nhạc nền BGM.
- Hỗ trợ ba chế độ chi phí linh hoạt: hoàn toàn miễn phí (Ollama + ComfyUI self-host), chi phí thấp (LLM trả phí + ComfyUI local), hoặc không cần GPU (LLM cloud + RunningHub).
- Cung cấp giao diện web Streamlit chạy tại
http://localhost:8501, hỗ trợ cả Windows (filestart.batone-click) lẫn macOS/Linux quauv.- Hệ thống template HTML linh hoạt cho static, image và video, tự động tạo phụ đề và xuất video ra thư mục
output/.- Phù hợp cho người làm content marketing, TikTok/Shorts/Reels, sáng tạo cá nhân, không yêu cầu kiến thức chỉnh sửa video chuyên sâu.
Trong thời đại nội dung ngắn lên ngôi, việc tự động hoá quy trình sản xuất video từ A đến Z trở thành chìa khoá cho các creator độc lập và team marketing nhỏ. Pixelle-Video ra đời chính để giải quyết bài toán đó: bạn chỉ cần một ý tưởng, hệ thống sẽ lo phần còn lại từ kịch bản, hình ảnh, giọng đọc cho tới video thành phẩm.
Pixelle-Video là gì
Pixelle-Video là một dự án mã nguồn mở được phát triển và duy trì bởi nhóm AIDC-AI, hiện được phát hành dưới giấy phép Apache 2.0 trên GitHub tại AIDC-AI/Pixelle-Video. Khác với những công cụ chỉ tập trung một mảng (chỉ sinh ảnh, chỉ TTS, chỉ ghép video), Pixelle-Video là một pipeline đầu cuối, gắn kết toàn bộ chuỗi công đoạn:
- Sinh kịch bản từ prompt bằng LLM (GPT-4o, DeepSeek, hoặc model local qua Ollama)
- Sinh hình minh hoạ cho từng phân cảnh thông qua ComfyUI hoặc RunningHub
- Lồng tiếng tự động bằng các engine TTS như Edge-TTS, Index-TTS
- Ghép nhạc nền BGM, render phụ đề và xuất video thành phẩm
Toàn bộ quy trình được điều khiển từ một giao diện web Streamlit duy nhất, giúp người không có nền tảng kỹ thuật vẫn có thể thao tác dễ dàng.
Vì sao nên thử với Pixelle-Video
Linh hoạt về chi phí và phần cứng
Một trong những điểm hấp dẫn nhất của Pixelle-Video là sự linh hoạt trong cấu hình. Tuỳ vào điều kiện máy móc và ngân sách, bạn có thể chọn một trong ba phương án sau:
- Hoàn toàn miễn phí: kết hợp Ollama (chạy LLM local) với ComfyUI self-host. Chi phí gần như bằng 0 nhưng đòi hỏi GPU đủ mạnh.
- Chi phí thấp: dùng LLM trả phí (GPT-4o, DeepSeek) cho phần kịch bản, ComfyUI local cho phần ảnh.
- Không cần GPU: dùng LLM cloud kết hợp RunningHub cho phần sinh ảnh. Phù hợp với máy laptop văn phòng.
Tích hợp sâu với ComfyUI và RunningHub
Người dùng có thể tận dụng toàn bộ hệ sinh thái workflow của ComfyUI thông qua các file JSON đặt trong thư mục workflows/. Mặc định dự án đã đính kèm image_flux.json để sinh ảnh ở độ phân giải 1024×1024 với style minimalist black-and-white matchstick figure. Bạn hoàn toàn có thể thay thế bằng workflow của riêng mình.
Hệ thống template HTML linh hoạt
Pixelle-Video phân loại template thành ba nhóm rõ ràng, nằm trong thư mục templates/:
static_*.html: cho cảnh tĩnhimage_*.html: cho cảnh có hình minh hoạ AIvideo_*.html: cho cảnh video AI
Cách tổ chức này giúp bạn tái sử dụng style, đảm bảo các video xuất ra có nhận diện thương hiệu thống nhất.

Yêu cầu hệ thống
Trước khi cài đặt Pixelle-Video, bạn cần chuẩn bị:
- Python 3 (khuyến nghị 3.10 trở lên)
- uv: package manager Python siêu nhanh, dùng để quản lý môi trường
- ffmpeg: thư viện xử lý video bắt buộc
Hướng dẫn cài đặt trên Windows
Đối với người dùng Windows, AIDC-AI đã chuẩn bị sẵn bản đóng gói one-click giúp đơn giản hoá tối đa quá trình cài đặt:
- Tải bản phát hành mới nhất từ trang Releases của repository GitHub
- Giải nén ra một thư mục bất kỳ
- Chạy file
start.bat, hệ thống sẽ tự cài dependencies và khởi động web UI - Mở trình duyệt và truy cập
http://localhost:8501 - Cấu hình LLM API trong giao diện và bắt đầu tạo video
Hướng dẫn cài đặt trên macOS / Linux
Bước 1: Cài đặt uv
Truy cập trang chính thức của uv và cài theo hướng dẫn. Sau đó kiểm tra:
uv --versionBước 2: Cài đặt ffmpeg
Trên macOS:
brew install ffmpegTrên Ubuntu/Debian:
sudo apt update
sudo apt install ffmpegKiểm tra cài đặt thành công:
ffmpeg -versionBước 3: Clone và khởi chạy
git clone https://github.com/AIDC-AI/Pixelle-Video.git
cd Pixelle-Video
uv run streamlit run web/app.pyTruy cập http://localhost:8501 để mở giao diện web.
Cấu hình các dịch vụ AI
Sau khi web UI mở thành công, bạn cần khai báo hai nhóm dịch vụ cốt lõi.
Cấu hình LLM
LLM chịu trách nhiệm sinh kịch bản và phân cảnh. Bạn có thể chọn một trong các provider sau:
- GPT-4o hoặc DeepSeek: nhập trực tiếp API Key
- Bất kỳ endpoint nào tương thích OpenAI: chỉ cần điền Base URL và Model name
- Ollama local: trỏ Base URL về
http://localhost:11434để dùng model offline
Cấu hình dịch vụ sinh ảnh
Pixelle-Video hỗ trợ hai phương án:
- ComfyUI self-host: nhập URL của ComfyUI, mặc định là
http://127.0.0.1:8188 - RunningHub cloud: nhập API Key, không cần GPU local
Trong giao diện AI bạn có thể bật/tắt việc dùng AI sinh ảnh, hoặc thay thế bằng kho ảnh tĩnh của riêng mình.
Cấu hình BGM và TTS
Nhạc nền và giọng đọc tự động là hai yếu tố quan trọng tạo nên một video chuyên nghiệp:
- BGM: mặc định dùng file
default.mp3. Bạn có thể thêm file MP3/WAV bất kỳ vào thư mụcbgm/và chọn từ dropdown - TTS: hỗ trợ Edge-TTS miễn phí của Microsoft và Index-TTS chất lượng cao thông qua workflow ComfyUI trong thư mục
workflows/ - Bạn cũng có thể upload file audio MP3/WAV/FLAC nếu đã có sẵn giọng đọc của riêng mình
Quy trình tạo video thực tế
Sau khi cấu hình xong, quy trình tạo video một video mới rất đơn giản:
- Nhập chủ đề video vào ô prompt chính (ví dụ: “5 mẹo tăng năng suất khi làm việc tại nhà”)
- LLM sinh kịch bản với cấu trúc 3 đến 5 phân cảnh, bao gồm cả tiêu đề
- Hệ thống tự động sinh hình minh hoạ cho từng phân cảnh thông qua ComfyUI hoặc RunningHub
- TTS engine sinh giọng đọc cho từng đoạn thoại
- Pipeline ghép ảnh, voice, BGM và phụ đề thành video hoàn chỉnh
- Video xuất ra thư mục
output/để bạn tải về và sử dụng
Toàn bộ quá trình tự động hoàn toàn, bạn chỉ cần ngồi chờ vài phút thay vì hàng giờ chỉnh sửa thủ công như cách truyền thống.
Một số kịch bản sử dụng phổ biến
Pixelle-Video đặc biệt phù hợp với các trường hợp sau:
- Sản xuất nội dung TikTok / Shorts / Reels số lượng lớn theo lịch trình cố định
- Video kể chuyện, kiến thức ngắn dạng “Top 5”, “Did you know”, “Hôm nay tôi học được”
- Content giáo dục cho khoá học online hoặc kênh YouTube giáo dục
- Video marketing affiliate với ngân sách hạn chế
Cộng đồng AIDC-AI cũng giới thiệu nhiều dự án liên quan có thể kết hợp như Pixelle-MCP (biến workflow ComfyUI thành AI Agent qua MCP) và các công cụ khác như MoneyPrinterTurbo, NarratoAI, ComfyKit.
Mẹo tối ưu khi sử dụng
Để có trải nghiệm tốt nhất với Pixelle-Video, hãy lưu ý:
- Chuẩn bị Prompt Prefix riêng: thêm style mong muốn vào prefix để mọi cảnh sinh ra đều đồng nhất phong cách
- Quản lý workflow ComfyUI thông minh: tách workflow theo từng dự án và lưu vào
workflows/để dễ tái sử dụng - Cache BGM yêu thích: chuẩn bị sẵn vài file nhạc nền theo từng thể loại nội dung (vlog, kể chuyện, doanh nghiệp)
- Theo dõi GitHub Issues: dự án đang phát triển rất nhanh, bug fix và tính năng mới được merge liên tục
Pixelle-Video là một dự án mã nguồn mở hiếm hoi giải quyết được bài toán end-to-end của việc sản xuất video AI ngắn. Với khả năng cấu hình linh hoạt, hỗ trợ cả người dùng có GPU lẫn không có GPU, cùng giao diện Streamlit thân thiện, đây là công cụ rất đáng để các creator và team marketing nhỏ đưa vào workflow hàng ngày.
Nếu bạn đang tìm một giải pháp tự động hoá sản xuất video AI mà vẫn giữ được quyền kiểm soát hoàn toàn dữ liệu và chi phí, hãy ghé thăm trang dự án Pixelle-Video trên GitHub và bắt đầu khám phá ngay hôm nay. Chỉ với vài lệnh uv run, bạn đã có trong tay một xưởng sản xuất video AI thu nhỏ chạy ngay trên máy mình.







