
Tóm tắt nhanh:
- Mã nguồn mở (Apache 2.0): Miễn phí sử dụng thương mại, cho phép tùy chỉnh sâu.
- Tính năng cao cấp: Nhân bản giọng nói chỉ với 3 giây audio, tạo giọng nói từ văn bản mô tả (Voice Design).
- Hiệu suất ấn tượng: Độ trễ cực thấp (97ms), hỗ trợ streaming input/output, lý tưởng cho AI hội thoại.
- Đa dạng mô hình: Cung cấp các biến thể 1.7B và 0.6B, tối ưu hóa cho cả chất lượng cao và tốc độ phản hồi.
Qwen3-TTS là gì?
Qwen3-TTS là hệ thống tổng hợp giọng nói (text-to-speech) đa ngôn ngữ được phát triển bởi Alibaba Cloud, nổi bật với khả năng kiểm soát cao và phát hành dưới dạng mã nguồn mở. Không chỉ dừng lại ở việc đọc văn bản đơn thuần, công nghệ này cho phép nhân bản giọng nói (zero-shot cloning), thiết kế giọng nói mới hoàn toàn dựa trên mô tả (prompt), và điều chỉnh cảm xúc chi tiết.
Với giấy phép Apache 2.0, Qwen3-TTS trực tiếp thách thức các dịch vụ trả phí hiện có bằng cách cung cấp quyền truy cập miễn phí vào các khả năng xử lý âm thanh tiên tiến nhất cho cộng đồng lập trình viên toàn cầu.
Các tính năng cốt lõi
Hỗ trợ đa ngôn ngữ nhất quán
Qwen3-TTS được huấn luyện trên hơn 5 triệu giờ dữ liệu, đảm bảo khả năng phát âm tự nhiên và duy trì đặc tính giọng nói khi chuyển đổi giữa các ngôn ngữ. Dưới đây là danh sách 10 ngôn ngữ được hỗ trợ đầy đủ:
| Ngôn Ngữ | Trạng Thái |
|---|---|
| Tiếng Trung Quốc | Hỗ trợ đầy đủ |
| Tiếng Anh | Hỗ trợ đầy đủ |
| Tiếng Nhật | Hỗ trợ đầy đủ |
| Tiếng Hàn | Hỗ trợ đầy đủ |
| Tiếng Đức | Hỗ trợ đầy đủ |
| Tiếng Pháp | Hỗ trợ đầy đủ |
| Tiếng Nga | Hỗ trợ đầy đủ |
| Tiếng Bồ Đào Nha | Hỗ trợ đầy đủ |
| Tiếng Tây Ban Nha | Hỗ trợ đầy đủ |
| Tiếng Ý | Hỗ trợ đầy đủ |
Độ trễ cực thấp (Ultra-Low Latency)
Đối với các ứng dụng thời gian thực như trợ lý ảo hay phiên dịch trực tiếp, độ trễ là yếu tố sống còn. Qwen3-TTS giải quyết vấn đề này với các chỉ số ấn tượng trên GPU tiêu chuẩn:
- First-packet latency: 97-101 ms.
- Real-time factor (RTF): 0.3-0.46 (tổng hợp nhanh hơn tốc độ phát thực tế).
Nhân bản giọng nói Zero-Shot
Bạn có thể sao chép một giọng nói bất kỳ chỉ với một mẫu tham chiếu cực ngắn. Quy trình hoạt động như sau:
- Cung cấp đoạn âm thanh mẫu dài 3 giây.
- Mô hình phân tích các đặc trưng như cao độ, âm sắc.
- Áp dụng giọng nói đó cho bất kỳ văn bản đầu vào nào.
Voice Design – Tạo giọng từ mô tả
Thay vì chọn giọng có sẵn, bạn có thể dùng văn bản để “vẽ” ra giọng nói mong muốn:
Mô tả: "Một giọng nam trầm, điềm tĩnh, trung niên,
có chút ngã Bắc, lý lịch học vấn cao"
↓
Qwen3-TTS sinh ra một giọng nói phù hợp
Kiểm soát qua hướng dẫn tự nhiên (ChatML)
Mô hình cho phép điều chỉnh các sắc thái tinh tế như cảm xúc (vui, buồn, tự tin), tốc độ nói và phong cách thông qua ngôn ngữ tự nhiên, loại bỏ sự phụ thuộc vào các tham số kỹ thuật phức tạp.
Pro tips:
Nếu bạn đang xây dựng chatbot chăm sóc khách hàng, hãy ưu tiên sử dụng biến thể Qwen3-TTS-12Hz. Dù chất lượng âm thanh thấp hơn một chút so với bản 25Hz, nhưng độ trễ dưới 100ms sẽ mang lại trải nghiệm hội thoại mượt mà hơn rất nhiều, tránh tình trạng người dùng phải chờ đợi câu trả lời quá lâu.
Kiến trúc kỹ thuật
Hệ thống Tokenizer kép
Để cân bằng giữa chất lượng và tốc độ, Alibaba cung cấp hai loại tokenizer:
- Qwen-TTS-Tokenizer-25Hz:
- Sử dụng một lớp codebook duy nhất.
- Tối ưu cho việc giữ trọn vẹn ngữ nghĩa và chất lượng âm thanh cao nhất.
- Qwen-TTS-Tokenizer-12Hz:
- Sử dụng 16 lớp multi-codebook.
- Tối ưu cho độ trễ thấp (97ms) và nén bitrate cao.
Cơ chế Dual-Track
Kiến trúc này xử lý song song hai luồng thông tin: dự đoán codebook từ văn bản (Track 1) và xử lý tín hiệu kiểm soát giọng/cảm xúc (Track 2). Điều này cho phép mô hình bắt đầu phát âm thanh ngay khi nhận được các token đầu tiên mà không cần chờ xử lý toàn bộ câu.
Hiệu suất so sánh với đối thủ
Qwen3-TTS thể hiện sức mạnh vượt trội trong các bài kiểm tra chuẩn (benchmark).
Nhân bản giọng nói (Seed-TTS Benchmark)
Chỉ số WER (Word Error Rate) càng thấp càng tốt.
| Mô Hình | WER (Tiếng Trung) | WER (Tiếng Anh) |
|---|---|---|
| CosyVoice 3 | 0.71 | 1.45 |
| Qwen3-TTS-12Hz-1.7B | 0.77 | 1.24 |
| MiniMax-Speech | 0.83 | 1.65 |
Tổng hợp văn bản dài
Khả năng duy trì sự ổn định khi đọc các văn bản dài (200 – 2000 từ):
| Mô Hình | Tiếng Trung | Tiếng Anh |
|---|---|---|
| Higgs-Audio-v2 | 5.51 | 6.92 |
| VibeVoice | 22.62 | 1.78 |
| Qwen3-TTS-25Hz-1.7B | 1.52 | 1.23 |
Các biến thể mô hình có sẵn
Người dùng có thể lựa chọn giữa 5 phiên bản để phù hợp với tài nguyên phần cứng:
Nhóm Qwen3-TTS-12Hz (Tối ưu độ trễ)
| Mô Hình | Kích Thước | Mục Đích Sử Dụng |
|---|---|---|
| 1.7B-Base | 1.7B tham số | Nhân bản giọng cơ bản, cân bằng |
| 1.7B-VoiceDesign | 1.7B tham số | Chuyên tạo giọng nói từ mô tả |
| 1.7B-CustomVoice | 1.7B tham số | Fine-tune trên 9 giọng có sẵn |
| 0.6B-Base | 600M tham số | Chạy trên thiết bị biên, tốc độ cao |
| 0.6B-CustomVoice | 600M tham số | Tùy chỉnh giọng nhẹ, nhanh |
Nhóm Qwen3-TTS-25Hz có các biến thể tương tự nhưng tập trung vào chất lượng âm thanh (High Fidelity).
So sánh chi phí: Qwen3-TTS vs Giải pháp thương mại
Qwen3-TTS vs ElevenLabs
| Tiêu Chí | Qwen3-TTS | ElevenLabs |
|---|---|---|
| Giá | Miễn phí (Mã nguồn mở) | Từ $0.30/10k ký tự |
| Nhân bản giọng | Có (3 giây) | Có (1 phút) |
| Triển khai | Self-hosted (Docker/Local) | API Only |
| Độ trễ | ~97ms | ~500-1000ms |
Qwen3-TTS vs Google Cloud TTS
| Tiêu Chí | Qwen3-TTS | Google TTS |
|---|---|---|
| Voice Design | Có | Không |
| Zero-shot cloning | Có | Không |
| Quyền kiểm soát | Mã nguồn mở | API đóng |
Hướng dẫn cài đặt nhanh
Bạn có thể chạy thử nghiệm ngay lập tức thông qua các thư viện phổ biến.
Cách 1: Sử dụng Hugging Face
pip install -U "huggingface_hub[cli]"
huggingface-cli download Qwen/Qwen3-TTS-12Hz-1.7B-Base \
--local-dir ./Qwen3-TTS-12Hz-1.7B-BaseCách 2: Sử dụng vLLM (Python)
Đây là cách tối ưu nhất để tích hợp vào ứng dụng Python:
from vllm import LLM, SamplingParams
# Tải mô hình
llm = LLM(model="Qwen/Qwen3-TTS-12Hz-1.7B-Base")
# Tạo audio từ văn bản
output = llm.generate(
["Xin chào, đây là bài kiểm tra text-to-speech"],
sampling_params=SamplingParams(temperature=0.7)
)Pro tips:
Dù Qwen3-TTS là miễn phí, việc vận hành các mô hình 1.7B yêu cầu tài nguyên GPU đáng kể (VRAM). Nếu bạn muốn triển khai trên các thiết bị biên (edge devices) hoặc máy chủ cấu hình thấp, hãy bắt đầu với phiên bản 0.6B. Phiên bản này hy sinh một chút độ tự nhiên nhưng nhẹ hơn rất nhiều.
Câu hỏi thường gặp
Q: Tôi có cần GPU mạnh để chạy Qwen3-TTS không?
A: Có và không. Để đạt độ trễ thấp nhất (real-time) với mô hình 1.7B, bạn cần GPU (như NVIDIA T4, A10 hoặc các dòng RTX). Tuy nhiên, mô hình 0.6B có thể hoạt động trên các phần cứng hạn chế hơn hoặc CPU mạnh, dù tốc độ sẽ chậm hơn.
Q: Qwen3-TTS có hỗ trợ tiếng Việt không?
A: Hiện tại, trong danh sách 10 ngôn ngữ chính thức được công bố, tiếng Việt chưa được hỗ trợ đầy đủ như tiếng Anh hay tiếng Trung. Tuy nhiên, vì là mã nguồn mở, cộng đồng hoàn toàn có thể fine-tune (tinh chỉnh) mô hình này với dữ liệu tiếng Việt trong tương lai gần.
Q: Sự khác biệt giữa Voice Cloning và Voice Design là gì?
A: Voice Cloning (Nhân bản) sao chép giọng của một người thật dựa trên file ghi âm mẫu bạn cung cấp. Voice Design (Thiết kế giọng) tạo ra một giọng nói hoàn toàn mới, không tồn tại trong thực tế, dựa trên mô tả văn bản của bạn (ví dụ: “giọng nữ trẻ, vui tươi”).








