AI & AUTOMATION

Hướng dẫn sử dụng Eleven Labs chi tiết từ A-Z

06/09/20243579 views0

Eleven Labs là một công ty công nghệ chuyên về lĩnh vực tổng hợp giọng nói bằng trí tuệ nhân tạo (AI). Nền tảng của Eleven Labs được biết đến với khả năng tạo ra giọng nói nhân tạo tự nhiên, chân thực và rất giống con người, phù hợp cho nhiều ứng dụng khác nhau như tạo nội dung, sản xuất podcast, video, game, hoặc hỗ trợ cho các công cụ đọc văn bản.

Công nghệ của họ dựa trên machine learning và xử lý ngôn ngữ tự nhiên (NLP), cho phép chuyển đổi văn bản thành giọng nói với nhiều tùy chọn về giọng điệu, tốc độ, và phong cách nói, mang lại cảm giác gần gũi và tự nhiên cho người nghe.

Giao diện

Đầu tiên sau khi truy cập vào Eleven Labs và có giao diện làm việc như này, bấm “Go to App” để tiến hành tạo voice của riêng bạn.

Để biết xem bẩn thân đang sở hữu bao nhiêu voice ở trong thư viện của bạn, hãy nhấn vào phần “Voices” như hình dưới đây:

Để thêm voice vào thư viện giọng đọc, quay lại phần Speech, chọn vào danh sách voice có sẵn trên hệ thống và bấm “Find more voice“. Sau đó việc của bạn là “quẹo lựa” giữa 1 rừng voice.

LƯU Ý:
Phiên bản nào có hình ổ khoá thì phải trả phí

Setting giọng đọc

Bây giờ trước khi tạo voice chúng ta cần hiểu bản chất của một vài thông số khi tạo giọng đọc.

Đầu tiên đó là Stability – có nghĩa là độ ổn định của voice khi tạo ra, lúc này Stability càng cao thì voice tạo ra càng ổn định và ngược lại. Hiểu nôm na nghĩa là khi bạn tạo ra 1 giọng đọc với mức Stability thấp (gần bằng 0) thì khi thời lượng càng dài, nhân vật của chúng ta đọc càng bị hụt hơi.

Vậy nên hãy tinh chỉnh mức Stability ở loanh quanh mức từ 65-75 giúp mình.

Tiếp theo là chọn model cho giọng đọc, hiện tại thì chỉ có model “Eleven Labs Turbo v2.5” mới hỗ trợ Tiếng Việt, vì thế để làm được Tiếng Việt thì chọn model này giúp mình.

Tính cảm xúc

Nếu bạn muốn AI của Eleven Labs thể hiện một cảm xúc cụ thể, cách tốt nhất là viết theo phong cách tương tự như một cuốn sách.

Ví dụ:

Bạn có thể sử dụng các nhãn thoại để thể hiện cảm xúc, chẳng hạn như anh ấy nói, bối rối, hoặc anh ấy hét lên giận dữ. Những loại gợi ý này sẽ giúp AI hiểu được tông cảm xúc mong muốn và cố gặng tạo ra một giọng nói phản ánh chính xác điều đó. Ngoài ra thêm các dấu câu vào sau đoạn hội thoại cũng là một cách để bộc lộ cảm xúc (Ví dụ như !, ?,…). Với cách tiếp cận này, bạn có thể tạo ra các giọng nói tuỳ chỉnh cao, phù hợp cho nhiều ứng dụng.

“Bạn có chắc chắn về điều đó không?” anh ấy nói, bối rối.
“Đừng thử thách tôi!” anh ấy hét lên giận dữ.

Bạn cũng sẽ phải loại bỏ gợi ý vì AI sẽ đọc chính xác những gì bạn đưa cho nó. AI đôi khi cũng có thể suy luận cảm xúc dựa trên ngữ cảnh của văn bản, ngay cả khi không có nhãn thoại.

“Điều đó thật buồn cười!”
“Bạn nghĩ vậy à?”

Điều này không phải lúc nào cũng hoàn hảo vì bạn đang dựa vào sự suy xét của AI để hiểu liệu điều gì đó có mang tính châm biếm, hài hước, hay chỉ đơn thuần từ ngữ cảnh của văn bản.

Ngắt nghỉ

Có một số cách để tạo ra các khoảng ngắt nghỉ và ảnh hưởng đến nhịp điệu và tiết tấu của người nói. Cách nhất quán và dễ hiểu nhất cho AI của Eleven Labs đó là sử dụng cú pháp <break time="Xs" /> (X sẽ là số giây). Điều này sẽ tạo ra một khoảng ngắt tự nhiên trong bài phát biểu, hội thoại. Đây không chỉ là sự im lặng giữa các câu thoại, mà AI còn hiểu cú pháp này và thêm ngắt nghỉ tự nhiên.

Ví dụ:

“Cho tôi một giây để suy nghĩ về điều đó.” <break time=”0.1s” /> “Vâng, điều đó thật thú vị và hấp dẫn.”

Thời gian ngắt nghỉ nên được mô tả bằng giây, và AI có thể xử lý các khoảng ngắt nghĩ lên đến 3 giây.

Tránh sử dụng quá nhiều thẻ break time vì điều này có thể gây ra một số vấn để không ổn định cho AI.

Phương án 2:

Một mẹo có vẻ mang lại kết quả ổn định nhất – không bao gồm phương án trên – là dấu gạch nối đơn giản - hoặc dấu gạch ngang dài —. Bạn thậm chí có thể thêm nhiều dấu gạch ngang như -- -- để ngắt dài hơn.

“Trời – đang – tối dần.”

Dấu ba chấm ... đôi khi cũng có thể hoạt động để thêm ngắt nghỉ giữa các từ nhưng thường cũng thêm một chút “do dự” hoặc “lo lắng” vào giọng nói mà có thể không luôn phù hợp với mục đích mà bạn muốn.

“Tôi… ừ, tôi đoán vậy…”

Một số cài đặt khác

Similarity

Một số yếu tố khác mà mình muốn đề cập đó chính là Similarity– tam dịch có nghĩa là sự tương đồng. Hiểu sâu xa hơn thì mức Similarity này càng cao thì giọng đọc sẽ đầm và đều hơn, ngược lại khi mức này càng thấp thì âm thanh được tạo ra sẽ không được đều, âm thanh nghe rất nhỏ nhẹ.

Tốc độ nói

Để kiểm soát tốc độ nói của nhân vật, bạn có thể sử dụng cùng một cách tiếp cận như trong cảm xúc, nơi bạn viết theo phong cách tượng tự như một cuốn sách. Mặc dù dây không phải là giải pháp hoàn hảo, nhưng nó có thể giúp cải thiện tốc độ nói và đảm bảo rằng AI tạo ra giọng nói ở tốc độ phù hợp. Với kỹ thuật này, bạn có thể tạo ra các giọng nói chất lượng cao, vừa tuỳ chỉnh vừa dễ nghe.

“Tôi ước gì bạn đúng, tôi thực sự ước vậy, nhưng sự thật thì thật phũ phàng” anh ấy nói chậm rãi.

Speech to speech

Tại chế độ này, bạn có 2 lựa chọn: Một là tải đoạn voice của bạn lên đây, hay là thu âm trược tiếp trên hệ thống Eleven Labs. Để voice được tạo ra đúng với tone giọng của bạn, hãy chọn model phù hợp với bản thân của bạn.

Ví dụ:

Nếu bạn là nam > chọn model là nam và ngược lại.
Chọn model đúng với độ tuổi thực tế của bạn. Như bạn đang ở độ tuổi 40-50, hãy chọn giọng đọc nào đó ở độ tuổi này, và ngược lại.

Đó cũng là toàn bộ những gì mình muốn chia sẻ với mọi người để sử dụng Eleven Labs được hiệu quả hơn. Chúc các bạn ứng dụng và chinh phục AI thành công.

Chia sẻ: Phone Farm & MMO