NOW LET US
NOW LET US
Digital Product Studio
Quay lại trang tin
AI-FRONTIER6 tháng 3, 20265 phút đọc

Descript cách mạng hóa lồng tiếng video: AI của OpenAI giúp giọng nói tự nhiên hơn bao giờ hết

Descript cách mạng hóa lồng tiếng video: AI của OpenAI giúp giọng nói tự nhiên hơn bao giờ hết

Descript, trình chỉnh sửa video AI, đã giải quyết thành công thách thức lớn nhất của việc lồng tiếng: sự thiếu tự nhiên trong nhịp điệu. Bằng cách sử dụng các mô hình suy luận của OpenAI, nền tảng này đã tạo ra một quy trình mới giúp cân bằng hoàn hảo giữa ý nghĩa và thời lượng, mang lại các bản lồng tiếng đa ngôn ngữ chân thực và mượt mà.

Từ chỉnh sửa văn bản đến lồng tiếng video bằng AI

Descript là một trình chỉnh sửa video chuyên dụng cho AI, được xây dựng dựa trên một ý tưởng đơn giản: nếu bạn có thể chỉnh sửa văn bản, bạn cũng có thể chỉnh sửa video. Ngay từ những ngày đầu, AI đã là động lực cho mọi khía cạnh của sản phẩm: từ chuyển đổi giọng nói thành văn bản, biên tập, làm sạch âm thanh, cho đến các quy trình sáng tạo ngày càng phức tạp. Trong nhiều năm, Descript đã phát triển trên nền tảng của OpenAI, sử dụng Whisper để gỡ băng và các mô hình GPT trong trình đồng biên tập Underlord của mình.

Trong quá trình đó, dịch thuật nhanh chóng nổi lên như một trường hợp sử dụng có tác động lớn. Theo truyền thống, việc dịch video rất chậm và tốn kém, đòi hỏi các chuyên gia ngôn ngữ phải quản lý dự án, thực hiện các bản dịch thô, kiểm soát chất lượng và tạo ra âm thanh tương ứng. Các mô hình ngôn ngữ lớn (LLM) đã rút ngắn đáng kể quy trình này, giúp việc dịch thuật chất lượng cao trên quy mô lớn trở nên khả thi.

Bài toán nan giải: Cân bằng giữa ý nghĩa và thời lượng

Cả phụ đề và lồng tiếng đều yêu cầu tính chính xác về ngữ nghĩa: bản dịch phải giữ được ý nghĩa gốc. Tuy nhiên, yếu tố thời lượng lại đóng một vai trò khác nhau trong mỗi trường hợp. Đối với phụ đề, việc này không quá quan trọng. Nhưng đối với lồng tiếng, đây là yếu tố sống còn, bởi nếu lời thoại được dịch quá dài hoặc quá ngắn, nó sẽ nghe rất thiếu tự nhiên ngay cả khi ý nghĩa hoàn toàn chính xác.

Một vấn đề liên tục xuất hiện: âm thanh lồng tiếng không phải lúc nào cũng nghe ổn. "Có lẽ phàn nàn số một mà chúng tôi nhận được là nhịp độ của lời nói không tự nhiên trong ngôn ngữ được dịch," ông Aleks Mistratov, Giám đốc Sản phẩm AI tại Descript, cho biết.

Cốt lõi của vấn đề nằm ở chỗ các ngôn ngữ khác nhau cần lượng thời gian khác nhau để diễn đạt cùng một ý tưởng. Ví dụ, Descript nhận thấy rằng trung bình tiếng Đức là một ngôn ngữ "dài hơn" tiếng Anh. Để vừa với các phân đoạn video có thời lượng cố định, lời thoại dịch thường phải bị tăng tốc hoặc làm chậm một cách giả tạo. "Kết quả là bạn sẽ có một đoạn âm thanh nghe như giọng của những chú sóc chuột bị tua nhanh, hoặc giọng của một người khổng lồ đang buồn ngủ," ông Mistratov giải thích.

Người dùng chỉ còn hai lựa chọn: tự điều chỉnh lại thời gian của từng đoạn âm thanh, hoặc viết lại bản dịch để nó vừa vặn. Cả hai cách tiếp cận đều đòi hỏi chỉnh sửa sâu trên dòng thời gian và thường yêu cầu sự thông thạo gần như người bản xứ đối với ngôn ngữ đích. Điều này gây tốn thời gian cho người sáng tạo và trở thành rào cản khi mở rộng tính năng cho các dự án bản địa hóa quy mô lớn của doanh nghiệp.

Giải pháp đột phá với AI thế hệ mới

Để giải quyết vấn đề này, Descript đã thiết kế lại quy trình dịch thuật của mình bằng cách sử dụng các mô hình có khả năng suy luận của OpenAI để tối ưu hóa đồng thời tính chính xác về ngữ nghĩa và sự tuân thủ về thời lượng ngay trong quá trình tạo ra bản dịch, chứ không phải sau đó.

Đầu tiên, hệ thống của Descript chia bản ghi âm thành các đoạn nhỏ, dựa trên ranh giới câu, các khoảng lặng tự nhiên và nhịp điệu nói trong bản ghi gốc. Mỗi đoạn vẫn duy trì sự liên tục về mặt ngữ nghĩa, nhưng đủ nhỏ để AI có thể phân tích như một đơn vị thời gian.

Tiếp theo, mô hình sẽ tính toán số lượng âm tiết trong đoạn gốc. Dựa trên các giả định về tốc độ nói cụ thể của từng ngôn ngữ, hệ thống ước tính số lượng âm tiết mà đoạn dịch nên nhắm tới để giữ được nhịp điệu tự nhiên ("tuân thủ thời lượng"). Lệnh yêu cầu (prompt) được đưa ra để mô hình tối ưu hóa cả hai yếu tố này. Các đoạn xung quanh cũng được cung cấp làm ngữ cảnh để mô hình duy trì sự mạch lạc về ngữ nghĩa giữa các phân đoạn.

Sự cải tiến về khả năng suy luận của các mô hình GPT thế hệ mới đã mang lại sự nhất quán mà các mô hình trước đây còn thiếu, đặc biệt là trong các tác vụ như đếm âm tiết và theo dõi các ràng buộc. Nhờ đó, Descript đã có thể xây dựng một quy trình dịch thuật mà ở đó, nhịp điệu được coi là một biến số hàng đầu thay vì là thứ được sửa chữa sau cùng.

Kết quả ấn tượng và tương lai đa phương thức

Trong 30 ngày đầu tiên sau khi ra mắt, số lượng video được xuất bản có lồng tiếng đã tăng 15% và mức độ tuân thủ thời lượng đã cải thiện từ 13 đến 43 điểm phần trăm, tùy thuộc vào ngôn ngữ. Các hệ thống trước đây chỉ đạt được 40% đến 60% phân đoạn nằm trong khoảng nhịp điệu chấp nhận được. Với quy trình mới, con số này đã tăng lên từ 73% đến 83%.

Ngay cả khi chấp nhận một ngưỡng ngữ nghĩa thấp hơn một chút để ưu tiên thời lượng, 85,5% các phân đoạn vẫn được đánh giá 4 hoặc 5 trên 5 điểm về độ bám sát ý nghĩa. Kết quả là một hệ thống có thể cân bằng hai ràng buộc cạnh tranh—thời gian và ý nghĩa—với sự tự tin có thể đo lường được.

"Lồng tiếng là một trường hợp sử dụng ngày càng phổ biến của Descript, vì vậy chúng tôi đang xây dựng các phương pháp để thực hiện hàng loạt cho các công ty muốn dịch và đồng bộ hóa khẩu hình miệng cho toàn bộ thư viện nội dung của họ," bà Laura Burkhauser, CEO của Descript, cho biết.

Nhìn về tương lai, đội ngũ Descript nhận thấy biên giới tiếp theo nằm ở việc làm cho quy trình trở nên đa phương thức hơn: kết hợp âm thanh, video và văn bản lại với nhau khi quyết định cách dịch. "Điều đó sẽ giúp duy trì tốt hơn các đặc điểm phi ngôn ngữ của lời nói, như tông giọng và sự nhấn nhá, và bảo tồn được nhiều hơn nữa phong cách trình bày ban đầu," ông Mistratov nói.

Nguồn: OpenAI News

Các tin tức khác cùng danh mục

EXPLORE TOPICS

Khám phá mọi danh mục

Theo dõi sâu sát từng lĩnh vực công nghệ bạn quan tâm nhất.