IBM ra mắt Granite 4.0 1B Speech: AI giọng nói nhỏ gọn, đa ngôn ngữ cho thiết bị biên

IBM vừa giới thiệu Granite 4.0 1B Speech, một mô hình AI giọng nói nhỏ gọn nhưng mạnh mẽ với chỉ 1 tỷ tham số. Mô hình này mang lại khả năng nhận dạng và dịch giọng nói đa ngôn ngữ hiệu suất cao, được thiết kế đặc biệt cho các ứng dụng doanh nghiệp trên các thiết bị có tài nguyên hạn chế.
Giới thiệu mô hình AI giọng nói thế hệ mới
IBM vừa chính thức công bố Granite 4.0 1B Speech, thành viên mới nhất trong bộ sưu tập mô hình Granite Speech của hãng. Được thiết kế cho các ứng dụng doanh nghiệp trên các thiết bị có tài nguyên hạn chế, Granite 4.0 1B Speech là một mô hình ngôn ngữ-giọng nói nhỏ gọn, chuyên dụng cho nhận dạng giọng nói tự động đa ngôn ngữ (ASR) và dịch giọng nói hai chiều (AST).
Nhỏ gọn nhưng mạnh mẽ
Với chỉ một nửa số tham số so với phiên bản tiền nhiệm (granite-speech-3.3-2b), mô hình này mang lại độ chính xác phiên âm tiếng Anh cao hơn, tốc độ suy luận nhanh hơn thông qua cơ chế giải mã suy đoán (speculative decoding), và hỗ trợ ngôn ngữ mở rộng, bao gồm tiếng Anh, Pháp, Đức, Tây Ban Nha, Bồ Đào Nha và Nhật Bản.
Hai bổ sung đáng chú ý trong phiên bản này là khả năng nhận dạng giọng nói tiếng Nhật và cơ chế ưu tiên nhận dạng từ khóa (keyword list biasing) để cải thiện việc nhận diện tên riêng và các từ viết tắt—đây đều là những tính năng được cộng đồng yêu cầu nhiều nhất. Gần đây, Granite 4.0 1B Speech cũng đã vươn lên vị trí số 1 trên bảng xếp hạng OpenASR, khẳng định hiệu suất vượt trội của mình trong số các hệ thống nhận dạng giọng nói mã nguồn mở.
Hiệu năng vượt trội được kiểm chứng
Dù có kích thước nhỏ, Granite 4.0 1B Speech vẫn đạt được kết quả cạnh tranh cao trên các bài kiểm tra ASR tiếng Anh tiêu chuẩn. Hiệu năng của mô hình được đo bằng Tỷ lệ Lỗi Từ (Word Error Rate - WER)—tỷ lệ phần trăm các từ được phiên âm sai—với điểm số càng thấp thể hiện độ chính xác càng cao. Dữ liệu cho thấy Granite 4.0 1B Speech đạt được chỉ số WER rất thấp trên nhiều bộ dữ liệu khác nhau, trong khi sử dụng số lượng tham số ít hơn đáng kể so với nhiều mô hình tương đương.
Mã nguồn mở và khả năng tích hợp
Giống như tất cả các mô hình Granite khác, Granite 4.0 1B Speech được phát hành theo giấy phép Apache 2.0 và được hỗ trợ nguyên bản trong các thư viện phổ biến như transformers và vLLM. IBM đã đánh giá mô hình trên một loạt các bài kiểm tra ASR và AST tiêu chuẩn—bao gồm các tác vụ tiếng Anh, đa ngôn ngữ và dịch thuật—và nhận thấy nó hoạt động tốt ngang bằng hoặc tốt hơn các mô hình có số lượng tham số lớn hơn nhiều.
Kết quả đánh giá đầy đủ, chi tiết kiến trúc, dữ liệu huấn luyện và các ví dụ sử dụng đều có sẵn trên thẻ thông tin của mô hình (model card). IBM cũng khuyến nghị kết hợp mô hình này với Granite Guardian cho các môi trường triển khai sản phẩm yêu cầu thêm lớp phát hiện rủi ro.
Nguồn: Hugging Face Blog

