Nvidia ra mắt Nemotron 3 Super: Kiến trúc lai ba đột phá, tối ưu cho AI tự hành

Nvidia vừa công bố Nemotron 3 Super, một mô hình lai 120 tỷ tham số với kiến trúc độc đáo kết hợp Mamba, Transformer và LatentMoE. Mô hình này được thiết kế để giải quyết bài toán chi phí cho các hệ thống AI tự hành phức tạp, mang lại hiệu suất suy luận và thông lượng vượt trội, đặc biệt trên nền tảng GPU Blackwell.
Các hệ thống đa tác tử (multi-agent systems), được thiết kế để xử lý các tác vụ phức tạp và dài hạn như kỹ thuật phần mềm hay phân loại an ninh mạng, có thể tạo ra khối lượng token lớn gấp 15 lần so với các cuộc trò chuyện thông thường. Điều này đe dọa đến hiệu quả chi phí khi triển khai chúng cho các nhiệm vụ doanh nghiệp.
Để giải quyết vấn đề này, Nvidia hôm nay đã chính thức phát hành Nemotron 3 Super, một mô hình lai 120 tỷ tham số, với các trọng số (weights) được công bố trên Hugging Face.
Bằng cách kết hợp các triết lý kiến trúc khác biệt—mô hình không gian trạng thái (state-space models), Transformer, và một thiết kế "Hỗn hợp Chuyên gia Tiềm ẩn" (Latent Mixture-of-Experts) mới lạ—Nvidia đang nỗ lực cung cấp chiều sâu chuyên môn cần thiết cho các quy trình công việc tự hành (agentic workflows) mà không gây ra sự cồng kềnh thường thấy ở các mô hình suy luận dày đặc. Đáng chú ý, mô hình này có sẵn để sử dụng thương mại dưới dạng trọng số gần như mở hoàn toàn.
Kiến trúc lai ba đột phá
Cốt lõi của Nemotron 3 Super là một bộ ba kiến trúc tinh vi giúp cân bằng giữa hiệu quả bộ nhớ và khả năng suy luận chính xác. Mô hình sử dụng bộ khung lai Mamba-Transformer, xen kẽ các lớp Mamba-2 với các lớp chú ý Transformer (Transformer attention layers) được bố trí một cách chiến lược.
Để hiểu rõ hơn về tác động đối với môi trường doanh nghiệp, hãy xem xét bài toán "mò kim đáy bể". Các lớp Mamba-2 hoạt động như một hệ thống "cao tốc", xử lý phần lớn chuỗi dữ liệu với độ phức tạp thời gian tuyến tính. Điều này cho phép mô hình duy trì một cửa sổ ngữ cảnh khổng lồ lên tới 1 triệu token mà không làm bùng nổ bộ nhớ đệm KV (KV cache). Tuy nhiên, các mô hình không gian trạng thái thuần túy thường gặp khó khăn trong việc truy hồi liên kết.
Để khắc phục, Nvidia đã chèn các lớp chú ý Transformer một cách có chủ đích như những "điểm neo toàn cục", đảm bảo mô hình có thể truy xuất chính xác các thông tin cụ thể bị chôn sâu trong một kho mã nguồn hoặc một chồng báo cáo tài chính.
Ngoài bộ khung chính, mô hình còn giới thiệu Hỗn hợp Chuyên gia Tiềm ẩn (LatentMoE). Các thiết kế Hỗn hợp Chuyên gia (MoE) truyền thống định tuyến các token đến các chuyên gia ở chiều ẩn đầy đủ, tạo ra một nút thắt cổ chai về tính toán khi mô hình mở rộng quy mô. LatentMoE giải quyết vấn đề này bằng cách chiếu các token vào một không gian nén trước khi gửi chúng đến các chuyên gia.
Cơ chế "nén chuyên gia" này cho phép mô hình tham khảo số lượng chuyên gia nhiều gấp bốn lần với cùng một chi phí tính toán. Sự linh hoạt này rất quan trọng đối với các tác tử AI phải chuyển đổi giữa cú pháp Python, logic SQL và suy luận hội thoại trong cùng một lượt xử lý.
Một công nghệ khác giúp tăng tốc mô hình là Dự đoán Đa Token (Multi-Token Prediction - MTP). Trong khi các mô hình tiêu chuẩn chỉ dự đoán một token tiếp theo, MTP dự đoán đồng thời nhiều token trong tương lai. Điều này hoạt động như một "mô hình nháp tích hợp", cho phép giải mã suy đoán (speculative decoding) nguyên bản, có thể tăng tốc độ xử lý thực tế lên đến 3 lần cho các tác vụ tạo sinh có cấu trúc như viết mã hoặc gọi công cụ.
Lợi thế từ nền tảng Blackwell
Đối với các doanh nghiệp, bước nhảy vọt kỹ thuật quan trọng nhất của Nemotron 3 Super là sự tối ưu hóa cho nền tảng GPU Nvidia Blackwell. Bằng cách tiền huấn luyện (pre-training) trực tiếp ở định dạng NVFP4 (dấu phẩy động 4-bit), Nvidia đã đạt được một bước đột phá về hiệu quả sản xuất.
Trên nền tảng Blackwell, mô hình này cho tốc độ suy luận nhanh hơn 4 lần so với các mô hình 8-bit chạy trên kiến trúc Hopper trước đó mà không làm giảm độ chính xác.
Về hiệu suất thực tế, Nemotron 3 Super là một công cụ chuyên dụng cho suy luận tự hành. Mô hình hiện giữ vị trí số 1 trên DeepResearch Bench, một bộ tiêu chuẩn đo lường khả năng của AI trong việc thực hiện nghiên cứu đa bước, kỹ lưỡng trên các bộ tài liệu lớn.
Nó cũng cho thấy lợi thế đáng kể về thông lượng, đạt mức cao hơn tới 2,2 lần so với gpt-oss-120B và 7,5 lần so với Qwen3.5-122B trong các môi trường xử lý khối lượng lớn.
Giấy phép "mở" tùy chỉnh – Sử dụng thương mại với những lưu ý quan trọng
Việc phát hành Nemotron 3 Super theo Thỏa thuận Cấp phép Mô hình Mở của Nvidia (cập nhật tháng 10 năm 2025) cung cấp một khuôn khổ linh hoạt cho việc áp dụng trong doanh nghiệp, mặc dù nó đi kèm với các điều khoản "bảo vệ" khác biệt so với các giấy phép mã nguồn mở thuần túy như MIT hoặc Apache 2.0.
Các điều khoản chính cho người dùng doanh nghiệp:
- Khả năng sử dụng thương mại: Giấy phép nêu rõ các mô hình có thể "sử dụng cho mục đích thương mại" và cấp phép vĩnh viễn, toàn cầu, miễn phí bản quyền để bán và phân phối các sản phẩm được xây dựng trên mô hình.
- Quyền sở hữu đầu ra: Nvidia không yêu cầu quyền sở hữu đối với các kết quả do mô hình tạo ra; trách nhiệm và quyền sở hữu hoàn toàn thuộc về người dùng.
- Tác phẩm phái sinh: Doanh nghiệp được tự do tạo và sở hữu "Mô hình Phái sinh" (các phiên bản đã được tinh chỉnh), miễn là họ bao gồm thông báo ghi công bắt buộc.
Những "lằn ranh đỏ":
Giấy phép bao gồm hai điều kiện chấm dứt quan trọng mà các đội ngũ sản xuất phải theo dõi:
- Rào cản an toàn: Giấy phép sẽ tự động chấm dứt nếu người dùng bỏ qua hoặc vô hiệu hóa các "Rào cản an toàn" (các giới hạn kỹ thuật hoặc siêu tham số an toàn) của mô hình mà không triển khai một giải pháp thay thế "tương tự về cơ bản" phù hợp với trường hợp sử dụng.
- Kích hoạt kiện tụng: Nếu người dùng khởi kiện Nvidia về bản quyền hoặc bằng sáng chế, cho rằng mô hình vi phạm sở hữu trí tuệ của họ, giấy phép sử dụng mô hình của họ sẽ chấm dứt ngay lập tức.
Cấu trúc này cho phép Nvidia thúc đẩy một hệ sinh thái thương mại đồng thời bảo vệ mình khỏi các vụ kiện sở hữu trí tuệ và đảm bảo mô hình không bị loại bỏ các tính năng an toàn cho mục đích xấu.
Sự đón nhận từ cộng đồng và ngành công nghiệp
Sự ra mắt này đã tạo ra tiếng vang lớn trong cộng đồng nhà phát triển. Chris Alexiuk, một Kỹ sư Nghiên cứu Sản phẩm Cấp cao tại Nvidia, đã ca ngợi sự kiện này trên mạng xã hội X là một "NGÀY SIÊU CẤP", nhấn mạnh tốc độ và sự minh bạch của mô hình. Ông viết: "Mô hình này: NHANH. Mô hình này: THÔNG MINH. Mô hình này: LÀ MÔ HÌNH MỞ NHẤT CHÚNG TÔI TỪNG LÀM," đồng thời nhấn mạnh việc phát hành không chỉ trọng số mà còn 10 nghìn tỷ token dữ liệu huấn luyện và các công thức liên quan.
Sự đón nhận của ngành công nghiệp cũng phản ánh sự nhiệt tình này:
- Đám mây và Phần cứng: Mô hình đang được triển khai dưới dạng vi dịch vụ Nvidia NIM, cho phép nó chạy tại chỗ (on-premises) thông qua Dell AI Factory hoặc HPE, cũng như trên Google Cloud, Oracle, và sắp tới là AWS và Azure.
- Các tác tử trong sản xuất: Các công ty như CodeRabbit (phát triển phần mềm) và Greptile đang tích hợp mô hình để xử lý phân tích kho mã nguồn quy mô lớn, trong khi các nhà lãnh đạo công nghiệp như Siemens và Palantir đang triển khai nó để tự động hóa các quy trình phức tạp trong sản xuất và an ninh mạng.
Như Kari Briski, Phó Chủ tịch Phần mềm AI của Nvidia, đã lưu ý: "Khi các công ty vượt ra ngoài chatbot và tiến vào các ứng dụng đa tác tử, họ gặp phải... sự bùng nổ ngữ cảnh."
Nemotron 3 Super chính là câu trả lời của Nvidia cho sự bùng nổ đó—một mô hình cung cấp "sức mạnh trí tuệ" của một hệ thống 120 tỷ tham số với hiệu quả hoạt động vượt trội.
Nguồn: VentureBeat


