The team behind continuous batching says your idle GPUs should be running inference, not sitting dark | Đội ngũ đứng sau 'continuous batching': GPU nhàn rỗi nên chạy suy luận AI, không phải để 'ngủ đông' | Now Let Us

FriendliAI, công ty được sáng lập bởi cha đẻ của kỹ thuật 'continuous batching' nền tảng của vLLM, vừa ra mắt nền tảng InferenceSense. Giải pháp này giúp các nhà vận hành đám mây biến thời gian GPU nhàn rỗi thành doanh thu bằng cách chạy các tác vụ suy luận AI, thay vì cho thuê tài nguyên thô.

Mọi cụm GPU đều có 'thời gian chết'. Các tác vụ huấn luyện kết thúc, khối lượng công việc thay đổi và phần cứng nằm im lìm trong khi chi phí điện và làm mát vẫn tiếp tục tăng. Đối với các nhà vận hành neocloud (đám mây thế hệ mới), những chu kỳ trống đó chính là lợi nhuận bị đánh mất.

Giải pháp rõ ràng nhất là thị trường GPU giao ngay (spot GPU markets) — cho thuê dung lượng dự phòng cho bất kỳ ai có nhu cầu. Nhưng các phiên bản giao ngay (spot instances) có nghĩa là nhà cung cấp đám mây vẫn là bên cho thuê, và các kỹ sư mua dung lượng đó vẫn chỉ trả tiền cho năng lực tính toán thô mà không có một hệ thống suy luận (inference stack) nào đi kèm.

Câu trả lời của FriendliAI thì khác: chạy suy luận trực tiếp trên phần cứng không sử dụng, tối ưu hóa thông lượng token và chia sẻ doanh thu với nhà vận hành. FriendliAI được thành lập bởi Byung-Gon Chun, nhà nghiên cứu có bài báo về 'xử lý theo lô liên tục' (continuous batching) đã trở thành nền tảng cho vLLM, engine suy luận mã nguồn mở được sử dụng trong hầu hết các hệ thống sản xuất hiện nay.

Giáo sư Chun đã dành hơn một thập kỷ tại Đại học Quốc gia Seoul để nghiên cứu về việc thực thi hiệu quả các mô hình học máy ở quy mô lớn. Nghiên cứu đó đã cho ra đời một bài báo có tên Orca, giới thiệu kỹ thuật xử lý theo lô liên tục. Kỹ thuật này xử lý các yêu cầu suy luận một cách linh hoạt thay vì chờ đợi để lấp đầy một lô có kích thước cố định trước khi thực thi. Giờ đây, nó đã trở thành tiêu chuẩn ngành và là cơ chế cốt lõi bên trong vLLM.

Tuần này, FriendliAI ra mắt một nền tảng mới có tên InferenceSense. Giống như cách các nhà xuất bản sử dụng Google AdSense để kiếm tiền từ không gian quảng cáo chưa bán được, các nhà vận hành neocloud có thể sử dụng InferenceSense để lấp đầy các chu kỳ GPU không sử dụng bằng các tác vụ suy luận AI trả phí và nhận một phần doanh thu từ token. Các công việc của chính nhà vận hành luôn được ưu tiên — ngay khi bộ lập lịch (scheduler) yêu cầu lấy lại GPU, InferenceSense sẽ ngay lập tức nhường lại.

"Những gì chúng tôi cung cấp là thay vì để GPU nhàn rỗi, bằng cách chạy suy luận, họ có thể kiếm tiền từ chính những GPU đó," ông Chun chia sẻ với VentureBeat.

Phòng lab Đại học Quốc gia Seoul đã xây dựng engine bên trong vLLM như thế nào

Ông Chun thành lập FriendliAI vào năm 2021, trước khi hầu hết ngành công nghiệp chuyển sự chú ý từ huấn luyện (training) sang suy luận (inference). Sản phẩm chính của công ty là dịch vụ điểm cuối suy luận (inference endpoint) chuyên dụng cho các startup AI và doanh nghiệp chạy các mô hình trọng số mở (open-weight models). FriendliAI cũng xuất hiện như một tùy chọn triển khai trên Hugging Face cùng với Azure, AWS và GCP, và hiện hỗ trợ hơn 500.000 mô hình trọng số mở từ nền tảng này.

Giờ đây, InferenceSense mở rộng engine suy luận đó để giải quyết bài toán về dung lượng mà các nhà vận hành GPU phải đối mặt giữa các khối lượng công việc.

Cơ chế hoạt động

InferenceSense chạy trên nền tảng Kubernetes, công cụ mà hầu hết các nhà vận hành neocloud đã và đang sử dụng để điều phối tài nguyên. Một nhà vận hành sẽ phân bổ một nhóm GPU cho một cụm Kubernetes do FriendliAI quản lý — khai báo các node nào khả dụng và trong điều kiện nào chúng có thể được thu hồi. Việc phát hiện trạng thái nhàn rỗi được thực hiện thông qua chính Kubernetes.

"Chúng tôi có bộ điều phối riêng chạy trên GPU của các nhà cung cấp neocloud — hoặc bất kỳ nhà cung cấp đám mây nào," ông Chun nói. "Chúng tôi chắc chắn tận dụng Kubernetes, nhưng phần mềm chạy trên đó là một hệ thống suy luận được tối ưu hóa ở mức độ rất cao."

Khi GPU không được sử dụng, InferenceSense sẽ khởi chạy các container biệt lập để phục vụ các tác vụ suy luận trả phí trên các mô hình trọng số mở bao gồm DeepSeek, Qwen, Kimi, GLM và MiniMax. Khi bộ lập lịch của nhà vận hành cần lấy lại phần cứng, các tác vụ suy luận sẽ bị thu hồi ưu tiên và GPU được trả lại. FriendliAI cho biết quá trình chuyển giao này chỉ diễn ra trong vòng vài giây.

Nhu cầu được tổng hợp thông qua các khách hàng trực tiếp của FriendliAI và qua các nhà tổng hợp suy luận như OpenRouter. Nhà vận hành cung cấp dung lượng; FriendliAI xử lý luồng nhu cầu, tối ưu hóa mô hình và hệ thống phục vụ. Không có phí trả trước và không có cam kết tối thiểu. Một bảng điều khiển thời gian thực cho phép nhà vận hành thấy các mô hình nào đang chạy, số token đang được xử lý và doanh thu tích lũy.

Tại sao thông lượng token lại vượt trội hơn việc cho thuê năng lực thô

Thị trường GPU giao ngay từ các nhà cung cấp như CoreWeave, Lambda Labs và RunPod liên quan đến việc nhà cung cấp đám mây cho bên thứ ba thuê phần cứng của chính họ. InferenceSense chạy trên phần cứng mà nhà vận hành neocloud đã sở hữu, với việc nhà vận hành xác định node nào tham gia và thiết lập các thỏa thuận lập lịch với FriendliAI trước. Sự khác biệt này rất quan trọng: thị trường giao ngay kiếm tiền từ dung lượng, còn InferenceSense kiếm tiền từ token.

Thông lượng token trên mỗi giờ GPU (token per GPU-hour) quyết định số tiền mà InferenceSense thực sự có thể kiếm được trong các khoảng thời gian không sử dụng. FriendliAI tuyên bố engine của họ mang lại thông lượng cao gấp hai đến ba lần so với một hệ thống vLLM tiêu chuẩn, mặc dù ông Chun lưu ý con số này thay đổi tùy theo loại khối lượng công việc. Hầu hết các hệ thống suy luận cạnh tranh được xây dựng trên các framework mã nguồn mở dựa trên Python. Engine của FriendliAI được viết bằng C++ và sử dụng các nhân GPU tùy chỉnh (custom GPU kernels) thay vì thư viện cuDNN của Nvidia. Công ty đã xây dựng lớp biểu diễn mô hình riêng để phân chia và thực thi các mô hình trên phần cứng, với các triển khai riêng cho giải mã suy đoán (speculative decoding), lượng tử hóa (quantization) và quản lý KV-cache.

Vì engine của FriendliAI xử lý nhiều token hơn trên mỗi giờ GPU so với một hệ thống vLLM tiêu chuẩn, các nhà vận hành sẽ tạo ra nhiều doanh thu hơn trên mỗi chu kỳ không sử dụng so với việc họ tự xây dựng dịch vụ suy luận của riêng mình.

Điều các kỹ sư AI cần theo dõi khi đánh giá chi phí suy luận

Đối với các kỹ sư AI đang đánh giá nơi để chạy các tác vụ suy luận, quyết định giữa neocloud và các nhà cung cấp siêu quy mô (hyperscaler) thường phụ thuộc vào giá cả và tính sẵn có.

InferenceSense bổ sung một yếu tố cân nhắc mới: nếu các neocloud có thể kiếm tiền từ dung lượng nhàn rỗi thông qua suy luận, họ sẽ có thêm động lực kinh tế để giữ giá token cạnh tranh.

Đây chưa phải là lý do để thay đổi các quyết định về cơ sở hạ tầng ngay hôm nay — vì mọi thứ vẫn còn ở giai đoạn đầu. Nhưng các kỹ sư theo dõi tổng chi phí suy luận nên quan sát xem liệu việc các neocloud áp dụng các nền tảng như InferenceSense có tạo ra áp lực giảm giá API cho các mô hình như DeepSeek và Qwen trong 12 tháng tới hay không. "Khi chúng ta có nhiều nhà cung cấp hiệu quả hơn, chi phí tổng thể sẽ giảm xuống," ông Chun nói. "Với InferenceSense, chúng tôi có thể góp phần làm cho các mô hình đó trở nên rẻ hơn."

Nguồn: VentureBeat

Đội ngũ đứng sau 'continuous batching': GPU nhàn rỗi nên chạy suy luận AI, không phải để 'ngủ đông'

Phòng lab Đại học Quốc gia Seoul đã xây dựng engine bên trong vLLM như thế nào

Cơ chế hoạt động

Tại sao thông lượng token lại vượt trội hơn việc cho thuê năng lực thô

Điều các kỹ sư AI cần theo dõi khi đánh giá chi phí suy luận

Các tin tức khác cùng danh mục

NanoClaw và Docker hợp tác: Giải quyết bài toán bảo mật khi triển khai Agent AI trong doanh nghiệp

Random Labs, startup được Y Combinator hậu thuẫn, ra mắt Slate V1 - agent lập trình 'bầy đàn' đầu tiên

AI Agent cần tìm kiếm vector hơn bao giờ hết, RAG chỉ là bước khởi đầu

Khám phá mọi danh mục