NVIDIA NeMo Retriever: Bước đột phá trong truy xuất AI, vượt xa tìm kiếm ngữ nghĩa thông thường

NVIDIA vừa công bố NeMo Retriever, một hệ thống truy xuất thông tin thế hệ mới sử dụng AI agent, đã xuất sắc giành vị trí số 1 trên bảng xếp hạng ViDoRe v3. Điểm đột phá của công nghệ này là khả năng khái quát hóa vượt trội, cho phép nó thích ứng linh hoạt với nhiều loại dữ liệu phức tạp thay vì chỉ dựa vào tìm kiếm ngữ nghĩa truyền thống.
NVIDIA NeMo Retriever: Bước đột phá trong truy xuất AI, vượt xa tìm kiếm ngữ nghĩa thông thường
Chúng tôi vui mừng thông báo rằng đội ngũ NVIDIA NeMo Retriever đã phát triển một hệ thống truy xuất thông tin sử dụng agent (agentic retrieval pipeline) mới, và đã chính thức giành vị trí số 1 trên bảng xếp hạng ViDoRe v3. Thêm vào đó, cũng chính kiến trúc này đã đạt vị trí thứ 2 trên bảng xếp hạng BRIGHT, một bài kiểm tra đòi hỏi khả năng suy luận chuyên sâu và cực kỳ khắt khe.
Trong bối cảnh công nghệ truy xuất thông tin bằng AI đang phát triển nhanh chóng, nhiều giải pháp hiện nay được chuyên môn hóa cao, thiết kế để hoạt động xuất sắc trong các tác vụ cụ thể và phạm vi hẹp. Tuy nhiên, các ứng dụng doanh nghiệp trong thực tế hiếm khi có được dữ liệu hoàn hảo, chỉ thuộc về một lĩnh vực duy nhất. Họ cần những hệ thống có thể thích ứng liền mạch với nhiều thách thức đa dạng—từ việc phân tích các bố cục trực quan phức tạp đến thực hiện suy luận logic sâu sắc.
Đó là lý do chúng tôi ưu tiên khả năng khái quát hóa trong thiết kế của mình. Thay vì dựa vào các phương pháp heuristic dành riêng cho từng bộ dữ liệu, chúng tôi đã xây dựng một hệ thống agent có khả năng tự động điều chỉnh chiến lược tìm kiếm và suy luận của mình cho phù hợp với dữ liệu hiện có. Điều này cho phép chúng tôi mang lại hiệu suất hàng đầu trên các bộ tiêu chuẩn đánh giá (benchmark) khác nhau mà không cần thay đổi kiến trúc nền tảng.
Hãy cùng tìm hiểu cách chúng tôi xây dựng hệ thống này.
Vượt qua giới hạn của tìm kiếm ngữ nghĩa
Trong nhiều năm, phương pháp truy xuất dày đặc (dense retrieval) dựa trên sự tương đồng về ngữ nghĩa đã là tiêu chuẩn để tìm kiếm thông tin. Tuy nhiên, khi các ứng dụng của công nghệ truy xuất ngày càng mở rộng, việc tìm kiếm tài liệu liên quan không còn chỉ dừng lại ở sự tương đồng ngữ nghĩa. Tìm kiếm tài liệu phức tạp đòi hỏi kỹ năng suy luận, sự hiểu biết về các hệ thống trong thế giới thực và khả năng khám phá lặp đi lặp lại.
Có một khoảng cách cơ bản: các Mô hình Ngôn ngữ Lớn (LLM) rất giỏi trong việc tư duy và suy luận nhưng không thể xử lý hàng triệu tài liệu cùng một lúc. Ngược lại, các hệ thống truy xuất (retriever) có thể dễ dàng sàng lọc hàng triệu tài liệu nhưng lại có kỹ năng suy luận hạn chế. Công nghệ truy xuất sử dụng agent (Agentic retrieval) đã lấp đầy khoảng trống này bằng cách tạo ra một vòng lặp chủ động, lặp đi lặp lại giữa LLM và hệ thống truy xuất.
Tổng quan về hệ thống truy xuất sử dụng agent
Hệ thống của chúng tôi dựa trên kiến trúc ReACT. Thay vì thực hiện một truy vấn duy nhất và kết thúc, agent sẽ liên tục tìm kiếm, đánh giá và tinh chỉnh phương pháp của mình.
Agent sử dụng các công cụ tích hợp sẵn như think để lên kế hoạch, final_results để xuất ra các tài liệu chính xác cần thiết cho một truy vấn cụ thể, cùng với công cụ retrieve (query, top_k) để khám phá kho dữ liệu. Thông qua vòng lặp này, chúng tôi quan sát thấy các mẫu tìm kiếm thành công xuất hiện một cách tự nhiên:
- Tạo truy vấn tốt hơn: Agent tự động điều chỉnh các truy vấn tìm kiếm của mình dựa trên thông tin mới được phát hiện.
- Diễn giải lại truy vấn liên tục: Nó liên tục diễn giải lại các truy vấn cho đến khi tìm thấy thông tin hữu ích.
- Phân rã các truy vấn phức tạp: Nó chuyển đổi các truy vấn phức tạp, nhiều phần thành nhiều truy vấn đơn giản hơn với các mục tiêu rõ ràng.
Cuối cùng, để tổng hợp các kết quả từ quá trình lặp, agent gọi công cụ final_results để xuất ra các tài liệu phù hợp nhất, được xếp hạng theo mức độ liên quan đến truy vấn. Để đảm bảo an toàn—ví dụ, khi agent đạt đến số bước tối đa hoặc giới hạn độ dài ngữ cảnh—hệ thống sẽ chuyển sang sử dụng phương pháp Reciprocal Rank Fusion (RRF), một kỹ thuật tính điểm tài liệu dựa trên thứ hạng của chúng qua tất cả các lần thử truy xuất trong quỹ đạo hoạt động của agent.
Tối ưu hóa hiệu năng
Các quy trình làm việc sử dụng agent thường chậm và tốn nhiều tài nguyên. Để làm cho hệ thống này khả thi cho việc đánh giá ở quy mô lớn, chúng tôi đã phải suy nghĩ lại cách LLM agent và hệ thống truy xuất giao tiếp với nhau.
Ban đầu, hệ thống truy xuất được kết nối với agent thông qua một máy chủ Model Context Protocol (MCP). Tuy nhiên, kiến trúc này lại làm chậm tốc độ thử nghiệm. Mỗi lần chạy đòi hỏi phải khởi động một máy chủ MCP riêng, tải kho dữ liệu vào bộ nhớ GPU, và điều phối vòng đời của cả client và server. Các chuyến đi và về qua mạng (network round-trips) làm tăng độ trễ cho mỗi lệnh gọi truy xuất.
Để giải quyết vấn đề này, chúng tôi đã thay thế máy chủ MCP bằng một retriever đơn thể an toàn luồng (thread-safe singleton retriever) chạy ngay trong tiến trình. Singleton này chỉ tải mô hình và các embedding của kho dữ liệu một lần, bảo vệ tất cả các truy cập bằng khóa, và cung cấp cùng một giao diện retrieve() cho nhiều tác vụ agent đồng thời. Thay đổi kiến trúc duy nhất này đã loại bỏ hoàn toàn một lớp lỗi triển khai và cải thiện đáng kể cả việc sử dụng GPU lẫn thông lượng thử nghiệm.
Sức mạnh của Khả năng Khái quát hóa
Một quan sát phổ biến trong đánh giá truy xuất hiện đại là các giải pháp được tối ưu hóa cao cho một loại tác vụ cụ thể thường bị giảm hiệu suất khi áp dụng cho một lĩnh vực hoàn toàn khác.
| Hệ thống | ViDoRe v3 | |---|---| | NeMo Agentic Retrieval (Opus 4.5 + nemotron-colembed-vl-8b-v2) | 69.22 (#1) | | Dense retrieval (nemotron-colembed-vl-8b-v2) | 64.36 | | INF-X-Retriever (INF-Query-Aligner + nemotron-colembed-vl-8b-v2) | 62.31 | | INF-X-Retriever | 51.01 |
| Hệ thống | BRIGHT | |---|---| | INF-X-Retriever | 63.40 (#1) | | NeMo Agentic Retrieval (Opus 4.5 + nemotron-reasoning-3b) | 50.90 (#2) |
Chúng tôi đã đạt vị trí thứ 2 trên bảng xếp hạng BRIGHT (tập trung vào suy luận) với điểm NDCG@10 là 50.90. Giải pháp số 1 trên bảng xếp hạng đó, INF-X-Retriever, đạt 63.40. Tuy nhiên, khi chúng tôi thử nghiệm hệ thống INF-X trên ViDoRe v3 (tập trung vào tài liệu doanh nghiệp đa dạng, giàu hình ảnh), hiệu suất của nó chỉ đạt 62.31, thấp hơn cả điểm truy xuất dày đặc cơ bản là 64.36. Nói cách khác, INF-Query-Aligner không cải thiện được so với baseline trên ViDoRe v3.
Ngược lại, hệ thống agentic của chúng tôi đã giành vị trí số 1 trên ViDoRe v3 với số điểm 69.22.
Điều này làm nổi bật một thế mạnh cốt lõi của phương pháp của chúng tôi: khả năng khái quát hóa. Thay vì dựa vào các heuristic dành riêng cho bộ dữ liệu hoặc một bộ viết lại/căn chỉnh truy vấn, vòng lặp agent của chúng tôi tự nhiên thích ứng chiến lược của mình với bộ dữ liệu hiện có, cho dù nó đòi hỏi suy luận logic nhiều bước hay phân tích các bố cục trực quan phức tạp.
Kết quả chi tiết
Bảng xếp hạng ViDoRe v3
| Agent | Mô hình Embedding | NDCG @10 | Thời gian TB/truy vấn (giây) | Tổng token đầu vào (triệu) | Tổng token đầu ra (triệu) | Số lệnh truy xuất TB | |---|---|---|---|---|---|---| | Opus 4.5 | nemotron-colembed-vl-8b-v2 | 69.22 | 136.3 | 1837 | 15 | 9.2 | | gpt-oss-120b | nemotron-colembed-vl-8b-v2 | 66.38 | 78.6 | 1860 | 13 | 2.4 | | gpt-oss-120b | llama-nemotron-embed-vl-1b-v2 | 62.42 | 78.1 | 1459 | 13 | 2.5 | | - | nemotron-colembed-vl-8b-v2 | 64.36 | 0.67 | - | - | - | | - | llama-nemotron-embed-vl-1b-v2 | 55.83 | 0.02 | - | - | - |
Bảng xếp hạng BRIGHT
| Agent | Mô hình Embedding | NDCG @10 | Thời gian TB/truy vấn (giây) | Tổng token đầu vào (triệu) | Tổng token đầu ra (triệu) | Số lệnh truy xuất TB | |---|---|---|---|---|---|---| | Opus 4.5 | llama-embed-nemotron-reasoning-3b | 50.79 | 148.2 | 1251 | 11 | 11.8 | | gpt-oss-120b | llama-embed-nemotron-reasoning-3b | 41.27 | 92.8 | 1546 | 11 | 4.5 | | gpt-oss-120b | llama-nemotron-embed-vl-1b-v2 | 33.85 | 139.1 | 1516 | 12 | 6.6 | | - | llama-embed-nemotron-reasoning-3b | 38.28 | 0.11 | - | - | - | | - | llama-nemotron-embed-vl-1b-v2 | 19.56 | 0.08 | - | - | - |
Chúng tôi đã tiến hành các thử nghiệm sâu rộng để hiểu sự đánh đổi giữa các mô hình đóng hàng đầu và các lựa chọn mã nguồn mở:
Lựa chọn mô hình: Trên ViDoRe v3, việc thay thế Opus 4.5 bằng mô hình mở gpt-oss-120b chỉ làm giảm một chút độ chính xác (từ 69.22 xuống 66.38 NDCG@10) và thực hiện ít lệnh gọi truy xuất hơn nhiều. Trên BRIGHT, khoảng cách này lớn hơn, cho thấy rằng các tác vụ đòi hỏi suy luận sâu hơn sẽ cần đến các mô hình mạnh mẽ hơn để đạt hiệu quả tối ưu.
Nguồn: Hugging Face Blog


