Gemini Embedding 2 ra mắt: AI đa phương tiện gốc của Google giúp giảm chi phí và tăng tốc xử lý dữ liệu doanh nghiệp

Google vừa công bố phiên bản public preview của Gemini Embedding 2, mô hình embedding mới với khả năng hỗ trợ đa phương tiện gốc, tích hợp văn bản, hình ảnh, video và âm thanh vào cùng một không gian. Công nghệ này hứa hẹn giảm tới 70% độ trễ và tối ưu hóa chi phí cho các doanh nghiệp ứng dụng AI trên dữ liệu riêng.
Hôm qua, giữa hàng loạt các cập nhật sản phẩm AI dành cho doanh nghiệp, Google đã công bố một trong những cập nhật được cho là quan trọng nhất: phiên bản public preview của Gemini Embedding 2. Đây là mô hình embedding mới của hãng, đánh dấu một bước tiến đáng kể trong cách máy móc biểu diễn và truy xuất thông tin qua nhiều loại phương tiện khác nhau.
Trong khi các mô hình embedding trước đây phần lớn chỉ giới hạn ở văn bản, mô hình mới này tích hợp nguyên bản văn bản, hình ảnh, video, âm thanh và tài liệu vào một không gian số duy nhất. Điều này giúp giảm độ trễ tới 70% cho một số khách hàng và giảm tổng chi phí cho các doanh nghiệp sử dụng mô hình AI được huấn luyện trên dữ liệu riêng để hoàn thành các tác vụ kinh doanh.
Mô hình embedding là gì và dành cho ai?
Đối với những ai đã từng nghe đến thuật ngữ "embedding" trong các cuộc thảo luận về AI nhưng vẫn thấy nó trừu tượng, có thể hình dung nó như một thư viện vũ trụ.
Trong một thư viện truyền thống, sách được sắp xếp theo siêu dữ liệu (metadata): tác giả, tiêu đề, hoặc thể loại. Còn trong "không gian embedding" của AI, thông tin được tổ chức theo ý tưởng.
Hãy tưởng tượng một thư viện nơi sách không được sắp xếp theo hệ thống phân loại Dewey, mà theo "linh hồn" hay "bản chất" của chúng. Trong thư viện này, một cuốn tiểu sử về Steve Jobs sẽ tự động bay qua phòng để nằm cạnh một cuốn cẩm nang kỹ thuật cho máy Macintosh. Một bài thơ về hoàng hôn sẽ trôi đến gần một cuốn sách ảnh về bờ biển Thái Bình Dương. Tất cả nội dung có chủ đề tương tự sẽ được sắp xếp thành những "đám mây" sách lơ lửng tuyệt đẹp. Về cơ bản, đó chính là những gì một mô hình embedding thực hiện.
Mô hình embedding lấy dữ liệu phức tạp—như một câu văn, một bức ảnh hoàng hôn, hay một đoạn podcast—và chuyển đổi nó thành một danh sách dài các con số gọi là vector.
Những con số này đại diện cho các tọa độ trong một bản đồ đa chiều. Nếu hai mục có sự tương đồng về mặt "ngữ nghĩa" (ví dụ: một bức ảnh chú chó Golden Retriever và dòng chữ "người bạn thân nhất của con người"), mô hình sẽ đặt tọa độ của chúng rất gần nhau trên bản đồ này. Ngày nay, các mô hình này là động cơ vô hình đằng sau:
- Công cụ tìm kiếm: Tìm kiếm kết quả dựa trên ý nghĩa bạn muốn truyền tải, chứ không chỉ dựa trên các từ khóa bạn gõ.
- Hệ thống gợi ý: Netflix hay Spotify đề xuất nội dung vì "tọa độ" của nó gần với những thứ bạn đã thích.
- AI doanh nghiệp: Các công ty lớn sử dụng chúng cho kỹ thuật Tạo sinh Tăng cường Truy xuất (RAG), nơi một trợ lý AI "tra cứu" các tệp PDF nội bộ của công ty để trả lời câu hỏi của nhân viên một cách chính xác.
Khái niệm ánh xạ từ ngữ thành vector đã có từ những năm 1950, nhưng "cuộc cách mạng vector" hiện đại bắt đầu vào đầu những năm 2000. Bước đột phá thực sự cho ngành công nghiệp là Word2Vec, do một nhóm tại Google phát hành vào năm 2013. Ngày nay, thị trường được dẫn dắt bởi một số tên tuổi lớn như OpenAI, Google, Anthropic và Cohere.
Bằng cách vượt ra ngoài khuôn khổ văn bản để tiến tới một kiến trúc đa phương tiện gốc, Google đang cố gắng tạo ra một bản đồ thống nhất duy nhất cho toàn bộ biểu đạt kỹ thuật số của con người—văn bản, hình ảnh, video, âm thanh và tài liệu—tất cả đều tồn tại trong cùng một không gian toán học.
Tại sao Gemini Embedding 2 là một bước tiến lớn?
Hầu hết các mô hình hàng đầu hiện nay vẫn theo hướng "ưu tiên văn bản". Nếu bạn muốn tìm kiếm trong một thư viện video, AI thường phải chuyển video thành văn bản trước, sau đó mới nhúng (embed) đoạn văn bản đó.
Gemini Embedding 2 của Google là đa phương tiện gốc.
Mô hình này cho phép các nhà phát triển "đưa văn bản, hình ảnh, video, âm thanh và tài liệu vào cùng một không gian embedding". Nó hiểu âm thanh dưới dạng sóng âm và video dưới dạng chuyển động một cách trực tiếp, mà không cần phải chuyển chúng thành văn bản trước. Điều này giúp giảm lỗi "dịch thuật" và nắm bắt được những sắc thái mà chỉ văn bản không thể truyền tải hết.
Đối với các nhà phát triển và doanh nghiệp, bản chất "đa phương tiện gốc" của Gemini Embedding 2 đại diện cho một sự thay đổi hướng tới các quy trình AI hiệu quả hơn. Bằng cách ánh xạ tất cả các phương tiện vào một không gian 3.072 chiều duy nhất, các nhà phát triển không còn cần các hệ thống riêng biệt cho tìm kiếm hình ảnh và tìm kiếm văn bản; họ có thể thực hiện truy xuất "chéo phương tiện"—sử dụng một truy vấn văn bản để tìm một khoảnh khắc cụ thể trong video hoặc một hình ảnh khớp với một âm thanh cụ thể.
Không giống như các phiên bản tiền nhiệm, Gemini Embedding 2 có thể xử lý các yêu cầu kết hợp nhiều phương tiện. Một nhà phát triển có thể gửi một yêu cầu chứa cả hình ảnh một chiếc xe cổ và dòng chữ "Loại động cơ là gì?". Mô hình không xử lý chúng riêng biệt; nó coi chúng là một khái niệm duy nhất, đa sắc thái. Điều này cho phép hiểu sâu hơn về dữ liệu trong thế giới thực, nơi "ý nghĩa" thường nằm ở sự giao thoa giữa những gì chúng ta thấy và những gì chúng ta nói.
Một trong những tính năng kỹ thuật nổi bật của mô hình là Matryoshka Representation Learning (MRL). Được đặt theo tên của búp bê Nga, kỹ thuật này cho phép mô hình "lồng" những thông tin quan trọng nhất vào một vài con số đầu tiên của vector. Doanh nghiệp có thể chọn sử dụng đầy đủ 3072 chiều để có độ chính xác tối đa, hoặc "rút gọn" xuống còn 768 hoặc 1536 chiều để tiết kiệm chi phí lưu trữ cơ sở dữ liệu mà chỉ mất đi một phần nhỏ độ chính xác.
Đánh giá hiệu năng vượt trội của kiến trúc đa phương tiện
Gemini Embedding 2 thiết lập một tiêu chuẩn hiệu năng mới về chiều sâu đa phương tiện, vượt trội hơn các mô hình hàng đầu trước đây trong các tác vụ đánh giá văn bản, hình ảnh và video.
Ưu thế đáng kể nhất của mô hình được thể hiện trong việc truy xuất video và âm thanh, nơi kiến trúc gốc của nó cho phép bỏ qua sự suy giảm hiệu năng thường thấy ở các quy trình dựa trên việc chuyển đổi sang văn bản.
Cụ thể, trong các tác vụ truy xuất từ video sang văn bản và từ văn bản sang video, mô hình cho thấy một khoảng cách hiệu năng rõ rệt so với các đối thủ, ánh xạ chính xác dữ liệu chuyển động và thời gian vào một không gian ngữ nghĩa thống nhất.
Kết quả kỹ thuật cho thấy lợi thế khác biệt trong các hạng mục tiêu chuẩn sau:
- Truy xuất đa phương tiện: Gemini Embedding 2 liên tục vượt trội hơn các mô hình văn bản và thị giác hàng đầu trong các tác vụ truy xuất phức tạp, đòi hỏi sự hiểu biết về mối quan hệ giữa các yếu tố hình ảnh và truy vấn văn bản.
- Chiều sâu âm thanh và giọng nói: Mô hình giới thiệu một tiêu chuẩn mới cho embedding âm thanh gốc, đạt độ chính xác cao hơn trong việc nắm bắt ý định ngữ âm và âm điệu so với các mô hình phụ thuộc vào việc chuyển đổi văn bản trung gian.
- Khả năng mở rộng ngữ cảnh: Trong các bài kiểm tra dựa trên văn bản, mô hình duy trì độ chính xác cao khi tận dụng cửa sổ ngữ cảnh 8.192 token, đảm bảo rằng các tài liệu dài được nhúng với mật độ ngữ nghĩa tương đương các đoạn trích ngắn.
- Linh hoạt về chiều dữ liệu: Thử nghiệm trên các lớp Matryoshka Representation Learning (MRL) cho thấy ngay cả khi bị rút gọn xuống còn 768 chiều, mô hình vẫn giữ lại phần lớn hiệu năng của phiên bản 3.072 chiều, vượt qua các mô hình có chiều cố định với kích thước tương tự.
Ý nghĩa đối với cơ sở dữ liệu doanh nghiệp
Đối với doanh nghiệp hiện đại, thông tin thường là một mớ hỗn độn rời rạc. Một vấn đề của khách hàng có thể liên quan đến một cuộc gọi hỗ trợ đã được ghi âm (âm thanh), một ảnh chụp màn hình lỗi (hình ảnh), một tệp PDF hợp đồng (tài liệu), và một chuỗi email (văn bản).
Trong những năm trước, việc tìm kiếm trên các định dạng này đòi hỏi bốn quy trình khác nhau. Với Gemini Embedding 2, một doanh nghiệp có thể tạo ra một Cơ sở tri thức hợp nhất. Điều này cho phép một dạng RAG tiên tiến hơn, trong đó AI nội bộ của công ty không chỉ tra cứu dữ kiện, mà còn hiểu được mối quan hệ giữa chúng bất kể định dạng.
Các đối tác ban đầu đã báo cáo những cải thiện đáng kể về hiệu quả. Ví dụ, Sparkonomy, một nền tảng kinh tế sáng tạo, cho biết mô hình đa phương tiện gốc đã giúp họ giảm độ trễ tới 70% bằng cách loại bỏ nhu cầu suy luận LLM trung gian (bước một mô hình giải thích video cho một mô hình khác).
Nguồn: VentureBeat


