Improving instruction hierarchy in frontier LLMs | OpenAI Tăng Cường An Toàn Cho AI Bằng Hệ Thống Phân Cấp Mệnh Lệnh | Now Let Us

OpenAI giới thiệu IH-Challenge, một bộ dữ liệu huấn luyện mới giúp các mô hình AI phân cấp và ưu tiên các chỉ thị một cách chính xác. Phương pháp này giúp AI chống lại các cuộc tấn công chèn prompt độc hại và tuân thủ tốt hơn các quy tắc an toàn, ngay cả khi nhận được các yêu cầu trái ngược.

OpenAI giới thiệu IH-Challenge, bộ dữ liệu huấn luyện giúp củng cố hệ thống phân cấp mệnh lệnh, khả năng điều hướng an toàn và chống lại các cuộc tấn công chèn prompt độc hại.

Các hệ thống trí tuệ nhân tạo (AI) thường xuyên nhận chỉ thị từ nhiều nguồn khác nhau, bao gồm các chính sách an toàn từ thông điệp hệ thống, hướng dẫn sản phẩm từ nhà phát triển, yêu cầu từ người dùng và thông tin tìm thấy trên mạng. Việc huấn luyện các mô hình để chúng có thể ưu tiên một cách đáng tin cậy những chỉ thị đáng tin cậy nhất là một phần quan trọng trong việc triển khai AI an toàn.

Vấn đề Cốt Lõi: Khi AI Bối Rối Trước Các Mệnh Lệnh Mâu Thuẫn

Nhiều vấn đề về độ an toàn và tin cậy của AI có thể phát sinh khi cơ chế ưu tiên này bị phá vỡ. Các mô hình có thể nhận được yêu cầu về nội dung bị cấm, nỗ lực tiết lộ thông tin cá nhân, hoặc các cuộc tấn công chèn prompt (prompt-injection) được nhúng trong dữ liệu trực tuyến. Việc không thể hành xử phù hợp trong mỗi kịch bản này đều có cùng một nguyên nhân gốc rễ: mô hình có thể đã tuân theo sai chỉ thị.

Khi các chỉ thị này mâu thuẫn, mô hình phải quyết định nên ưu tiên cái nào. Nếu nó coi một chỉ thị không đáng tin cậy là có thẩm quyền, mô hình có thể hành xử theo những cách vi phạm chính sách hoặc ý định của nhà phát triển và người dùng.

Giải Pháp Của OpenAI: Hệ Thống Phân Cấp Mệnh Lệnh

OpenAI đã chứng minh rằng các tác vụ phân cấp mệnh lệnh được thiết kế đúng cách, vốn huấn luyện mô hình ưu tiên chỉ thị theo mức độ tin cậy, sẽ cải thiện một số thuộc tính an toàn trong thực tế. Các mô hình được huấn luyện trên những tác vụ này trở nên nhạy bén hơn với các quy định an toàn trong prompt hệ thống (cải thiện khả năng điều hướng an toàn) và chống chịu tốt hơn trước các cuộc tấn công chèn prompt.

Để xử lý các xung đột, các mô hình của OpenAI được huấn luyện để tuân theo một hệ thống phân cấp mệnh lệnh rõ ràng:

Hệ thống > Nhà phát triển > Người dùng > Công cụ

Các chỉ thị có mức độ ưu tiên cao hơn sẽ được tin cậy hơn. Mô hình chỉ nên tuân theo các chỉ thị có mức độ ưu tiên thấp hơn khi chúng không mâu thuẫn với các ràng buộc có mức độ ưu tiên cao hơn. Ví dụ, nếu một thông điệp hệ thống bao gồm chính sách an toàn và người dùng yêu cầu mô hình vi phạm nó, mô hình nên từ chối. Nếu đầu ra của một công cụ chứa các chỉ thị độc hại, mô hình nên bỏ qua chúng thay vì coi chúng là mệnh lệnh.

Việc thực hiện đúng điều này là nền tảng cho sự an toàn, bảo mật và độ tin cậy.

IH-Challenge: Vượt Qua Thách Thức Huấn Luyện

Học tăng cường (Reinforcement learning) là một phương pháp tự nhiên để dạy cho mô hình về hệ thống phân cấp mệnh lệnh. Tuy nhiên, việc áp dụng một cách ngây thơ có thể dẫn đến ba cạm bẫy chính:

Lỗi tuân thủ phức tạp: Mô hình có thể không giải quyết được xung đột không phải vì nó không hiểu hệ thống phân cấp, mà vì bản thân các chỉ thị quá phức tạp.
Xung đột tinh vi và chủ quan: Việc để một LLM khác đánh giá và cho điểm thưởng có thể không hiệu quả vì chính các "giám khảo" AI này cũng có thể mắc sai lầm.
Học "đường tắt": Các mô hình có xu hướng học các lối tắt để đạt điểm thưởng cao, chẳng hạn như từ chối quá mức (overrefusals) – từ chối cả những yêu cầu vô hại để tối đa hóa sự an toàn.

Để giải quyết những vấn đề này, OpenAI đã thiết kế IH-Challenge, một bộ dữ liệu huấn luyện học tăng cường dựa trên các nguyên tắc:

Các tác vụ đơn giản, dễ tuân thủ.
Có thể chấm điểm một cách khách quan bằng một đoạn mã Python đơn giản.
Không có lối tắt tầm thường nào đảm bảo điểm thưởng cao trên tất cả các tác vụ.

Kết Quả Ấn Tượng và Lợi Ích Thực Tiễn

Một mô hình nội bộ được huấn luyện trên IH-Challenge, có tên là GPT-5 Mini-R, đã cho thấy những cải tiến vượt trội. Nó không chỉ hoạt động tốt hơn trên các bài kiểm tra về phân cấp mệnh lệnh mà còn duy trì được sự hữu ích tổng thể, không rơi vào tình trạng từ chối quá mức.

Cách tiếp cận này mang lại nhiều lợi ích an toàn cùng một lúc:

Cải thiện khả năng điều hướng an toàn: Mô hình tuân thủ tốt hơn các quy định an toàn được thêm vào prompt hệ thống, giúp tăng tỷ lệ từ chối các yêu cầu không an toàn mà không làm giảm tỷ lệ hữu ích chung.
Tăng cường chống tấn công chèn prompt: Mô hình tỏ ra hiệu quả hơn trong việc chống lại các chỉ thị độc hại được nhúng trong đầu ra của công cụ, được kiểm chứng qua các bộ tiêu chuẩn như CyberSecEval 2 và các bài kiểm tra nội bộ của OpenAI.

Hướng Tới Tương Lai: Nền Tảng Cho AI Tự Chủ

Khi các mô hình ngày càng có tính tự chủ hơn—tự gọi công cụ, đọc các tài liệu không đáng tin cậy và thực hiện hành động trong thế giới thực—khả năng ưu tiên một cách nhất quán các chỉ thị đáng tin cậy trở thành một thuộc tính an toàn cốt lõi.

Nghiên cứu này cho thấy việc củng cố hệ thống phân cấp mệnh lệnh không chỉ cải thiện độ tin cậy mà còn mở ra nhiều lợi ích về an toàn và bảo mật. Đây là nền tảng ngày càng trở nên quan trọng khi các hệ thống AI ngày càng có năng lực và tự chủ hơn.

Nguồn: OpenAI News

OpenAI Tăng Cường An Toàn Cho AI Bằng Hệ Thống Phân Cấp Mệnh Lệnh

OpenAI giới thiệu IH-Challenge, bộ dữ liệu huấn luyện giúp củng cố hệ thống phân cấp mệnh lệnh, khả năng điều hướng an toàn và chống lại các cuộc tấn công chèn prompt độc hại.

Vấn đề Cốt Lõi: Khi AI Bối Rối Trước Các Mệnh Lệnh Mâu Thuẫn

Giải Pháp Của OpenAI: Hệ Thống Phân Cấp Mệnh Lệnh

IH-Challenge: Vượt Qua Thách Thức Huấn Luyện

Kết Quả Ấn Tượng và Lợi Ích Thực Tiễn

Hướng Tới Tương Lai: Nền Tảng Cho AI Tự Chủ

Các tin tức khác cùng danh mục

Trợ lý AI Copilot Sắp "Đổ Bộ" Lên Xbox Ngay Trong Năm Nay

Nghiên cứu mới: Kết quả tìm kiếm AI của Google đang tự dẫn link về chính mình

Bùng Nổ OpenClaw tại Trung Quốc: Cuộc Đua Tìm Vàng Của Giới Công Nghệ AI

Khám phá mọi danh mục