Designing AI agents to resist prompt injection | Khi AI bị 'lừa': Xây dựng hệ thống phòng thủ chống tấn công chèn câu lệnh | Now Let Us

Các cuộc tấn công chèn câu lệnh (prompt injection) đang ngày càng tinh vi, giống với các chiêu thức tấn công phi kỹ thuật nhắm vào con người. Thay vì chỉ lọc đầu vào, giải pháp hiệu quả là thiết kế hệ thống AI có khả năng giới hạn thiệt hại, tương tự như cách quản lý rủi ro với nhân viên con người.

Các tác nhân AI (trí tuệ nhân tạo) ngày càng có khả năng duyệt web, truy xuất thông tin và thực hiện hành động thay mặt người dùng. Những khả năng này rất hữu ích, nhưng chúng cũng tạo ra những cách thức mới để kẻ tấn công cố gắng thao túng hệ thống.

Các cuộc tấn công này thường được mô tả là tấn công chèn câu lệnh (prompt injection): các chỉ thị được đặt trong nội dung bên ngoài nhằm mục đích khiến mô hình làm điều gì đó mà người dùng không yêu cầu. Trong thực tế, các phiên bản tấn công hiệu quả nhất ngày càng giống với tấn công phi kỹ thuật (social engineering) hơn là việc ghi đè câu lệnh đơn giản.

Sự thay đổi này rất quan trọng. Nếu vấn đề không chỉ là xác định một chuỗi ký tự độc hại, mà là chống lại nội dung gây hiểu lầm hoặc mang tính thao túng trong một bối cảnh cụ thể, thì việc phòng thủ không thể chỉ dựa vào việc lọc dữ liệu đầu vào. Nó còn đòi hỏi phải thiết kế hệ thống sao cho tác động của việc thao túng được hạn chế, ngay cả khi một số cuộc tấn công thành công.

Từ chèn câu lệnh đơn giản đến tấn công phi kỹ thuật tinh vi

Các cuộc tấn công "chèn câu lệnh" thời kỳ đầu có thể đơn giản như việc chỉnh sửa một bài viết trên Wikipedia để bao gồm các chỉ thị trực tiếp cho tác nhân AI truy cập vào đó. Nếu không được huấn luyện trong một môi trường đối kháng như vậy, các mô hình AI thường sẽ tuân theo các chỉ thị đó mà không hề nghi ngờ. Khi các mô hình trở nên thông minh hơn, chúng cũng ít bị tổn thương hơn trước loại tấn công này. Đáp lại, các cuộc tấn công kiểu chèn câu lệnh đã phát triển bằng cách kết hợp các yếu tố của tấn công phi kỹ thuật.

Trong hệ sinh thái bảo mật AI, các kỹ thuật như "tường lửa AI" (AI firewalling) đã trở nên phổ biến, trong đó một bên trung gian cố gắng phân loại đầu vào thành độc hại và thông thường. Tuy nhiên, các cuộc tấn công tinh vi thường không bị các hệ thống như vậy phát hiện. Đối với các hệ thống này, việc phát hiện một đầu vào độc hại trở thành một bài toán khó tương tự như việc phát hiện một lời nói dối hoặc thông tin sai lệch, và thường thiếu bối cảnh cần thiết.

Tư duy mới: Quản lý rủi ro cho AI như với con người

Khi các cuộc tấn công chèn câu lệnh trong thực tế phát triển về độ phức tạp, chúng tôi nhận thấy rằng các kỹ thuật tấn công hiệu quả nhất đều tận dụng các chiến thuật phi kỹ thuật. Thay vì xem đây là một vấn đề hoàn toàn mới, chúng tôi bắt đầu nhìn nhận nó qua lăng kính được sử dụng để quản lý rủi ro tấn công phi kỹ thuật đối với con người.

Trong các hệ thống này, mục tiêu không chỉ giới hạn ở việc xác định hoàn hảo các đầu vào độc hại, mà là thiết kế các tác nhân và hệ thống sao cho tác động của việc thao túng được hạn chế, ngay cả khi nó thành công. Cách tiếp cận này tỏ ra hiệu quả trong việc giảm thiểu cả tấn công chèn câu lệnh và tấn công phi kỹ thuật.

Chúng ta có thể hình dung tác nhân AI tồn tại trong một hệ thống ba bên tương tự như một nhân viên hỗ trợ khách hàng. Nhân viên này muốn hành động vì lợi ích của công ty, nhưng liên tục tiếp xúc với các yếu tố bên ngoài có thể cố gắng đánh lừa họ. Dù là người hay AI, nhân viên hỗ trợ khách hàng phải có những giới hạn về khả năng của mình để hạn chế rủi ro tiềm ẩn trong một môi trường độc hại như vậy.

Hãy tưởng tượng một nhân viên hỗ trợ khách hàng có thể phát hành thẻ quà tặng và hoàn tiền cho những sự cố của khách hàng. Đây là một bài toán đa bên, trong đó công ty phải tin tưởng rằng nhân viên hoàn tiền đúng lý do, trong khi nhân viên đó cũng tương tác với các bên thứ ba có thể nhằm mục đích lừa dối hoặc thậm chí gây áp lực cho họ.

Trong thế giới thực, nhân viên được cung cấp một bộ quy tắc để tuân theo, nhưng người ta cũng lường trước rằng họ sẽ bị đánh lừa trong môi trường đối kháng. Các hệ thống mà nhân viên tương tác sẽ giới hạn số tiền hoàn lại cho một khách hàng, gắn cờ các email lừa đảo tiềm ẩn và cung cấp các biện pháp giảm thiểu khác để hạn chế tác động của việc một nhân viên bị xâm phạm.

Các biện pháp đối phó trong thực tế

Lối tư duy này đã định hình một bộ biện pháp đối phó mạnh mẽ mà chúng tôi đã triển khai để duy trì các kỳ vọng bảo mật của người dùng.

Trong ChatGPT, chúng tôi kết hợp mô hình tấn công phi kỹ thuật này với các phương pháp kỹ thuật bảo mật truyền thống hơn như phân tích nguồn-đích (source-sink analysis).

Theo khuôn khổ đó, kẻ tấn công cần cả "nguồn" (cách để tác động đến hệ thống) và "đích" (một khả năng trở nên nguy hiểm trong ngữ cảnh sai). Đối với các hệ thống tác nhân, điều này thường có nghĩa là kết hợp nội dung bên ngoài không đáng tin cậy với một hành động như truyền thông tin cho bên thứ ba, truy cập một liên kết hoặc tương tác với một công cụ.

Mục tiêu của chúng tôi là bảo vệ một kỳ vọng bảo mật cốt lõi cho người dùng: các hành động tiềm ẩn nguy hiểm hoặc việc truyền tải thông tin nhạy cảm không được diễn ra một cách âm thầm hoặc không có các biện pháp bảo vệ thích hợp.

Các cuộc tấn công mà chúng tôi thấy nhắm vào ChatGPT thường cố gắng thuyết phục trợ lý lấy một số thông tin bí mật từ cuộc trò chuyện và truyền nó cho một bên thứ ba độc hại. Trong hầu hết các trường hợp, các cuộc tấn công này thất bại vì quá trình huấn luyện an toàn của chúng tôi khiến tác nhân từ chối. Đối với những trường hợp tác nhân bị thuyết phục, chúng tôi đã phát triển một chiến lược giảm thiểu gọi là Safe Url, được thiết kế để phát hiện khi thông tin mà trợ lý học được trong cuộc trò chuyện sắp được truyền cho bên thứ ba. Trong những trường hợp hiếm hoi này, chúng tôi sẽ hiển thị cho người dùng thông tin sắp được truyền và yêu cầu họ xác nhận, hoặc chúng tôi chặn nó và yêu cầu tác nhân thử một cách khác để tiếp tục yêu cầu của người dùng.

Cơ chế tương tự này được áp dụng cho việc điều hướng và đánh dấu trang trong Atlas; và tìm kiếm và điều hướng trong Deep Research. ChatGPT Canvas & ChatGPT Apps cũng có cách tiếp cận tương tự, cho phép tác nhân tạo và sử dụng các ứng dụng chức năng—chúng chạy trong một môi trường sandbox có khả năng phát hiện các giao tiếp bất ngờ và yêu cầu sự đồng ý của người dùng.

Hướng tới các tác nhân AI tự chủ và an toàn

Tương tác an toàn với thế giới bên ngoài đầy rủi ro là cần thiết cho các tác nhân hoàn toàn tự chủ. Khi tích hợp một mô hình AI với một hệ thống ứng dụng, chúng tôi khuyên bạn nên tự hỏi một nhân viên con người nên có những quyền kiểm soát nào trong tình huống tương tự và triển khai chúng. Chúng tôi kỳ vọng rằng một mô hình AI thông minh tối đa sẽ có thể chống lại tấn công phi kỹ thuật tốt hơn con người, nhưng điều này không phải lúc nào cũng khả thi hoặc hiệu quả về chi phí tùy thuộc vào ứng dụng.

Chúng tôi tiếp tục khám phá các tác động của tấn công phi kỹ thuật đối với các mô hình AI và các biện pháp phòng thủ chống lại nó, đồng thời kết hợp những phát hiện của mình vào cả kiến trúc bảo mật ứng dụng và quy trình huấn luyện các mô hình AI của chúng tôi.

Nguồn: OpenAI News

Khi AI bị 'lừa': Xây dựng hệ thống phòng thủ chống tấn công chèn câu lệnh

Từ chèn câu lệnh đơn giản đến tấn công phi kỹ thuật tinh vi

Tư duy mới: Quản lý rủi ro cho AI như với con người

Các biện pháp đối phó trong thực tế

Hướng tới các tác nhân AI tự chủ và an toàn

Các tin tức khác cùng danh mục

Trợ lý AI Copilot Sắp "Đổ Bộ" Lên Xbox Ngay Trong Năm Nay

Nghiên cứu mới: Kết quả tìm kiếm AI của Google đang tự dẫn link về chính mình

Bùng Nổ OpenClaw tại Trung Quốc: Cuộc Đua Tìm Vàng Của Giới Công Nghệ AI

Khám phá mọi danh mục