Perplexity bị tố lén lút thu thập dữ liệu từ các website đã chặn AI

Nhà cung cấp hạ tầng mạng Cloudflare cáo buộc startup AI Perplexity đã cố tình phớt lờ các biện pháp chặn và che giấu danh tính để thu thập dữ liệu từ những trang web không cho phép. Perplexity đã lên tiếng phủ nhận, cho rằng đây là một "chiêu trò bán hàng" của Cloudflare.
Perplexity bị tố lén lút thu thập dữ liệu
Theo nhà cung cấp hạ tầng Internet Cloudflare, startup AI Perplexity đang tiến hành thu thập và trích xuất nội dung từ các trang web đã có quy định rõ ràng về việc không cho phép hành vi này.
Hôm thứ Hai, Cloudflare đã công bố một nghiên cứu cho thấy họ đã quan sát được startup AI này phớt lờ các biện pháp chặn và che giấu hoạt động thu thập dữ liệu của mình. Gã khổng lồ về hạ tầng mạng cáo buộc Perplexity đã làm mờ danh tính khi cố gắng trích xuất dữ liệu từ các trang web "nhằm cố tình lách qua các quy định của trang web đó", các nhà nghiên cứu của Cloudflare viết.
Các sản phẩm AI như của Perplexity hoạt động dựa trên việc thu thập một lượng lớn dữ liệu từ Internet. Từ lâu, các startup AI đã trích xuất văn bản, hình ảnh và video từ Internet, nhiều lần mà không có sự cho phép, để làm cho sản phẩm của họ hoạt động. Gần đây, các trang web đã cố gắng chống lại bằng cách sử dụng tệp tiêu chuẩn Robots.txt, một tệp tin chỉ dẫn cho các công cụ tìm kiếm và công ty AI biết trang nào có thể được lập chỉ mục và trang nào không. Tuy nhiên, những nỗ lực này cho đến nay vẫn mang lại kết quả không đồng đều.
Thủ thuật tinh vi để vượt rào
Theo Cloudflare, Perplexity dường như đã cố tình vượt qua các rào cản này bằng cách thay đổi "user agent" (tác nhân người dùng) của bot – một tín hiệu nhận dạng khách truy cập trang web dựa trên loại thiết bị và phiên bản. Ngoài ra, họ còn thay đổi cả mạng hệ thống tự trị (ASN), một con số định danh các mạng lớn trên Internet.
"Hoạt động này đã được quan sát trên hàng chục nghìn tên miền với hàng triệu yêu cầu mỗi ngày. Chúng tôi đã có thể nhận dạng trình thu thập dữ liệu này bằng cách kết hợp học máy và các tín hiệu mạng", bài đăng của Cloudflare cho biết.
Cloudflare cũng cho biết: "Chúng tôi quan sát thấy Perplexity không chỉ sử dụng user-agent đã khai báo mà còn dùng một trình duyệt chung chung nhằm mạo danh Google Chrome trên macOS khi trình thu thập dữ liệu của họ bị chặn".
Phản ứng từ Perplexity và hành động của Cloudflare
Người phát ngôn của Perplexity, Jesse Dwyer, đã bác bỏ bài đăng của Cloudflare và gọi đó là một "chiêu trò bán hàng". Trong một email gửi tới TechCrunch, ông nói thêm rằng các ảnh chụp màn hình trong bài đăng "cho thấy không có nội dung nào được truy cập". Trong một email tiếp theo, Dwyer khẳng định con bot được nêu tên trong bài đăng của Cloudflare "thậm chí không phải của chúng tôi".
Cloudflare cho biết họ lần đầu tiên nhận thấy hành vi này sau khi khách hàng phàn nàn rằng Perplexity đang thu thập dữ liệu trang web của họ, ngay cả sau khi họ đã thêm các quy tắc vào tệp Robots.txt và chặn cụ thể các bot đã biết của Perplexity. Cloudflare sau đó đã thực hiện các bài kiểm tra và xác nhận rằng Perplexity đang lách qua các biện pháp chặn này.
Công ty cũng cho biết họ đã loại bỏ các bot của Perplexity khỏi danh sách đã xác minh và bổ sung các kỹ thuật mới để chặn chúng. Gần đây, Cloudflare đã có lập trường công khai chống lại các trình thu thập dữ liệu AI. Tháng trước, công ty đã ra mắt một công cụ miễn phí để ngăn chặn bot trích xuất dữ liệu trang web để huấn luyện AI.
Đây không phải là lần đầu tiên Perplexity bị cáo buộc thu thập dữ liệu trái phép. Năm ngoái, các hãng tin như Wired đã cáo buộc Perplexity đạo văn nội dung của họ. Vài tuần sau, CEO của Perplexity, Aravind Srinivas, đã không thể trả lời ngay lập tức khi được yêu cầu đưa ra định nghĩa của công ty về đạo văn trong một cuộc phỏng vấn.
Nguồn: TechCrunch AI


