Facebook dùng dữ liệu cá nhân người dùng để dạy AI cách phân loại bài viết
Facebook vi phạm quyền riêng tư để đào tạo AI
Giống như nhiều công ty công nghệ khác, Facebook sử dụng trí tuệ nhân tạo (AI) để sắp xếp các nội dung trên nền tảng của mình. Để làm được điều này, phần mềm cần phải trải qua đào tạo về khả năng nhận biết các loại nội dung khác nhau. Việc huấn luyện các thuật toán đòi hỏi phải có một lượng dữ liệu mẫu lớn, tất cả chúng đều đươc chú thích hay dán nhãn bởi con người.
Facebook đang liên tục phát triển công nghệ AI của mình bằng chính dữ liệu người dùng. |
Theo Reuters, Facebook đã thuê công ty phần mềm WiPro của Ấn Độ để chú thích từng bài đăng trên Facebook và Instagram. Việc này được phân loại theo nội dung (chụp người hay thực phẩm,...), sự kiện (sinh nhật, đám cưới,...) hay ý định của tác giả (chọc cười, kêu gọi, truyền cảm hứng,...).
260 nhân viên của WiPro đã phải phân loại từng dòng cập nhật trạng thái, hình ảnh, video theo cách như vậy. Mỗi nội dung lại được kiểm tra bởi 2 người nhằm làm giảm tỷ lệ mắc lỗi.
Xác nhận với Reuters, Facebook cho biết các bài đăng sử dụng cho quá trình dạy AI bao gồm cả những nội dung riêng tư chỉ được người dùng đăng tải cho bạn bè. Dữ liệu này đôi khi bao gồm cả tên của người dùng và nhiều thông tin nhạy cảm khác.
Facebook cũng cho biết rằng không chỉ WiPro, họ có hơn 200 đối tác như vậy với hàng nghìn nhân viên phụ trách dán nhãn trên toàn cầu.
Không chỉ Facebook, việc đọc dữ liệu dạy AI diễn ra trên toàn cầu
Các dự án như vậy là chìa khóa để phát triển trí thông minh nhân tạo. Những công ty chuyên dán nhãn xuất hiện nhiều ở những quốc gia có nguồn lao động giá rẻ, Ấn Độ hay Trung Quốc là những ví dụ điển hình.
Ở Trung Quốc, nhiều công ty được lập ra với cả trăm người lao động. Thế nhưng nhiệm vụ của họ đơn giản chỉ là dán nhãn phân loại đâu là người đi xe đạp, đâu là người đi bộ trong các đoạn video. Điều này là nhằm phát triển các thuật toán về công nghệ xe tự lái.
Việc dạy AI cũng phổ biến đến mức mà nhiều người chúng ta vẫn làm hàng ngày mà chẳng hề hay biết. Đó đơn giản là việc xác định các nội dung trong ảnh với hệ thống CAPTCHA của Google.
Việc dạy AI bằng cách dán nhãn dữ liệu diễn ra ở khắp nơi trên thế giới, đặc biệt là Trung Quốc. |
Điều này sẽ không có vấn đề gì nếu nó không động chạm đến những nội dung thuộc về quyền riêng tư. Các cuộc điều tra gần đây cho thấy, khi bạn nói chuyện với trợ lý ảo trên những chiếc loa thông minh Amazon Echo, rất có thể sẽ có một người khác đang lắng nghe câu chuyện của bạn. Đó chính xác là những gì sẽ xảy ra.
Quyền riêng tư của mỗi cá nhân còn bị xâm phạm nghiêm trọng hơn bởi chính các công ty gia công trong việc dạy thuật toán cho AI. Đây cũng là nơi có tiêu chuẩn bảo mật thấp hơn nhiều so với các công ty công nghệ lớn.
Facebook cho biết nhóm pháp lý và quyền riêng tư của mạng xã hội này đang cho ra đời một hệ thống kiểm toán để đảm bảo việc tuân thủ các kỳ vọng về quyền riêng tư. Mặc dù vậy, Facebook vẫn có khả năng phải đối mặt với quy định GDPR của Liên minh Châu Âu (EU). GDPR đặt ra những quy định rất nghiêm ngặt về cách mà các công ty có thể thu thập dữ liệu cá nhân của người dùng.