Hàng nghìn người trên toàn cầu đang bán danh tính của mình để huấn luyện AI, nhưng cái giá phải trả là gì?

Tác giả: The Guardian

Biên dịch: Deep潮 TechFlow

Deep潮 giới thiệu: Bài điều tra này tiết lộ một ngành công nghiệp xám đang phát triển nhanh chóng: hàng nghìn người trên toàn cầu kiếm tiền đào tạo AI bằng cách bán giọng nói, khuôn mặt, ghi âm cuộc gọi và video hàng ngày của mình.

Đây không phải là một cuộc tranh luận chung về quyền riêng tư, mà là một cuộc điều tra có người thật, số tiền thật, hậu quả thật — một diễn viên bán mặt mình, sau đó thấy “bản thân” trên Instagram đang quảng cáo sản phẩm y tế không rõ nguồn gốc, còn bình luận khen ngợi “ngoại hình” của anh ta.

Khi các công ty AI đói dữ liệu và khoảng cách kinh tế toàn cầu kết hợp lại, đang tạo ra một thương vụ không công bằng.

Toàn văn dưới đây:

Vào một sáng năm ngoái, Jacobus Louw sống ở Cape Town, Nam Phi, như thường lệ đi dạo, cho chim hải âu ăn dọc đường. Nhưng lần này anh ấy đã quay vài đoạn video — ghi lại bước chân và tầm nhìn của mình trên vỉa hè. Video này giúp anh kiếm được 14 đô la, gấp 10 lần mức lương tối thiểu của quốc gia này, tương đương với nửa tuần chi tiêu thực phẩm của người trẻ 27 tuổi này.

Đây là nhiệm vụ “định hướng thành phố” mà Louw hoàn thành trên Kled AI. Kled AI là một ứng dụng trả phí cho người dùng tải lên hình ảnh, video và dữ liệu khác để huấn luyện mô hình AI. Trong vài tuần ngắn ngủi, Louw đã kiếm được 50 đô la bằng cách tải lên các hình ảnh và video đời thường của mình.

Ở cách đó hàng nghìn dặm, tại Ranchi, Ấn Độ, sinh viên 22 tuổi Sahil Tigga thường xuyên kiếm tiền từ Silencio — một ứng dụng crowdsourcing dữ liệu âm thanh để huấn luyện AI, truy cập vào microphone điện thoại của anh để thu thập âm thanh môi trường trong nhà hàng hoặc các ngã tư đông đúc. Anh cũng tải lên các bản ghi âm giọng nói của mình. Sahil còn đi đến các địa điểm đặc biệt, như sảnh khách sạn chưa được ghi nhận trên bản đồ Silencio. Nhờ đó, anh kiếm hơn 100 đô la mỗi tháng, đủ để trang trải toàn bộ chi phí ăn uống.

Tại Chicago, thợ hàn 18 tuổi Ramelio Hill bán các cuộc trò chuyện riêng tư qua điện thoại của mình với bạn bè và gia đình cho Neon Mobile — một nền tảng huấn luyện AI đối thoại, trả 0,50 đô la mỗi phút — kiếm vài trăm đô la. Đối với Hill, điều này quá rõ ràng: anh nghĩ rằng các công ty công nghệ đã nắm giữ rất nhiều dữ liệu cá nhân của anh rồi, tốt hơn là tự mình hưởng lợi.

Những “việc làm phụ huấn luyện AI” này — tải lên cảnh vật xung quanh, ảnh, video và âm thanh của chính mình — đang đứng ở tuyến đầu của một cơn sốt đào dữ liệu toàn cầu mới. Khi sự khao khát dữ liệu chất lượng cao của Silicon Valley vượt quá khả năng khai thác từ internet mở, một ngành thị trường dữ liệu phát triển rực rỡ đã ra đời để lấp đầy khoảng trống này. Từ Cape Town đến Chicago, hàng nghìn người đang cung cấp các đặc điểm sinh học và dữ liệu cá nhân của mình qua các quyền hạn nhỏ để đào tạo thế hệ AI tiếp theo.

Nhưng ngành kinh tế mới này đi kèm với cái giá. Với vài đô la đổi lấy dữ liệu, những người đào tạo này đang tiếp nhiên liệu cho một ngành có thể khiến kỹ năng của họ trở nên lỗi thời trong tương lai, đồng thời đặt mình trước các rủi ro về deepfake, trộm danh tính và bóc lột kỹ thuật số — và họ mới chỉ bắt đầu nhận thức rõ về điều đó.

Duy trì hoạt động của AI

Các mô hình ngôn ngữ AI như ChatGPT và Gemini cần lượng lớn dữ liệu để liên tục cải tiến, nhưng hiện đang đối mặt với khủng hoảng dữ liệu. Các nguồn dữ liệu huấn luyện phổ biến nhất — C4, RefinedWeb và Dolma — chiếm khoảng một phần tư các bộ dữ liệu chất lượng cao nhất trên mạng, và hiện đang hạn chế các công ty AI tạo ra mô hình của mình dựa trên dữ liệu này. Các nhà nghiên cứu ước tính, các công ty AI sẽ cạn kiệt dữ liệu mới chất lượng cao trong vòng đến năm 2026. Mặc dù một số phòng thí nghiệm đã bắt đầu sử dụng dữ liệu tổng hợp do chính AI tạo ra để huấn luyện phản hồi, nhưng quá trình lặp lại này có thể dẫn đến mô hình sinh ra “rác” chứa nhiều lỗi, gây ra sự sụp đổ.

Các ứng dụng như Kled AI và Silencio chính là ở đây. Trong các thị trường dữ liệu này, hàng triệu người đang bán dữ liệu danh tính của mình để nuôi dưỡng và huấn luyện AI. Ngoài Kled AI, Silencio và Neon Mobile, còn có nhiều lựa chọn khác cho các nhà đào tạo AI: như Luel AI, được hỗ trợ bởi nhà tăng trưởng nổi tiếng Y-Combinator, cung cấp dữ liệu hội thoại đa ngôn ngữ với giá khoảng 0,15 đô la mỗi phút; ElevenLabs cho phép bạn tạo bản sao kỹ thuật số giọng nói của chính mình và cho người khác sử dụng với mức phí 0,02 đô la mỗi phút.

Giáo sư kinh tế tại Đại học King’s College London, Bouke Klein Teeselink, nhận định rằng, các công việc phụ huấn luyện AI là một loại hình công việc mới nổi, sẽ còn phát triển mạnh mẽ hơn nữa.

Teeselink nói rằng, các công ty AI biết rằng việc trả phí cấp phép dữ liệu giúp tránh các tranh chấp về bản quyền có thể phát sinh khi dựa hoàn toàn vào việc khai thác dữ liệu từ internet. Nhà nghiên cứu Veniamin Veselovsky cho biết, các công ty này còn cần dữ liệu chất lượng cao để mô hình hóa các hành vi mới, cải tiến hơn. “Hiện tại, dữ liệu của con người là tiêu chuẩn vàng để lấy mẫu ngoài phân phối của mô hình,” Veselovsky bổ sung.

Những người điều khiển các cỗ máy này — đặc biệt là ở các quốc gia đang phát triển — thường cần số tiền đó, và gần như không còn lựa chọn nào khác. Đối với nhiều người làm việc phụ huấn luyện AI, đây là cách thực tế để phản ứng với chênh lệch kinh tế. Ở các quốc gia có tỷ lệ thất nghiệp cao, tiền tệ mất giá, kiếm đô la Mỹ thường ổn định và sinh lợi hơn so với công việc nội địa. Một số người khó tìm việc làm cấp thấp, buộc phải làm công việc huấn luyện AI để kiếm sống. Ngay cả ở các quốc gia giàu hơn, chi phí sinh hoạt tăng cao cũng khiến việc bán thân trở thành một lựa chọn tài chính hợp lý.

Louw, người đào tạo AI ở Cape Town, rõ ràng nhận thức rõ về cái giá của quyền riêng tư. Dù thu nhập không ổn định và chưa đủ để trang trải toàn bộ chi tiêu hàng tháng, anh vẫn sẵn lòng chấp nhận điều đó để kiếm tiền. Nhiều năm bị bệnh thần kinh, không thể tìm được việc làm, nhưng số tiền kiếm được từ thị trường dữ liệu AI (bao gồm cả Kled AI) đã giúp anh tích lũy được 500 đô la, đăng ký khóa học đào tạo massage để trở thành nhân viên mát-xa.

“Với người Nam Phi, nhận đô la Mỹ còn có giá trị hơn người khác nghĩ,” Louw nói.

Giáo sư kinh tế học tại Đại học Oxford, Mark Graham, tác giả cuốn “Nuôi dưỡng máy móc”, thừa nhận rằng, đối với cá nhân các nước đang phát triển, số tiền này có thể mang lại lợi ích thực tế trong ngắn hạn, nhưng ông cảnh báo rằng, “về mặt cấu trúc, công việc này không ổn định, không có cơ hội thăng tiến, thực chất là một con đường chết.”

Graham bổ sung rằng, thị trường dữ liệu AI dựa vào “áp lực giảm lương cạnh tranh” và “tạm thời cần dữ liệu của con người.” Khi nhu cầu này chuyển hướng, “người lao động sẽ không có bất kỳ sự đảm bảo nào, không có kỹ năng chuyển đổi, cũng không có mạng lưới an toàn.”

Ông nói rằng, chỉ có “các nền tảng ở Bắc bán cầu mới là người hưởng lợi, khi họ thu về tất cả giá trị bền vững.”

Chuyển giao toàn quyền

Tại Chicago, nhà đào tạo AI Hill cảm thấy phức tạp về việc bán các cuộc gọi riêng tư của mình cho Neon Mobile. Khoảng 11 giờ gọi đã giúp anh kiếm được 200 đô la, nhưng anh nói rằng ứng dụng này thường xuyên ngưng hoạt động, trì hoãn thanh toán. “Neon luôn rất đáng ngờ trong mắt tôi, nhưng tôi vẫn dùng, chỉ để kiếm thêm chút tiền tiêu vặt trả hóa đơn,” Hill nói.

Giờ đây, anh bắt đầu suy nghĩ lại về việc liệu số tiền đó có thực sự dễ dàng như vậy không. Tháng 9 năm ngoái, Neon Mobile mới ra mắt vài tuần thì đã ngưng hoạt động sau khi TechCrunch phát hiện ra một lỗ hổng bảo mật, cho phép bất kỳ ai truy cập số điện thoại, ghi âm cuộc gọi và tin nhắn của người dùng. Hill nói Neon Mobile chưa từng thông báo cho anh về điều này, và giờ anh lo lắng giọng nói của mình có thể bị lạm dụng trên mạng.

Jennifer King, nhà nghiên cứu về quyền riêng tư dữ liệu tại Viện Nghiên cứu AI lấy con người làm trung tâm của Stanford, lo ngại rằng, thị trường dữ liệu AI không rõ ràng về cách dữ liệu người dùng sẽ được sử dụng và ở đâu. Bà bổ sung rằng, trong khi chưa hiểu rõ quyền của mình và chưa thể đàm phán, “người tiêu dùng đối mặt với rủi ro dữ liệu của họ bị tái sử dụng theo cách họ không thích, không hiểu hoặc chưa từng dự đoán, và gần như không có cách khắc phục.”

Khi các nhà đào tạo AI chia sẻ dữ liệu trên Neon Mobile và Kled AI, họ cấp quyền toàn quyền (toàn cầu, độc quyền, không thể thu hồi, có thể chuyển nhượng và miễn phí bản quyền), cho phép nền tảng bán, sử dụng, công khai và lưu trữ hình ảnh của họ, thậm chí tạo ra các tác phẩm phái sinh dựa trên đó.

Avi Patel, sáng lập Kled AI, cho biết, thỏa thuận dữ liệu của công ty ông giới hạn trong mục đích huấn luyện và nghiên cứu AI. “Toàn bộ mô hình kinh doanh dựa trên sự tin tưởng của người dùng. Nếu người đóng góp nghĩ rằng dữ liệu của họ có thể bị lạm dụng, nền tảng sẽ không thể vận hành.” Ông nói rằng, công ty sẽ kiểm tra các bên mua trước khi bán dữ liệu, tránh hợp tác với các tổ chức có ý định đáng ngờ, như ngành công nghiệp sex, hoặc các “cơ quan chính phủ” mà họ cho là có thể sử dụng dữ liệu theo cách vi phạm lòng tin này.

Neon Mobile chưa phản hồi yêu cầu bình luận.

Giáo sư luật tại Đại học City London, Enrico Bonadio, chỉ ra rằng, các điều khoản trong thỏa thuận này cho phép nền tảng và khách hàng của họ “gần như có thể làm bất cứ điều gì với tài liệu này, vĩnh viễn, không cần thanh toán thêm, và người đóng góp không có cách nào thực sự rút lại sự đồng ý hoặc đàm phán lại.”

Các rủi ro đáng lo ngại hơn bao gồm: dữ liệu của nhà đào tạo có thể bị sử dụng để tạo deepfake hoặc giả danh danh tính. Mặc dù thị trường dữ liệu tuyên bố sẽ loại bỏ thông tin nhận dạng cá nhân như tên và vị trí trước khi bán, nhưng đặc điểm sinh học vốn khó để làm ẩn danh một cách có ý nghĩa, Bonadio bổ sung.

Hối tiếc của người bán

Ngay cả khi các nhà đào tạo AI có thể đàm phán các điều khoản bảo vệ dữ liệu chặt chẽ hơn, họ vẫn có thể hối tiếc. Năm 2024, diễn viên Adam Coy từ New York đã bán khuôn mặt của mình cho Captions — một phần mềm chỉnh sửa video AI, nay đổi tên thành Mirage — với giá 1.000 đô la. Thỏa thuận của anh quy định rằng, danh tính của anh sẽ không được sử dụng cho mục đích chính trị, không để quảng cáo rượu, thuốc lá hoặc nội dung người lớn, và thời hạn cấp phép là một năm.

Captions chưa phản hồi yêu cầu bình luận.

Chẳng bao lâu sau, bạn bè của Adam bắt đầu chia sẻ các video họ tìm thấy trên mạng, trong đó dùng khuôn mặt và giọng nói của anh, đạt hàng triệu lượt xem. Trong một video trên Instagram, bản sao AI của Adam tự xưng là “bác sĩ âm đạo”, quảng bá các loại thực phẩm bổ sung y tế chưa được chứng minh cho phụ nữ mang thai và sau sinh.

“Giải thích chuyện này với người khác khiến tôi cảm thấy xấu hổ,” Coy nói.

“Phần bình luận rất kỳ lạ, vì họ đánh giá ngoại hình của tôi, nhưng đó hoàn toàn không phải tôi,” Coy bổ sung. “Ý tôi khi bán khuôn mặt là, hầu hết các mô hình đều sẽ lấy dữ liệu và hình ảnh trên mạng, tốt hơn là được trả tiền.”

Coy nói rằng, sau đó anh không nhận thêm bất kỳ công việc đào tạo AI nào nữa. Anh chỉ sẽ xem xét làm lại nếu có công ty trả thù lao lớn.

Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Đăng lại
  • Retweed
Bình luận
Thêm một bình luận
Thêm một bình luận
Không có bình luận
  • Gate Fun hot

    Xem thêm
  • Vốn hóa:$2.31KNgười nắm giữ:1
    0.00%
  • Vốn hóa:$2.34KNgười nắm giữ:2
    0.07%
  • Vốn hóa:$0.1Người nắm giữ:0
    0.00%
  • Vốn hóa:$2.27KNgười nắm giữ:1
    0.00%
  • Vốn hóa:$2.3KNgười nắm giữ:2
    0.00%
  • Ghim