Adobe di bawah tekanan hukum: dituduh melatih AI dengan buku bajakan melalui rantai data yang tercemar

Kecerdasan buatan generatif telah membuka kotak Pandora hukum bagi industri teknologi. Sementara Adobe berusaha memperluas arsenal alat berbasis AI mereka dengan produk seperti Firefly, gugatan class action baru mengancam untuk membongkar fondasi bagaimana sistem ini dibangun. Tuduhan ini langsung: perusahaan perangkat lunak tersebut menggunakan karya sastra bajakan untuk melatih SlimLM, rangkaian model bahasa mereka yang dioptimalkan untuk tugas dokumen di perangkat mobile.

Jalur tercemar dari data pelatihan

Inti dari sengketa ini terletak pada bagaimana Adobe memperoleh data mereka. Menurut gugatan yang diajukan oleh Elizabeth Lyon, penulis dari Oregon yang mengkhususkan diri dalam panduan non-fiksi, SlimLM dilatih sebelumnya menggunakan SlimPajama-627B, sebuah kumpulan data yang dirilis oleh Cerebras pada 2023. Tapi di sinilah masalah kritisnya: SlimPajama bukan dataset murni. Dataset ini dibuat dengan memproses dan memanipulasi RedPajama, yang pada gilirannya mengandung sub-kumpulan data bermasalah yang dikenal sebagai Books3, sebuah koleksi besar sebanyak 191.000 volume.

Rantai derivasi ini yang memperkuat kasus hukum. Pengacara Lyon berargumen bahwa dengan menggunakan sub-kumpulan data yang diproses yang awalnya berasal dari Books3, Adobe secara tidak langsung memasukkan ribuan karya yang dilindungi hak cipta tanpa izin maupun kompensasi. Books3 telah menjadi sumber pencemaran dalam berbagai inisiatif pelatihan AI, dan setiap litigasi baru mengungkapkan bagaimana para pengembang mempertahankan siklus ini.

Gelombang litigasi yang mendefinisikan industri

Adobe tidak sendiri dalam kebuntuan hukum ini. Pada September, Apple menghadapi tuduhan serupa karena memasukkan materi yang dilindungi hak cipta ke dalam model Apple Intelligence mereka, kembali dengan penyebutan eksplisit RedPajama sebagai sumber pencemaran data. Beberapa minggu kemudian, Salesforce menerima serangan hukum yang sama, juga terkait penggunaan dataset yang berisi karya bajakan.

Polanya tidak bisa disangkal: perusahaan teknologi besar telah membangun sistem AI mereka di atas struktur data yang tercemar sejak awal. Ini bukan kelalaian tidak sengaja, melainkan hasil dari industri yang memprioritaskan kecepatan pengembangan di atas ketelitian hukum.

Preseden yang mengubah permainan

Perjanjian paling signifikan hingga saat ini terjadi ketika Anthropic, pencipta chatbot Claude, setuju membayar 1,5 miliar dolar kepada para penulis yang menggugat mereka karena menggunakan versi bajakan dari karya mereka. Kesepakatan ini dianggap sebagai titik balik, sebuah sinyal bahwa pengadilan semakin serius dalam melindungi hak cipta di era AI.

Dengan setiap kasus baru yang menyebut Books3, RedPajama, dan sub-kumpulan data turunannya sebagai bukti pelanggaran, industri menghadapi kenyataan yang tidak nyaman: sebagian besar model AI saat ini didasarkan pada dasar hukum yang dipertanyakan. Apa yang dimulai sebagai gugatan terhadap Adobe bisa berakhir menjadi katalisator untuk memikirkan kembali secara menyeluruh bagaimana sistem kecerdasan buatan dikembangkan dan dilatih.

Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • Komentar
  • Posting ulang
  • Bagikan
Komentar
0/400
Tidak ada komentar
  • Sematkan

Perdagangkan Kripto Di Mana Saja Kapan Saja
qrCode
Pindai untuk mengunduh aplikasi Gate
Komunitas
Bahasa Indonesia
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)