Искусственный интеллект генеративного типа открыл правовую ящик Пандоры для технологической индустрии. Пока Adobe делала ставку на расширение своего арсенала инструментов на базе ИИ с такими продуктами, как Firefly, новая коллективная иска угрожает разрушить основы того, как строятся эти системы. Обвинение прямо указывает: компания-разработчик программного обеспечения использовала пиратские литературные произведения для обучения SlimLM, своей серии языковых моделей, оптимизированных для задач обработки документов на мобильных устройствах.
Загрязнённый путь тренировочных данных
Суть спора заключается в том, как Adobe получила свои данные. Согласно иску, поданному Элизабет Лайон, автором из Орегона, специализирующимся на нехудожественной литературе, SlimLM был предварительно обучен с использованием SlimPajama-627B, набора данных, выпущенного Cerebras в 2023 году. Но здесь есть критическая проблема: SlimPajama не является чистым набором данных. Он был создан путём обработки и манипуляций с RedPajama, который, в свою очередь, содержит проблемный поднабор данных, известный как Books3, — массивную коллекцию из 191 000 томов.
Эта цепочка происхождения данных укрепляет юридическую позицию. Адвокаты Лайон утверждают, что использование обработанного поднабора данных, изначально взятого из Books3, косвенно привело к включению тысяч защищённых авторским правом произведений без согласия и компенсации. Books3 стал источником загрязнения во многих инициативах обучения ИИ, и каждое новое судебное разбирательство показывает, как разработчики продолжают этот цикл.
Волна судебных процессов, определяющих индустрию
Adobe не одинока в этой правовой ловушке. В сентябре Apple столкнулась с аналогичными обвинениями за включение защищённых авторским правом материалов в свою модель Apple Intelligence, вновь с явным упоминанием RedPajama как источника загрязнения данных. Несколько недель спустя Salesforce получил аналогичный судебный удар, также связанный с использованием наборов данных, содержащих пиратские произведения.
Паттерн очевиден: крупные технологические компании строили свои системы ИИ на структурах данных, которые были загрязнены с самого начала. Это не случайная небрежность, а результат индустрии, которая поставила скорость разработки выше юридической аккуратности.
Прецедент, изменивший игру
Самое значительное соглашение до сих пор было достигнуто, когда Anthropic, создатель чатбота Claude, согласилась выплатить 1,5 миллиарда долларов авторам, которые подали на неё в суд за использование пиратских версий их произведений. Эта договорённость считается поворотным моментом, сигналом о том, что суды всерьёз начинают защищать авторские права в эпоху ИИ.
С каждым новым делом, в котором упоминаются Books3, RedPajama и их производные поднаборы как доказательство нарушения, индустрия сталкивается с неприятной реальностью: большинство современных моделей ИИ основаны на правовых основаниях, вызывающих сомнения. То, что началось как иск против Adobe, может закончиться катализатором полного переосмысления способов разработки и обучения систем искусственного интеллекта.
Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
Adobe под огнем юридических обвинений: обвиняется в обучении ИИ на пиратских книгах через заражённую цепочку данных
Искусственный интеллект генеративного типа открыл правовую ящик Пандоры для технологической индустрии. Пока Adobe делала ставку на расширение своего арсенала инструментов на базе ИИ с такими продуктами, как Firefly, новая коллективная иска угрожает разрушить основы того, как строятся эти системы. Обвинение прямо указывает: компания-разработчик программного обеспечения использовала пиратские литературные произведения для обучения SlimLM, своей серии языковых моделей, оптимизированных для задач обработки документов на мобильных устройствах.
Загрязнённый путь тренировочных данных
Суть спора заключается в том, как Adobe получила свои данные. Согласно иску, поданному Элизабет Лайон, автором из Орегона, специализирующимся на нехудожественной литературе, SlimLM был предварительно обучен с использованием SlimPajama-627B, набора данных, выпущенного Cerebras в 2023 году. Но здесь есть критическая проблема: SlimPajama не является чистым набором данных. Он был создан путём обработки и манипуляций с RedPajama, который, в свою очередь, содержит проблемный поднабор данных, известный как Books3, — массивную коллекцию из 191 000 томов.
Эта цепочка происхождения данных укрепляет юридическую позицию. Адвокаты Лайон утверждают, что использование обработанного поднабора данных, изначально взятого из Books3, косвенно привело к включению тысяч защищённых авторским правом произведений без согласия и компенсации. Books3 стал источником загрязнения во многих инициативах обучения ИИ, и каждое новое судебное разбирательство показывает, как разработчики продолжают этот цикл.
Волна судебных процессов, определяющих индустрию
Adobe не одинока в этой правовой ловушке. В сентябре Apple столкнулась с аналогичными обвинениями за включение защищённых авторским правом материалов в свою модель Apple Intelligence, вновь с явным упоминанием RedPajama как источника загрязнения данных. Несколько недель спустя Salesforce получил аналогичный судебный удар, также связанный с использованием наборов данных, содержащих пиратские произведения.
Паттерн очевиден: крупные технологические компании строили свои системы ИИ на структурах данных, которые были загрязнены с самого начала. Это не случайная небрежность, а результат индустрии, которая поставила скорость разработки выше юридической аккуратности.
Прецедент, изменивший игру
Самое значительное соглашение до сих пор было достигнуто, когда Anthropic, создатель чатбота Claude, согласилась выплатить 1,5 миллиарда долларов авторам, которые подали на неё в суд за использование пиратских версий их произведений. Эта договорённость считается поворотным моментом, сигналом о том, что суды всерьёз начинают защищать авторские права в эпоху ИИ.
С каждым новым делом, в котором упоминаются Books3, RedPajama и их производные поднаборы как доказательство нарушения, индустрия сталкивается с неприятной реальностью: большинство современных моделей ИИ основаны на правовых основаниях, вызывающих сомнения. То, что началось как иск против Adobe, может закончиться катализатором полного переосмысления способов разработки и обучения систем искусственного интеллекта.