## El dilema de la propiedad intelectual en el entrenamiento de modelos de IA: el caso Adobe y más allá
La utilización de datos masivos para entrenar sistemas de inteligencia artificial se ha convertido en una práctica estándar en la industria tecnológica, pero también ha generado un conflicto legal sin precedentes. El núcleo del problema radica en cómo estos modelos adquieren sus capacidades: mediante el procesamiento de enormes conjuntos de datos que, en muchos casos, contienen obras protegidas por derechos de autor sin consentimiento explícito de los creadores originales.
### Adobe bajo la lupa: SlimLM y el legado de Books3
Adobe, la empresa de software que ha invertido significativamente en inteligencia artificial desde 2023 con productos como Firefly, ahora enfrenta una demanda colectiva que cuestiona los métodos detrás de su tecnología SlimLM. Elizabeth Lyon, autora de Oregón especializada en guías de escritura de no ficción, ha encabezado la demanda afirmando que sus obras fueron incluidas sin autorización en los datos de entrenamiento de este modelo.
La acusación apunta a una cadena de derivaciones de conjuntos de datos que ilustra la complejidad del problema. SlimLM fue preentrenado utilizando SlimPajama-627B, un conjunto de datos de código abierto lanzado por Cerebras. Lo problemático es que SlimPajama fue creado como una derivación procesada de RedPajama, el cual a su vez contiene Books3: una colossal colección de 191.000 libros que se ha convertido en la fuente de innumerables controversias legales. Cada subconjunto de datos heredó potencialmente las vulnerabilidades de propiedad intelectual del anterior, creando una cadena de responsabilidad difusa pero real.
### Un patrón que se repite en toda la industria
Lo que sucede con Adobe no es un incidente aislado, sino parte de una tendencia más amplia que ha comenzado a colapsar bajo el peso de demandas legales. En septiembre, Apple enfrentó acusaciones similares de haber utilizado material protegido por derechos de autor para entrenar Apple Intelligence, nuevamente con RedPajama mencionado como fuente. Paralelamente, Salesforce fue demandada bajo argumentos prácticamente idénticos.
El momento más significativo llegó cuando Anthropic acordó un acuerdo por 1.5 millones de dólares con autores que demandaban por el uso no autorizado de sus obras en el entrenamiento de Claude. Este acuerdo, reportado en septiembre, fue ampliamente interpretado como un punto de inflexión en el litigio sobre derechos de autor en datos de entrenamiento de IA.
### ¿Hacia dónde va la industria?
La acumulación de demandas colectivas sugiere que el modelo actual de adquisición de datos para entrenar IA es insostenible legalmente. Las empresas tecnológicas enfrentan un dilema: entrenar modelos poderosos requiere volúmenes masivos de datos, pero la obtención legal y compensada de tales volúmenes aún no tiene un marco establecido en la mayoría de jurisdicciones. El caso de Adobe, particularmente la forma en que SlimLM heredó datos problemáticos de subconjuntos anteriores, pone de relieve cómo la responsabilidad puede rastrearse a través de múltiples capas de procesamiento de datos, incluso cuando las empresas aseguran usar conjuntos de datos "de código abierto".
La industria se encuentra en un momento crítico donde los precedentes legales están comenzando a definir qué es aceptable y qué no lo es en el entrenamiento de IA.
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
## El dilema de la propiedad intelectual en el entrenamiento de modelos de IA: el caso Adobe y más allá
La utilización de datos masivos para entrenar sistemas de inteligencia artificial se ha convertido en una práctica estándar en la industria tecnológica, pero también ha generado un conflicto legal sin precedentes. El núcleo del problema radica en cómo estos modelos adquieren sus capacidades: mediante el procesamiento de enormes conjuntos de datos que, en muchos casos, contienen obras protegidas por derechos de autor sin consentimiento explícito de los creadores originales.
### Adobe bajo la lupa: SlimLM y el legado de Books3
Adobe, la empresa de software que ha invertido significativamente en inteligencia artificial desde 2023 con productos como Firefly, ahora enfrenta una demanda colectiva que cuestiona los métodos detrás de su tecnología SlimLM. Elizabeth Lyon, autora de Oregón especializada en guías de escritura de no ficción, ha encabezado la demanda afirmando que sus obras fueron incluidas sin autorización en los datos de entrenamiento de este modelo.
La acusación apunta a una cadena de derivaciones de conjuntos de datos que ilustra la complejidad del problema. SlimLM fue preentrenado utilizando SlimPajama-627B, un conjunto de datos de código abierto lanzado por Cerebras. Lo problemático es que SlimPajama fue creado como una derivación procesada de RedPajama, el cual a su vez contiene Books3: una colossal colección de 191.000 libros que se ha convertido en la fuente de innumerables controversias legales. Cada subconjunto de datos heredó potencialmente las vulnerabilidades de propiedad intelectual del anterior, creando una cadena de responsabilidad difusa pero real.
### Un patrón que se repite en toda la industria
Lo que sucede con Adobe no es un incidente aislado, sino parte de una tendencia más amplia que ha comenzado a colapsar bajo el peso de demandas legales. En septiembre, Apple enfrentó acusaciones similares de haber utilizado material protegido por derechos de autor para entrenar Apple Intelligence, nuevamente con RedPajama mencionado como fuente. Paralelamente, Salesforce fue demandada bajo argumentos prácticamente idénticos.
El momento más significativo llegó cuando Anthropic acordó un acuerdo por 1.5 millones de dólares con autores que demandaban por el uso no autorizado de sus obras en el entrenamiento de Claude. Este acuerdo, reportado en septiembre, fue ampliamente interpretado como un punto de inflexión en el litigio sobre derechos de autor en datos de entrenamiento de IA.
### ¿Hacia dónde va la industria?
La acumulación de demandas colectivas sugiere que el modelo actual de adquisición de datos para entrenar IA es insostenible legalmente. Las empresas tecnológicas enfrentan un dilema: entrenar modelos poderosos requiere volúmenes masivos de datos, pero la obtención legal y compensada de tales volúmenes aún no tiene un marco establecido en la mayoría de jurisdicciones. El caso de Adobe, particularmente la forma en que SlimLM heredó datos problemáticos de subconjuntos anteriores, pone de relieve cómo la responsabilidad puede rastrearse a través de múltiples capas de procesamiento de datos, incluso cuando las empresas aseguran usar conjuntos de datos "de código abierto".
La industria se encuentra en un momento crítico donde los precedentes legales están comenzando a definir qué es aceptable y qué no lo es en el entrenamiento de IA.