Las claves de la demanda de ‘The New York Times’ a OpenAI y Microsoft por usar sus artículos sin permiso para entrenar a ChatGPT

La denuncia es la última de una serie en la que autores señalan que OpenAI basa su negocio en el “robo sistemático” de obras protegidas. La compañía se enfrenta ya a 5 demandas por estas infracciones.

Edificio del New York Times | Mike Dolta

Las inteligencias artificiales (IA) generativas tienen un problema de propiedad intelectual, como contamos hace un tiempo con el testimonio de autores, ingenieros y juristas. Esta semana las tecnológicas detrás de ChatGPT han recibido otra demanda, esta vez de un gran medio estadounidense. El diario The New York Times ha denunciado a OpenAI y a Microsoft por una posible infracción de derechos de autor en el uso de los materiales que ha utilizado para entrenar los modelos de lenguaje en los que se basa ChatGPT. 

En el escrito presentado ante el Tribunal Federal de Distrito de Manhattan se señala que OpenAI utilizó millones de artículos publicados por el New York Times para entrenar chatbots que ahora compiten con el periódico como una fuente de información confiable. El escrito también dice que el New York Times estuvo en conversaciones con OpenAI en abril de este año para manifestarles el problema del uso de los materiales con propiedad intelectual y explorar una “resolución amistosa” que podía basarse “posiblemente en un acuerdo comercial o el establecimiento de salvaguardas”, según el medio. Pero esas conversaciones fueron estériles. 

OpenAI New York Times
Ejemplo de texto obtenido mediante GPT-4 y texto de un artículo original publicado por el New York Times citado en la demanda.

El New York Times, que no incluye una cantidad de dinero específica en la demanda, dice que los demandados son responsables de «miles de millones de dólares en daños legales y reales». También exigen que OpenAI destruya todos los datos de entrenamiento y modelos de chatbot que utilicen material protegido por derechos de autor del New York Times. 

OpenAI ha utilizado contenido de otros medios, además del New York Times

En la lista de fuentes con las que OpenAI entrenó a GPT-2, la versión anterior del modelo de lenguaje de ChatGPT, además de artículos de The New York Times, hay muchos otros medios, entre ellos El País, elDiario.es, Marca, Infobae, El Universal, Reuters, The Guardian, BBC News, The Wall Street Journal, CNN, The Washington Post, Associated Press, Bloomberg, Financial Times, The Economist, National Public Radio (NPR), The Atlantic, TechCrunch, Wired, Forbes, Business Insider, entre otros. Lo hemos comprobado mirando la documentación publicada por la misma OpenAI en Github. 

El New York Times es el primer gran medio en sumarse a otras demandas similares, algunas de ellas colectivas, abiertas por artistas, ilustradores, fotógrafos, autores y desarrolladores contra empresas de IA generativa, que han visto cómo se hace scraping (extracción de datos) de amplios volúmenes de contenido de todo Internet sin discriminación, ni consulta, ni compensación a los autores. 

El scraping es una técnica que escanea y extrae contenido de páginas web de forma automática. OpenIA, también en las negociaciones con el New York Times, ha basado su defensa de estas acusaciones en el fair use, que sus productos no copian sino que generan obras nuevas y que sus modelos de IA tienen un propósito “transformador”. “No hay nada transformador en utilizar contenido del New York Times sin pagar para crear productos que sustituyen al diario y que roban a sus audiencias”, señala el diario en la demanda. 

El New York Times no ha sido el único: otras demandas a OpenAI 

Desde el lanzamiento de ChatGPT, OpenAI ha ido sumando varias demandas colectivas por esta misma infracción. Varios desarrolladores que habían subido código propio a Github (plataforma donde se sube código abierto para que cualquiera pueda usarlo) y vieron cómo se ha usado para entrenar a Copilot sin acreditarlos, denunciaron a OpenAI, Github y Microsoft, compañía que había comprado la plataforma. 

Este verano, el Gremio de Escritores y otros autores estadounidenses iniciaron dos demandas colectivas más contra OpenAI por uso no autorizado de sus obras.

Los demandantes, entre quienes hay autores como Michael Connelly, Sylvia Day, Jonathan Franzen, John Grisham, y George R.R. Martin, señalan al igual que en la demanda del New York Times, que OpenAI copió al por mayor las obras sin permiso ni contraprestación y las introdujeron en sus grandes modelos de lenguaje, cuyos algoritmos son el núcleo de la enorme empresa comercial de los demandados. “En el corazón de estos algoritmos está el robo sistemático a escala masiva”, dice la demanda, presentada en el Tribunal de Distrito de Nueva York, casi con las mismas palabras que usa el New York Times en la suya. 

Este mes, el autor de libros de no ficción, Julian Sancton, presentó una demanda modificada contra OpenAI y Microsoft por la copia ilegal y el uso de libros para «entrenar» modelos generativos de IA. En ella añadió doce nuevos codemandantes de una demanda colectiva de escritores, esta vez de no ficción, que representa a un colectivo de «al menos decenas de miles de autores» cuyas obras se utilizaron sin autorización en el desarrollo de ChatGPT.

Otra demanda colectiva abierta contra OpenAI es la que presentó Sarah Silverman, comediante, junto con otros dos escritores, en los Tribunales de Distrito de San Francisco. En ella, los autores denuncian que OpenAI hizo copias de sus obras, incluidas las memorias de Silverman, ‘The Bedwetter’, sin permiso, mediante el scraping de bibliotecas ilegales en línea que contienen los textos de miles de libros. 

OpenAI ha sido demandado también por infracción de derechos de autor de otros dos escritores de libros superventas en Estados Unidos, Mona Awad y Paul Tremblay.  

La IA y los derechos de autor

El problema de la vulneración de la propiedad intelectual por parte de empresas como OpenAI que utilizan material sin permiso -como los artículos del New York Times u otros medios- para entrenar sus modelos de lenguaje viene preocupando a legisladores en todo el mundo. La recién consensuada ley de IA en la UE establece que las IA generativas deben presentar informes sobre los materiales que han utilizado para el entrenamiento de sus modelos, y cumplir las leyes de derechos de autor vigentes en la Unión Europea. 

Mientras tanto, en Estados Unidos, una propuesta presentada por los diputados Anna Eshoo (por el partido Demócrata de California) y Don Beyer (Demócrata de Virginia) requiere a los creadores de modelos de lenguaje que revelen las fuentes de entrenamiento para que los creadores de contenidos puedan saber de dónde han obtenido su información, y para eso encarga a la Comisión Federal de Comercio (FTC) que colabore con el Instituto Nacional de Normas y Tecnología (NIST) para establecer normas de transparencia de los datos. 

Fuentes

Demanda The New York Times vs. OpenAI [PDF]

John Grisham, George R.R. Martin and other authors sue OpenAI for copyright infringement, LA Times

Sarah Silverman Sues OpenAI and Meta Over Copyright Infringement, NYT

‘Scraping’ de la web: qué es, cuándo está permitido y qué dice la ley

ChatGPT, Midjourney y las IA generativas tienen un problema de propiedad intelectual

Las IA generativas ¿copian o leen? El «uso legítimo» (‘fair use’) es la clave

Demanda Authors’ Guild vs. OpenAI [PDF]

Authors Guild Supports Nonfiction Writers in Lawsuit Against OpenAI, The Authors Guild

Bestselling authors Mona Awad and Paul Tremblay sue OpenAI over copyright infringement, Los Angeles Times

Eshoo, Beyer Introduce Landmark AI Regulation Bill

Ley de IA de la UE: así quedan los puntos más discutidos a falta de la letra pequeña

¿Quieres comentar?

Más en Newtral
Siguiente