PUBLICADO: Ene. 4, 2024 - 9:00 am

New York Times Versus OpenAI: ¿un Fine-Tuning Legal?

Compartir noticia:

Escucha esta noticia

Cargando audio...

El miércoles 27 de diciembre, El famoso periódico New York Times (NYT) ha iniciado una batalla legal contra OpenAI y Microsoft ante el Tribunal Distrital de Manhattan, acusándolos de usar su contenido sin permiso para entrenar a sus modelos de gran lenguaje (LLMs), como es el conocido GPT-4. El NYT, con más de 170 años de periodismo bajo el brazo, ve amenazado su legado y sus ingresos por esta práctica que, a su juicio, diluye la línea entre el uso justo y el plagio.

Esta es la primera demanda conocida de una empresa de medios por problemas de derechos de autor asociados con su producción intelectual. En ella el NYT sostiene no solamente que OpenAI utilizó sus contenidos para desarrollar al modelo GPT, sino que eso hoy ha generado una competencia con el mismo periódico como consultor de noticias y contenidos, a favor de Microsoft y por supuesto del mismo OpenAI.

La demanda no pone precio a los daños, pero es clara: el NYT quiere responsabilizar a estas empresas tecnológicas por un presunto abuso de su propiedad intelectual y exige medidas drásticas, incluida la destrucción de los modelos de IA entrenados con su material.

La conversación entre las partes no ha llegado a buen puerto, y la situación actual apunta hacia una decisión de la Corte Suprema para dirimir este conflicto de derechos de autor en la era digital. Mientras tanto, Microsoft se mantiene en silencio y OpenAI expresa su deseo de encontrar un terreno común, enfatizando su respeto por los creadores de contenido.

El meollo del asunto es crucial: ¿puede una IA utilizar contenidos periodísticos para aprender y generar respuestas sin violar los derechos de autor? El NYT argumenta que no solo se ha vulnerado su trabajo original sino que, además, la IA puede generar información errónea y atribuirla al periódico, causando un impacto negativo en su reputación y finanzas.

Desde el lado de los desarrolladores, en octubre, Andreessen Horowitz, representante de una firma de capital de riesgo y primer inversor de OpenAI, escribió en comentarios a la Oficina de Derechos de Autor de EE.UU. que exponer a las compañías de IA a la responsabilidad por derechos de autor “mataría o impediría significativamente su desarrollo”; “El resultado será mucha menos competencia, mucha menos innovación y muy probablemente la pérdida de la posición de los Estados Unidos como líder en el desarrollo global de IA”, dijo la firma de inversión en su declaración. Lo cual plantea también este interrogante respecto a que tanto debe o no ser regulada la IA generativa dado el riesgo de bloquear la evolución hacia una IA general.

NYT ha contratado a las firmas de abogados Susman Godfrey y Rothwell, Figg, Ernst & Manbeck como abogados externos para el litigio. Susman representó a Dominion Voting Systems en su caso de difamación contra Fox News, que resultó en un acuerdo de 787,5 millones de dólares en abril. Susman también presentó una demanda de acción de clase propuesta el mes pasado contra Microsoft y OpenAI en nombre de autores de no ficción cuyos libros y otros materiales con derechos de autor se utilizaron para entrenar los chatbots de las compañías.

La situación refleja un debate mayor sobre la propiedad intelectual en la era de la IA generativa y su efecto sobre industrias enteras. La respuesta legal a estas preguntas no solo definirá el futuro del NYT y otras empresas de medios, sino que también podría sentar precedentes sobre cómo la sociedad maneja la innovación tecnológica y los derechos de autor.

Los puntos críticos se resumen en la protección del periodismo original, la compensación por el uso de propiedad intelectual y la búsqueda de un equilibrio entre la innovación y el respeto a los derechos de los creadores. El NYT, mientras tanto, no se queda atrás y explora cómo puede utilizar la IA a su favor, manteniendo su estándar de periodismo de calidad en un mundo digital en constante cambio.

Los argumentos esenciales de la demanda interpuesta por el NYT son:

El NYT es un medio que existe desde hace más de 170 años proporcionando información confiable.
Los LLMs de OpenAI se construyeron copiando y utilizando millones de artículos del NYT.
La ley de derechos de autor protege el periodismo original del NYT.
Estos LLM utilizan artículos textuales del NYT, resúmenes de artículos o incluso atribuyen información falsa al NYT.
OpenAI aumentó su valoración a 90 mil millones de dólares, y Microsoft superó el billón de dólares utilizando la valiosa propiedad intelectual del NYT sin ninguna suscripción, licencia, publicidad o ingresos por afiliados.
El NYT ha negociado acuerdos con Meta, Apple y Google para sus respectivos productos de noticias, pero no pudieron llegar a un acuerdo similar con OpenAI/Microsoft para sus LLM.
OpenAI/Microsoft creen que su uso de artículos del NYT está protegido bajo el concepto de “uso justo” ya que es para un nuevo propósito “transformador”. Sin embargo, el NYT impugna esto ya que cree que las salidas de estos modelos imitan de cerca las entradas de los artículos del NYT y, por lo tanto, no son “transformadoras”. (Este es un punto grande de discusión en el mundo de la IA generativa, ¿es plagio o no?).
El NYT busca hacer responsables a OpenAI/Microsoft por miles de millones de dólares en daños estatutarios y reales.
El NYT emplea a 5800 empleados equivalentes a tiempo completo que contribuyen al periodismo de calidad que ofrecen. Esto incluye piezas como reportajes de investigación, noticias de última hora, reseñas, opiniones, etc.
Estos productos de IA amenazan al periodismo de alta calidad. Mientras que el NYT da permiso para que los motores de búsqueda aparezcan en resultados de búsqueda tradicionales, nunca ha dado permiso para el uso de sus contenidos con fines de entrenar LLMs.
OpenAI/Microsoft recaudó dinero de individuos adinerados prometiendo altruismo, pero desde entonces se ha convertido en una organización con fines de lucro obteniendo ganancias de 80 millones de dólares por mes.
Mientras OpenAI/Microsoft hacen de código abierto el diseño y los secretos de GPT-1 y 2, nunca abrieron al público las versiones más potentes 3.5 y 4. Lo justificaron por motivos comerciales y de competencia.
Microsoft ayudó a OpenAI a cometer infracción masiva de derechos de autor al ser el único proveedor de computación. Operaron un sistema con 285 mil núcleos de CPU, 10 mil GPU y conectividad de red de 400 gigabits/segundo entre las GPU.
Microsoft combinó Open AI con Bing para crear Bing Chat, que imita las respuestas del NYT, y así los usuarios ya no necesitan visitar el sitio web del NYT afectando los ingresos del periódico.
Los LLM exhiben “memorización”. Dado el indicio correcto, repetirán grandes partes de los materiales con los que fueron entrenados.
En GPT-2, OpenAI utilizó un conjunto de datos llamado WebText que contiene contenidos textuales de 45 millones de enlaces. De estos, el NYT es uno de los 15 principales por volumen.
El contenido del NYT — un total de 209 mil URL únicas representa el 1.23% de todas las fuentes en el conjunto de datos WebText2 para GPT-3. WT-2 tiene un peso del 22% en la mezcla de entrenamiento para GPT-3.
El conjunto de datos altamente ponderado llamado Common Crawl con un peso del 60% en la mezcla de entrenamiento para GPT-3 proporciona 100 millones de tokens y representa el tercer lugar en importancia justo detrás de las Patentes de EE.UU. y Wikipedia.
OpenAI admite que los “conjuntos de datos de mayor calidad” se muestrean más frecuentemente, lo que resulta en que los artículos del NYT se muestreen más que otras fuentes.
El NYT destaca muchos ejemplos con capturas de pantalla donde ChatGPT respondió con una porción significativa de datos del artículo relevante del NYT permitiendo esencialmente a los usuarios eludir el muro de pago del periódico, lo cual también es cierto para Bing Chat.
Las recomendaciones de Wirecutter del NYT también son distorsionadas por ChatGPT en sus respuestas, atribuyendo así información errónea al NYT y causando daño a la marca. Esto es causado por “alucinaciones” del modelo. El NYT destaca múltiples indicaciones de este tipo con capturas de pantalla de respuestas de ChatGPT/Browse with Bing/Bing Chat.
El uso de contenido del NYT sin permiso ayudó a ChatGPT a llamar la atención de los usuarios y aumentar significativamente sus ingresos. De manera similar, Bing superó los 100 millones de DAU por primera vez en su historia. Microsoft está integrando OpenAI en sus productos y cobrando una tarifa de suscripción por ello, mientras que OpenAI está distribuyendo esencialmente el contenido de pago del NYT de forma gratuita.

Pues bien, el mundo estará expectante al desenlace de esta demanda ya que de ella depende el futuro cercano de los desarrollos de la IA generativa, subcampo de la IA que ha tenido un crecimiento exponencial desde noviembre de 2022, fecha en la cual openAI liberó a GPT 3,5. Por ahora, no queda sino desearles un feliz y venturoso año 2024, el cual será no solo retador sino muy interesante para el mundo de la IA.

Lecturas Recomendadas

New York Times. (2023, December 27). Retrieved from https://www.nytimes.com/2023/12/27/business/media/new-york-times-open-ai-microsoft-lawsuit.html

Raina, A. (2023, December 28). New York Times vs. Microsoft & OpenAI: Quick Report. Medium. Retrieved from https://ankurraina.medium.com/new-york-times-vs-microsoft-openai-quick-d-ac7bd579bb50

Compartir noticia:

Luis Eduardo Pino

Médico internista, hematólogo-oncólogo y máster en oncología molecular. Especialista en inteligencia artificial aplicada a la salud, con amplia trayectoria en investigación clínica, liderazgo médico y transformación digital del sector. Referente nacional en innovación oncológica.

Ver más del autor