Para crecer, la IA generativa recurre a los libros – 22/11/2024 a las 08:57

Friday 22nd November 2024 04:30 AM

Un hombre camina frente a un cartel que habla sobre inteligencia artificial (IA), durante la Feria del Libro de Frankfurt, Alemania, el 16 de octubre de 2024. (AFP / Kirill KUDRYAVTSEV)

Preservar los derechos de autor negociando con las plataformas: ante las necesidades cada vez mayores de la inteligencia artificial generativa, el mundo editorial también está empezando a celebrar contratos con sus partes interesadas para monetizar sus contenidos.

La importante editorial estadounidense HarperCollins acaba de ofrecer a algunos de sus autores un contrato con una empresa de inteligencia artificial (IA) -cuya identidad es confidencial- que les permitirá utilizar sus obras publicadas para entrenar su modelo de inteligencia artificial generativa.

En una carta consultada por la AFP, la empresa de inteligencia artificial ofrece 2.500 dólares por libro seleccionado para entrenar su modelo lingüístico (LLM) durante un período de tres años.

Porque para poder producir todo tipo de contenidos a partir de una consulta sencilla en el lenguaje cotidiano, los modelos de IA generativa deben alimentarse con una cantidad cada vez mayor de datos.

Contactado, el editor confirmó la operación. “HarperCollins ha firmado un acuerdo con una empresa de tecnología de inteligencia artificial para permitir el uso limitado de ciertos títulos (…) para entrenar modelos de IA, con el fin de mejorar la calidad y el rendimiento de los modelos”, escribe.

La editorial también explica que el acuerdo “regula claramente la producción de modelos que respeten los derechos de autor”.

La oferta, sin embargo, fue valorada de otra manera en el sector editorial y escritores como el estadounidense Daniel Kibblesmith la rechazaron tajantemente: “Probablemente lo haría por mil millones de dólares. Lo haría por una suma de dinero que ya no me requeriría que funcione, ya que ese es el objetivo final de esta tecnología”, afirmó indignado el autor en la red social Bluesky.

– Nuevos materiales –

Un stand que representa un libro abierto, en la Feria del Libro de Frankfurt, Alemania, el 17 de octubre de 2024. (AFP / Kirill KUDRYAVTSEV)

Si HarperCollins es una de las editoriales más grandes hasta la fecha en cerrar este tipo de acuerdo, no es la primera. La editorial estadounidense de libros científicos Wiley dio acceso “al contenido de libros académicos y profesionales publicados para un uso específico en modelos de formación, por 23 millones de dólares, a una gran empresa tecnológica”, indicó en marzo de este año, al presentar sus resultados financieros.

Este tipo de colaboración pone de relieve los problemas relacionados con el desarrollo de la inteligencia artificial generativa, que se basa en inmensas cantidades de datos recopilados en la web, lo que conlleva posibles violaciones de los derechos de autor.

Para Giada Pistilli, responsable de ética de Hugging Face, una plataforma francoamericana de acceso abierto a la inteligencia artificial, este anuncio es un paso adelante, ya que el contenido de los libros se monetiza. Pero lamenta un margen de negociación limitado para los autores.

“Lo que vamos a ver es un mecanismo para acuerdos bilaterales entre empresas de nuevas tecnologías y editores o titulares de derechos de autor, mientras que en mi opinión necesitamos una conversación más amplia para incluir a un poco más de partes interesadas”, afirma.

“Partimos de muy lejos”, comenta Julien Chouraqui, director jurídico del sindicato editorial francés (SNE). “Esto es un avance: el hecho de que haya un acuerdo significa que ha habido un diálogo y una voluntad de lograr un equilibrio entre el uso de los datos de origen, que están sujetos a derechos y que van a generar valor”, afirma.

Ante estas cuestiones, los editores de prensa también se están organizando. A finales de 2023, el diario estadounidense The New York Times inició un proceso contra OpenAI, creador del software ChatGPT, así como contra Microsoft, su principal inversor, por infracción de derechos de autor. Otros medios han firmado acuerdos con OpenAI.

Es posible que las empresas de tecnología ya no tengan otra opción para mejorar sus productos que profundizar, especialmente cuando comienzan a quedarse sin nuevos materiales para impulsar los modelos.

La prensa estadounidense informó recientemente que los nuevos modelos en desarrollo parecen haber llegado a su límite, en particular en Google, Anthropic y OpenAI.

“En Internet se recopilan contenidos lícitos e ilícitos, y muchos contenidos pirateados, lo que plantea un problema jurídico, sin olvidar el problema de la calidad de los datos”, observa Julien Chouraqui, del SNE: “si nos tomamos en serio el desarrollo. de un mercado sobre bases virtuosas, es necesario implicar a todos los actores.”