Para crecer, la IA generativa recurre a los libros

París (awp/afp) – Preservar los derechos de autor negociando con las plataformas: ante las necesidades cada vez mayores de la inteligencia artificial generativa, el mundo editorial también comienza a celebrar contratos con sus stakeholders para monetizar sus contenidos.

La importante editorial estadounidense HarperCollins acaba de ofrecer a algunos de sus autores un contrato con una empresa de inteligencia artificial (IA) -cuya identidad es confidencial- que les permitirá utilizar sus obras publicadas para entrenar su modelo de inteligencia artificial generativa.

En una carta consultada por la AFP, la empresa de inteligencia artificial ofrece 2.500 dólares por libro seleccionado para entrenar su modelo lingüístico (LLM) durante un período de tres años.

Porque para poder producir todo tipo de contenidos a partir de una consulta sencilla en el lenguaje cotidiano, los modelos de IA generativa deben alimentarse con una cantidad cada vez mayor de datos.

Contactado, el editor confirmó la operación. “HarperCollins ha firmado un acuerdo con una empresa de tecnología de inteligencia artificial para permitir el uso limitado de ciertos títulos (…) para entrenar modelos de IA, con el fin de mejorar la calidad y el rendimiento de los modelos”, escribe.

La editorial también explica que el acuerdo “regula claramente la producción de modelos que respeten los derechos de autor”.

La oferta, sin embargo, fue valorada de otra manera en el sector editorial y escritores como el estadounidense Daniel Kibblesmith la rechazaron tajantemente: “Probablemente lo haría por mil millones de dólares. Lo haría por una suma de dinero que ya no me requeriría que funcione, ya que ese es el objetivo final de esta tecnología”, afirmó indignado el autor en la red social Bluesky.

Nuevos materiales

Si HarperCollins es una de las editoriales más grandes hasta la fecha en cerrar este tipo de acuerdo, no es la primera. La editorial estadounidense de libros científicos Wiley dio acceso “al contenido de libros académicos y profesionales publicados para un uso específico en modelos de formación, por 23 millones de dólares, a una gran empresa tecnológica”, indicó en marzo de este año, al presentar sus resultados financieros.

Este tipo de colaboración pone de relieve los problemas relacionados con el desarrollo de la inteligencia artificial generativa, que se basa en inmensas cantidades de datos recopilados en la web, lo que conlleva posibles violaciones de los derechos de autor.

Para Giada Pistilli, responsable de ética de Hugging Face, una plataforma franco-estadounidense de inteligencia artificial de acceso abierto, este anuncio es un paso adelante, ya que el contenido de los libros se monetiza. Pero lamenta un margen de negociación limitado para los autores.

“Lo que vamos a ver es un mecanismo para acuerdos bilaterales entre empresas de nuevas tecnologías y editores o titulares de derechos de autor, mientras que en mi opinión necesitamos una conversación más amplia para incluir a un poco más de partes interesadas”, afirma.

“Estamos empezando por ahora”, comenta por su parte Julien Chouraqui, director jurídico del sindicato editorial francés (SNE). “Esto es un avance: el hecho de que haya un acuerdo significa que ha habido un diálogo y una voluntad de lograr un equilibrio entre el uso de los datos de origen, que están sujetos a derechos y que van a generar valor”, afirma.

Ante estas cuestiones, los editores de prensa también se están organizando. A finales de 2023, el diario estadounidense The New York Times inició un proceso contra OpenAI, creador del software ChatGPT, así como contra Microsoft, su principal inversor, por infracción de derechos de autor. Otros medios han firmado acuerdos con OpenAI.

Es posible que las empresas de tecnología ya no tengan otra opción para mejorar sus productos que profundizar, especialmente cuando comienzan a quedarse sin nuevos materiales para impulsar los modelos.

La prensa estadounidense informó recientemente que los nuevos modelos en desarrollo parecen haber llegado a su límite, en particular en Google, Anthropic y OpenAI.

“En Internet se recogen contenidos lícitos e ilícitos, y muchos contenidos pirateados. Esto plantea un problema jurídico. Sin olvidar el problema de la calidad de los datos”, observa Julien Chouraqui, de la SNE: “si nos preocupamos por el desarrollo de Para un mercado sobre bases virtuosas, es necesario involucrar a todos los actores.”

afp/ib

Related posts