Debido a la inteligencia artificial, la web se está cerrando cada vez más

- -
>>

Flujo de datos que constituye una IA (ilustración). INGRAM / FOTONONSTOP

La llegada de ChatGPT, en noviembre de 2022, sigue teniendo consecuencias, imaginarias o reales. Entre ellas, un grupo de académicos independientes, Data Provenance Initiative, acaba de identificar una, bastante inesperada: el agotamiento de las fuentes de las que se nutren los sistemas de inteligencia artificial generativa que ha popularizado la herramienta de la empresa estadounidense OpenAI. Más precisamente, en su preprint presentado en una conferencia en julio, este equipo midió en qué medida un número significativo de sitios, entre los más visitados del mundo (El New York Times, El HuffPost, El guardián…), ahora prohíben las herramientas de recuperación automática de datos, o arrastrándose En inglés, para acceder a su información. Y es a partir de estos datos que se crean enormes corpus para entrenar inteligencias artificiales como ChatGPT, Gemini, Copilot, Le Chat, Llama, Claude… Cuanto más grandes sean los corpus, mejores serán los resultados, aunque la “calidad” también cuenta.

Leer también | Artículo reservado para nuestros suscriptores Dentro de la creación de la IA generativa

Añadir a tus selecciones

Para llegar a esta observación del cierre de la Web, los investigadores estudiaron tres corpus ampliamente utilizados para el desarrollo de la IA, C4, RefinedWeb y Dolma, que contienen miles de millones de «tokens» (o unidades léxicas, sílabas o incluso palabras) procedentes de decenas de millones de sitios de Internet (medios de comunicación, foros, enciclopedias, comercios en línea, sitios personales o universitarios, redes sociales, etc.). También recogieron dos tipos de información sobre estos sitios para saber qué autorizan o no: sus condiciones generales de uso (CGU) y un archivo llamado «robots.txt», que el robots-rastreadores Se supone que deben “leer” para determinar si tienen derecho a recopilar datos o no (pero una “prohibición” también puede no respetarse).

Lista negra

La primera observación es que las prohibiciones formuladas en robots.txt están “explotando” a partir de 2023. Casi el 30% de los sitios más grandes las utilizan ahora, en comparación con apenas el 2% anterior. En términos de volumen de datos, los investigadores estiman que más del 30% de los tokens de los 3.950 sitios más grandes de los corpus C4 y RefinedWeb se ven afectados actualmente por restricciones.

No todos los robots rastreadores reciben el mismo trato: el 25,9% de los tokens C4 están prohibidos para los robots OpenAI, mientras que solo el 13,3% están prohibidos para los robots Anthropic o el 4,1% para los robots Meta. Recientemente, muchos editores han anunciado que están bloqueando uno de los últimos robots en el mercado, el de Apple.

Los investigadores también señalan que una organización sin ánimo de lucro estadounidense, Common Crawl, también está en la lista negra de muchos sitios. Es cierto que sus datos se utilizan para construir los corpus C4, RefinedWeb, FineWeb, Dolma, etc., que a su vez pueden ser utilizados por empresas con ánimo de lucro para desarrollar sus sistemas. Pero las prohibiciones también afectan a los rastreadores de Internet Archive, un servicio de “memoria” web no comercial.

Te queda el 53,38% de este artículo por leer. El resto está reservado para suscriptores.

-

PREV La cadena de prêt-à-porter Esprit se encuentra en suspensión de pagos en Francia – Libération
NEXT Las autoridades locales, acusadas de desvío financiero, deberían gastar aún más