La inteligencia artificial corre el riesgo de quedarse sin datos en seis años

La inteligencia artificial corre el riesgo de quedarse sin datos en seis años – rts.ch

Un informe de la Universidad de Stanford destaca las limitaciones que enfrentarán los modelos de lenguaje de inteligencia artificial. La causa: la disminución de los datos digitales disponibles y el aumento de los costes de formación.

El apetito por los modelos de lenguaje de inteligencia artificial generativa es enorme. Cada día, ingieren multitud de datos para poder entrenar. EL Informe anual de la Universidad de Stanford sobre inteligencia artificial revela que estos modelos podrían quedarse cortos de este “alimento digital” en los próximos años.

La cantidad de datos disponibles en Internet aumenta actualmente alrededor de un 7% al año. La cantidad de datos sobre los que se entrena la inteligencia artificial aumenta un 200% cada año. Según el informe, los grandes modelos lingüísticos habrán asimilado todos los datos disponibles en línea en un plazo de seis años.

Las empresas encuentran subterfugios

Para superar este problema, los investigadores de OpenAI han creado una herramienta de reconocimiento de voz. Llamado Whisper, es capaz de transcribir audio de vídeos de YouTube y producir nuevo texto conversacional. La empresa matriz de ChatGPT robó así, sin respetar los derechos de autor, los datos de un millón de horas de vídeos para alimentar y entrenar su modelo.

El año pasado, Google cambió sus términos de servicio para poder utilizar libremente Google Docs y reseñas de restaurantes disponibles públicamente en Google Maps.

>> Escuche el tema del Foro sobre datos personales:

Nuestros datos personales para entrenar la inteligencia artificial / Foro / 2 min. / 5 de septiembre de 2023

En Meta, propietaria de Facebook e Instagram, los funcionarios consideraron el año pasado adquirir la editorial Simon & Schuster en un esfuerzo por obtener contenido para obras de larga duración. Estas discusiones fueron reveladas por el New York Times, que obtuvo grabaciones de reuniones internas. Incluyeron debates sobre la recopilación de datos protegidos por derechos de autor en Internet, incluso si eso significaba correr el riesgo de demandas judiciales.

Costos operativos exorbitantes

Además de esta próxima falta de datos, el informe de la Universidad de Stanford cita la explosión de los costes de entrenar modelos de lenguaje de inteligencia artificial.

El año pasado, los precios del modelo de lenguaje GPT 4 de OpenAI ascendieron a más de 70 millones de francos, frente a los 170 millones del Gemini Ultra de Google. Estos importantes costes se explican por el aumento de los costes de recursos como los datos, la ingeniería y los sistemas informáticos en los últimos años.

Una solución arriesgada

Si hay escasez de información, las empresas de tecnología necesitarán encontrar nuevas fuentes de datos. La tentación de entrenar modelos con resultados generados por la propia IA es grande. Pero este método es arriesgado y poco fiable, porque los modelos tienden a alucinar y mentir. Estos errores luego se transmiten, repiten y multiplican.

El año pasado, los informáticos demostraron cómo un modelo de lenguaje, lanzado por Meta en 2022, se degradaba después de haber sido entrenado repetidamente con datos creados por inteligencia artificial.

Miruna Coca-Cozma/msa

Las empresas encuentran subterfugios

>> Escuche el tema del Foro sobre datos personales:

Costos operativos exorbitantes

Una solución arriesgada

Related posts