La IA ya ha consumido todo el conocimiento humano, advierte Elon Musk

La IA ya ha consumido todo el conocimiento humano, advierte Elon Musk
La IA ya ha consumido todo el conocimiento humano, advierte Elon Musk
-

Las inteligencias artificiales se quedan sin combustible: ¿un verdadero impasse tecnológico?

En una entrevista reciente sobre “Se ha aprovechado la suma total del conocimiento humano para entrenar IA. Esto sucedió el año pasado”, dijo. Esta situación empuja a los investigadores a explorar nuevas soluciones, incluido el uso de datos sintéticos, cuyas consecuencias aún no se comprenden bien.

¿Por qué los datos humanos ya no son suficientes?

Los modelos modernos de IA, como ChatGPT o Bard, requieren volúmenes gigantescos de datos para funcionar de forma eficaz. Estos datos incluyen libros, artículos científicos, conversaciones en línea y muchas otras fuentes de información. Sin embargo, con el crecimiento exponencial de la necesidad de modelos generativos, la cantidad de datos nuevos y cualitativos disponibles se vuelve insuficiente.

En cifras:

fuente de datos Volumen disponible en 2022 (expresado en Terabytes) Necesidades estimadas en 2024
Textos academicos 50 200
Contenido web (blogs, foros) 800 2 500
Literatura y archivos 200 1 000

Ante esta escasez, los investigadores están recurriendo a datos artificiales, creados por otras IA, para seguir impulsando estos modelos.

Datos sintéticos: una solución de doble filo

Los datos sintéticos consisten en información generada artificialmente para imitar datos reales. Si bien este enfoque ofrece muchas ventajas, no está exento de riesgos.

Beneficios :

  • Costos reducidos : Entrenar una IA con datos sintéticos suele costar menos. Por ejemplo, la startup Writer redujo en seis el coste de formación de su modelo Palmyra X 004, de 4,6 millones de dólares a 700.000 dólares.
  • Mayor disponibilidad : Los datos sintéticos se pueden crear infinitamente, lo que permite una flexibilidad sin precedentes.
  • Respeto a la privacidad : Estos datos no implican información personal real, lo que reduce los problemas éticos.

Riesgos:

  1. Alucinaciones : Los modelos pueden producir resultados erróneos cuando se basan en datos imperfectos o sesgados. Esto aumenta el riesgo de fallas sistémicas, llamadas “colapso del modelo” o colapso del modelo.
  2. Sesgo creciente : Los datos sintéticos a menudo reproducen y amplifican los sesgos presentes en los datos originales.
  3. Pérdida de creatividad : Las IA entrenadas únicamente con datos artificiales podrían perder su capacidad de ofrecer respuestas originales.
Créditos: geralt/pixabay

Posibles consecuencias para el futuro de la IA

El mayor uso de datos sintéticos podría tener consecuencias importantes:

  • ¿Un regreso a lo básico? Las empresas pueden verse obligadas a reinventar sus enfoques, utilizando modelos más compactos y enfocados.
  • La colaboración se acumula : Compartir datos entre organizaciones podría volverse esencial para sortear las limitaciones actuales.
  • Regulaciones éticas : Deben establecerse marcos legales más estrictos para limitar posibles abusos.

¿Qué dicen los expertos?

Investigadores, como los de la Universidad de Stanford, advierten que la calidad de los resultados de la IA podría disminuir si no se resuelve el problema de la dependencia de datos sintéticos. Un estudio (disponible aquí) indica que los modelos entrenados con más del 50% de datos artificiales muestran un aumento significativo de errores fácticos.

Conclusión: ¿hacia un futuro híbrido para la IA?

A medida que las limitaciones de los datos humanos se vuelven claras, los datos sintéticos emergen como una solución temporal, pero lejos de ser perfecta. El futuro de la IA probablemente residirá en una combinación de enfoques que aprovechen datos reales y sintéticos, sin dejar de estar atentos a los desafíos éticos y técnicos.


France
Tech

-

PREV Shokz presenta OpenFit 2, unos auriculares inalámbricos de conducción aérea
NEXT Investigadores han hecho un descubrimiento en América que podría reescribir la historia de los dinosaurios