DayFR Spanish

Elon Musk dice que la IA ha agotado los datos de entrenamiento del mundo real

-

Durante una entrevista reciente en CES, Elon Musk mencionó que la inteligencia artificial prácticamente ha agotado todos los datos de entrenamiento disponibles en el mundo real, lo que indica que la generación de datos sintéticos es el principal camino a seguir para todo el entrenamiento de datos disponible en el mundo real, lo que indica que generar datos sintéticos es el principal camino a seguir. Esta idea es consistente con las palabras del ex director científico de OpenAI, Ilya Sutskever, quien habló de un “pico de datos” en el desarrollo de la IA.

Musk cree que agotaremos los datos producidos por humanos para 2024. Como director ejecutivo de Tesla y propietario de xAI, enfatizó que la solución más práctica para hacer avanzar la IA es permitir que la IA cree sus propios datos de entrenamiento. Este método permite que los sistemas de IA se autocontrolen y aprendan sobre la marcha.

Muchas grandes empresas tecnológicas ya se han subido al carro de los datos sintéticos. El nuevo modelo Phi-4 de Microsoft, por ejemplo, se basa en una combinación de datos sintéticos y reales, mientras que Google utiliza una estrategia similar para sus modelos Gemma. El modelo Claude 3.5 Sonnet de Anthropic y la última serie Llama de Meta también se basan en datos generados por IA.

Además, los analistas de Gartner predicen que para 2024, aproximadamente el 60% de los datos utilizados en proyectos de análisis e inteligencia artificial serán sintéticos. Una de las principales razones de este desarrollo es el costo. La startup de IA Writer dice que gastó alrededor de 700.000 dólares para desarrollar su modelo Palmyra X 004, que es mucho más barato que los 4,6 millones de dólares estimados para construir un modelo OpenAI comparable.

Pero los datos sintéticos no están exentos de problemas. Los investigadores advierten sobre el riesgo de un “colapso del modelo”, en el que la IA podría volverse menos inventiva y más sesgada. Este problema puede surgir si los sesgos en el conjunto de datos original se amplifican cuando la IA comienza a producir nuevos datos por sí sola.

tecnología

Related News :