La nueva carrera armamentista de la tecnología: la batalla de un billón de dólares para construir IA

Descubra cómo las empresas están integrando responsablemente la IA en la producción. Este evento al que solo se puede invitar en SF explorará la intersección de la tecnología y los negocios. Descubra cómo puede esperar aquí.

Durante las pruebas, un modelo de lenguaje grande (LLM) publicado recientemente pareció reconocer que estaba siendo evaluado y comentó sobre la relevancia de la información que estaba procesando. Esto llevó a especular que esta respuesta podría ser un ejemplo de metacognición, una comprensión de los propios procesos de pensamiento. Si bien este reciente LLM generó una conversación sobre el potencial de la IA para la autoconciencia, la verdadera historia radica en el puro poder del modelo, que proporciona un ejemplo de nuevas capacidades que ocurren a medida que los LLM se hacen más grandes.

A medida que lo hacen, también lo hacen las capacidades emergentes y los costos, que ahora están alcanzando cifras astronómicas. Así como la industria de los semiconductores se ha consolidado en torno a un puñado de empresas capaces de permitirse las últimas plantas de fabricación de chips multimillonarias, el campo de la IA pronto podría estar dominado sólo por los gigantes tecnológicos más grandes (y sus socios) capaces de afrontar el paso. factura por desarrollar los últimos modelos básicos de LLM como GPT-4 y Claude 3.

El costo de entrenar estos últimos modelos, que tienen capacidades que han igualado y, en algunos casos, superado el rendimiento a nivel humano, se está disparando. De hecho, los costos de capacitación asociados con los modelos más recientes se acercan a los 200 millones de dólares, lo que amenaza con transformar el panorama de la industria.

Fuente: https://ourworldindata.org/grapher/test-scores-ai-capabilities-relative-human-rendimiento

Si este crecimiento exponencial del rendimiento continúa, no sólo las capacidades de IA avanzarán rápidamente, sino también los costos exponenciales. Anthropic se encuentra entre los líderes en la creación de modelos lingüísticos y chatbots. Al menos en lo que respecta a los resultados de las pruebas comparativas, su buque insignia Claude 3 es posiblemente el líder actual en rendimiento. Al igual que GPT-4, se considera un modelo básico que está previamente entrenado con una amplia y diversa gama de datos para desarrollar una amplia comprensión del lenguaje, los conceptos y los patrones.

Evento VB

La gira de impacto de la IA – San Francisco

Únase a nosotros mientras navegamos por las complejidades de la integración responsable de la IA en los negocios en la próxima parada del AI Impact Tour de VB en San Francisco. No pierda la oportunidad de obtener información de expertos de la industria, establecer contactos con innovadores de ideas afines y explorar el futuro de GenAI con experiencias de clientes y optimizar los procesos comerciales.

Solicitar una invitación

Rendimiento comparativo de LLM, marzo de 2024. Fuente: https://www.anthropic.com/news/claude-3-family

El cofundador y director ejecutivo de la empresa, Dario Amodei, discutió recientemente los costos de entrenar estos modelos, estimando que el entrenamiento de Claude 3 ronda los 100 millones de dólares. Añadió que los modelos que están en formación ahora y que se introducirán más adelante en 2024 o principios de 2025 tienen “un costo más cercano a los mil millones de dólares”.

*Los costos de formación de LLM aumentan con la sofisticación del modelo. Fuente:* *Informe del índice de IA de Stanford 2024*

Para comprender la razón detrás de estos costos crecientes, debemos observar la complejidad cada vez mayor de estos modelos. Cada nueva generación tiene una mayor cantidad de parámetros que permiten una comprensión y ejecución de consultas más complejas, más datos de entrenamiento y mayores cantidades de recursos informáticos necesarios. En 2025 o 2026, Amodei cree que el coste de entrenar los últimos modelos será de entre 5.000 y 10.000 millones de dólares. Esto evitará que todas, excepto las empresas más grandes y sus socios, construyan estos LLM básicos.

La IA sigue a la industria de los semiconductores

De esta manera, la industria de la IA está siguiendo un camino similar al de la industria de los semiconductores. En la última parte del siglo XX, la mayoría de las empresas de semiconductores diseñaron y construyeron sus propios chips. A medida que la industria siguió la Ley de Moore (el concepto que describía la tasa exponencial de mejora del rendimiento de los chips), los costos de cada nueva generación de equipos y plantas de fabricación para producir semiconductores crecieron proporcionalmente.

Debido a esto, muchas empresas finalmente optaron por subcontratar la fabricación de sus productos. AMD es un buen ejemplo. La empresa había fabricado sus propios semiconductores líderes, pero en 2008 tomó la decisión de escindir sus plantas de fabricación, también conocidas como fabs, para reducir costes.

Debido a los costos de capital necesarios, hoy en día sólo hay tres empresas de semiconductores que están construyendo fábricas de última generación utilizando las últimas tecnologías de nodos de proceso: TSMC, Intel y Samsung. TSMC dijo recientemente que costaría alrededor de 20 mil millones de dólares construir una nueva fábrica para producir semiconductores de última generación. Muchas empresas, incluidas Apple, Nvidia, Qualcomm y AMD, subcontratan la fabricación de sus productos a estas fábricas.

Implicaciones para la IA: LLM y SLM

El impacto de este aumento de costos varía según el panorama de la IA, ya que no todas las aplicaciones requieren el LLM más reciente y potente. Esto también se aplica a los semiconductores. Por ejemplo, en una computadora, la unidad central de procesamiento (CPU) a menudo se fabrica utilizando la última tecnología de semiconductores de alta gama. Sin embargo, está rodeado de otros chips para memoria o redes que funcionan a velocidades más lentas, lo que significa que no es necesario construirlos utilizando la tecnología más rápida o potente.

La analogía de la IA aquí son las muchas alternativas LLM más pequeñas que han aparecido, como Mistral y Llama3, que ofrecen varios billones de parámetros en lugar de los más de un billón que se cree que forman parte de GPT-4. Microsoft lanzó recientemente su propio modelo de lenguaje pequeño (SLM), el Phi-3. Según lo informado por The Verge, contiene 3.800 millones de parámetros y está entrenado en un conjunto de datos que es más pequeño en relación con LLM como GPT-4.

El tamaño más pequeño y el conjunto de datos de entrenamiento ayudan a contener los costos, aunque es posible que no ofrezcan el mismo nivel de rendimiento que los modelos más grandes. En este sentido, estos SLM se parecen mucho a los chips de una computadora que soportan la CPU.

Sin embargo, los modelos más pequeños pueden ser adecuados para determinadas aplicaciones, especialmente aquellas en las que no se necesita un conocimiento completo de múltiples dominios de datos. Por ejemplo, un SLM se puede utilizar para ajustar los datos y la jerga específicos de la empresa para proporcionar respuestas precisas y personalizadas a las consultas de los clientes. O bien, uno podría recibir capacitación utilizando datos para una industria o segmento de mercado específico o usarse para generar informes de investigación completos y personalizados y respuestas a consultas.

Como dijo recientemente Rowan Curran, analista senior de IA en Forrester Research sobre las diferentes opciones de modelos de lenguaje: “No necesitas un auto deportivo todo el tiempo. A veces necesitas una minivan o una camioneta. No será una clase amplia de modelos que todos utilicen para todos los casos de uso”.

Pocos jugadores añaden riesgo

Así como el aumento de los costos ha restringido históricamente el número de empresas capaces de construir semiconductores de alta gama, presiones económicas similares configuran ahora el panorama del desarrollo de grandes modelos lingüísticos. Estos costos crecientes amenazan con limitar la innovación en IA a unos pocos actores dominantes, lo que podría sofocar soluciones creativas más amplias y reducir la diversidad en el campo. Las altas barreras de entrada podrían impedir que las nuevas empresas y las empresas más pequeñas contribuyan al desarrollo de la IA, reduciendo así la gama de ideas y aplicaciones.

Para contrarrestar esta tendencia, la industria debe respaldar modelos de lenguaje más pequeños y especializados que, como componentes esenciales en un sistema más amplio, proporcionen capacidades críticas y eficientes para diversas aplicaciones de nicho. Promover proyectos de código abierto y esfuerzos de colaboración es crucial para democratizar el desarrollo de la IA, permitiendo que una gama más amplia de participantes influya en esta tecnología en evolución. Al fomentar un entorno inclusivo ahora, podemos garantizar que el futuro de la IA maximice los beneficios en las comunidades globales, caracterizadas por un amplio acceso y oportunidades de innovación equitativas.

Gary Grossman es vicepresidente ejecutivo de práctica tecnológica en Edelman y líder global del Centro de Excelencia de IA de Edelman.

Tomadores de decisiones de datos

¡Bienvenido a la comunidad VentureBeat!

DataDecisionMakers es el lugar donde los expertos, incluidos los técnicos que trabajan con datos, pueden compartir conocimientos e innovación relacionados con los datos.

Si desea leer sobre ideas de vanguardia e información actualizada, mejores prácticas y el futuro de los datos y la tecnología de datos, únase a nosotros en DataDecisionMakers.

¡Incluso podrías considerar contribuir con un artículo propio!

Leer más de DataDecisionMakers