¿Es posible implementar un ChatGPT francés en una nube soberana?

Como parte del despliegue de su modelo de lenguaje de código abierto Lucie, Linagora está en conversaciones con Exaion, Outscale, OVH y Scaleway para establecer una infraestructura adecuada.

Para un actor que desee distribuir su asistente de IA generativa a gran escala, las ofertas en la nube de Gafam representan una solución lista para usar. De hecho, los hiperescaladores ofrecen recursos de máquina adaptados, con una capacidad casi ilimitada para acomodar volúmenes muy altos. El desafío subyacente: ser capaz de gestionar una carga de tráfico colosal con un procesamiento relativamente pesado.

“Actualmente estamos trabajando con Exaion (filial en la nube de EDF, nota del editor), Outscale, OVH y Scaleway con el objetivo de implementar a gran escala nuestro modelo de lenguaje de código abierto Lucie, que cuenta con 7 mil millones de parámetros”, confía Michel-Marie Maudet, director general de la empresa de servicios de software libre (SS2L) Linagora. Un modelo que el CEO describe como un modelo SLM para lenguajes pequeños. Objetivo declarado por la empresa Issy-les-Moulineaux: demostrarlo en la Cumbre de IA de código abierto de París que el actor organizará el 22 de enero. Además, es posible ofrecer un equivalente de código abierto a ChatGPT basado en una infraestructura de nube soberana.

Ante este desafío, el director general de Linagora se mantiene lúcido. “Ninguna nube francesa ha llevado a cabo todavía una operación de este tipo. Por tanto, vamos a limpiar el yeso”, afirma sin rodeos. “El más avanzado de ellos sigue siendo, desde nuestro punto de vista, Scaleway (con más de 1000 GPU tipo Nvidia H100 ya implementadas, nota del editor). Tiende a una experiencia bastante similar a la de Amazon Bedrock (el servicio de AWS dedicado a la IA generativa, nota del editor). “

¿Es imprescindible el camino multinube?…

Para definir sus necesidades de infraestructura, Linagora comenzó evaluando escenarios de tráfico, en particular estimando el número de solicitudes y el volumen de tokens entrantes y salientes por usuario. A partir de ahí, SS2L evaluó varias tarjetas Nvidia: la RTX A4000, la L4, la L40S y la H100. En cada caso, se ha establecido un punto de referencia estándar. El desafío para Linagora es lograr una arquitectura con interfaces web que admitan la interfaz de chat y, detrás de escena, un equilibrador de carga basado en el bloque LiteLLM de código abierto responsable de dirigir el procesamiento a los puntos de inferencia de GPU de la nube soberana más adecuada. Por ejemplo, si el usuario desea mantener sus datos en una nube confiable, el flujo se enrutará a Outscale y será compatible con las GPU etiquetadas con SecNumCloud de este último.

“Actualmente estamos avanzando hacia una arquitectura de múltiples nubes, ya que creemos que una única nube soberana no podrá cubrir todos nuestros casos de uso y tampoco podrá proporcionar la energía necesaria para un lanzamiento público general por sí sola. ” , subraya Michel-Marie Maudet. “A partir de ahí, el desafío es demostrar nuestra capacidad de inferir nuestro modelo entre varios operadores de nube franceses”.

….”No”, responden las nubes soberanas

En el lado de Scaleway, mantenemos la capacidad de acomodar, incluso en un LLM (para modelo de lenguaje grande) de más de 100 mil millones de parámetros, aumentos de carga de varios cientos o incluso varios miles de usuarios simultáneos. “Aseguramos el lanzamiento global del chat de voz Moshi de la Fundación Kyutai, lo que representa un aumento significativo del apoyo”, recuerda Frédéric Bardolle, director principal de productos de IA en Scaleway. Entre bastidores, Moshi confía en un modelo llamado Helium que resulta bastante cercano a Lucie ya que, como esta última, tiene 7 mil millones de parámetros.

“Podemos gestionar hasta varios cientos de miles de solicitudes por segundo”

¿Qué pasa con OVHcloud? La nube de Roubaix ofrece puntos finales de IA. Un servicio, actualmente en versión beta, diseñado para ofrecer modelos de lenguaje mediante facturación simbólica. Bajo el capó, el proveedor ya comercializa alrededor de cuarenta, incluidos Llama-3.1-70B-Instruct o Mixtral-8x22b-Instruct. “Esta oferta está totalmente adaptada a Lucie”, afirma Gilles Closset, líder global del ecosistema de IA en OVHcloud. “Somos totalmente compatibles con la capa de infraestructura subyacente. Sabemos que tenemos la capacidad de manejar hasta varios cientos de miles de solicitudes por segundo sin problemas”.

En cuanto a las tarjetas gráficas, OVHcloud utiliza recursos adaptados en función del modelo. “Ofrecemos tarjetas gráficas L4 para modelos pequeños, L4S para modelos intermedios y H100 para modelos grandes”, explica Gilles Closset. En los próximos meses, OVHcloud también prevé poner a disposición, además, AMD MI325X, AMD Blackwell, sin olvidar la Nvidia H200.

En Outscale (grupo Dassault Systèmes) también queremos tener confianza. “Desde septiembre de 2024, comenzamos a ofrecer los modelos de lenguaje premium de Mistral como parte de una oferta de LLM como servicio que tiene como objetivo adaptarse a otras IA generativas en el futuro”, indica David Chassan, director de estrategia de Outscale. Orientada a la inferencia, la oferta en cuestión integra Codestral Mistral AI, Mistral Small, Ministral 8B 24.10 y Mistral Large. Para cada modelo, el proveedor implementa una infraestructura de máquinas ad hoc. La pila incluye, por ejemplo, dos tarjetas gráficas L40 para Mistral Small y cuatro GPU H200 para Mistral Large. Configuraciones diseñadas para uso empresarial, pero lejos de ser adecuadas para el uso del público general y el volumen de audiencia.

Cuando se le pregunta si Outscale es capaz de mantener el cargo a mayor escala, David Chassan se muestra tranquilizador. “Dassault Systèmes tiene más de 350.000 clientes en todo el mundo (y el 24% de la facturación se genera en la nube, nota del editor). Esto nos da una fuerza de ataque importante en términos de potencia de la máquina”, subraya. “Sin embargo, nuestro principal valor añadido en la IA y en la nube en general consiste en proporcionar una pila dedicada para cada cliente. Desde este punto de vista, Outscale sigue siendo la única nube equipada con GPU certificadas SecNumCloud”, resume David Chassan. “Nuestro principal objetivo es servir a las organizaciones e instituciones que desean proteger sus datos y su propiedad intelectual”. Un mensaje que tiene el mérito de siendo claro.

¿Es imprescindible el camino multinube?…

….”No”, responden las nubes soberanas

Related posts