La principal ventaja del modelo francés.

El nuevo modelo multiagente de Mistral AI combina rendimiento y máxima eficiencia. Ofrece una alternativa creíble de código abierto para muchos casos de uso.

Mistral sigue golpeando fuerte. La start-up parisina, que se prepara para finalizar una ronda de recaudación de fondos de 5 mil millones de dólares, presentó un nuevo LLM de código abierto de última generación durante… 9 días. Presentado el 10 de abril como un archivo torrent sin formato, Mistral AI hizo oficial Mixtral 8x22B el 17 de abril con nueva información sobre su entrenamiento. Menos de 24 horas después, Meta respondió presentando Llama 3. Un modelo que supera en puntos de referencia al de la start-up parisina. Mixtral 8x22B no está pensado para guardarlo en el fondo del cajón, sino todo lo contrario.

Mixtral 8x22B: el poder de una arquitectura SMoE

Lo último de Mistral tiene una gran ventaja sobre Llama 3: su arquitectura. Basado en un modelo de mezcla dispersa de expertos, Mixtral es, con parámetros iguales, más eficiente. Popularizada por Mistral AI con Mixtral 8x7B, la arquitectura creció rápidamente en el ecosistema de código abierto. Este último presenta un funcionamiento verdaderamente diferente a la arquitectura clásica de transformadores, todavía utilizada por la mayoría de LLM del mercado. Con una arquitectura de mezcla dispersa de expertos, el modelo se compone de varios agentes, cada uno de ellos especializado en ciertos tipos de tareas o conocimientos. Cuando se presenta una entrada al modelo, un mecanismo de “enrutamiento” selecciona dinámicamente qué expertos se activarán para procesar esa entrada de manera óptima.

A diferencia de un modelo denso donde se utilizan todos los parámetros, en la arquitectura SMoE solo se activan los parámetros de los expertos seleccionados para una entrada determinada. Esto hace que el modelo sea más compacto y eficiente. Entonces, en inferencia, Mixtral 8x22B tiene solo 39 mil millones de parámetros activos de 141 mil millones en total. Esta característica ofrece una excelente eficiencia costo-rendimiento. La inferencia también es mucho más rápida. Al mismo tiempo, este enfoque facilita la incorporación de nuevos expertos y la adaptación a nuevas tareas.

En concreto, cuando Llama 3 utiliza 70 mil millones de parámetros al mismo tiempo durante la inferencia, Mixtral sólo utiliza 39. Aunque Meta ha mejorado la arquitectura de transformación de Llama 3, el modelo francés tiene un rendimiento ligeramente inferior al del gigante Meta, pero será mucho más rápido y menos costoso de configurar dentro de una infraestructura local o en la nube.

Alto rendimiento

Durante el desarrollo de Mixtral 8x22B, los equipos de IA de Mistral centraron su atención en el soporte nativo para idiomas europeos. Mixtral 8x22B admite inglés, francés, italiano, alemán y español. También se han mejorado sus habilidades de generación y comprensión de códigos y matemáticas. Admite de forma nativa la llamada a funciones, lo que simplifica la llamada al LLM dentro de un programa. El modelo admite una ventana de contexto de 64.000 tokens, lo que permite procesar documentos bastante largos. A modo de comparación, Llama 3 70B se ofrece con un contexto de 8.000 tokens.

En el punto de referencia MMLU que mide la comprensión del lenguaje en múltiples tareas, Mixtral 8x22B muestra una puntuación del 77,75% en comparación con el 79,5 de Meta. Su desempeño en pruebas de razonamiento y conocimientos generales como HellaSwag, Wino Grande y ARC Challenge también es notable, con puntuaciones de entre el 88 y el 91 %. Estos buenos resultados lo convierten en un modelo de elección para el análisis de documentos complejos. Mixtral 8x22B puede considerarse como un LLM principal para un agente o entrenador personalizado en una amplia variedad de campos. Otro punto fuerte, el rendimiento de Mixtral 8x22B en matemáticas y programación es simplemente el mejor entre los modelos de lenguaje abierto, detrás de Llama 3. Con 88,4% en HumanEval, 71,2% en MBPP y 90,8% en GSM8K, el modelo demuestra capacidades líderes para tareas que requieren razonamiento complejo. Mixtral 8x22B puede considerarse como un muy buen modelo para la generación/comprensión de código. También se puede ajustar con bastante facilidad en un idioma determinado para que sea aún más eficiente.

Punto de referencia	Meta Llama 3 70B	Mixtral 8x22B	Interpretación del índice de referencia
MMLU 5 disparos	79,5	77,7	Evaluación de la comprensión del lenguaje en múltiples dominios.
AGIEval Inglés 3-5 disparos	63.0	61.2	Medición de las habilidades de razonamiento y comprensión en inglés.
BIG-Bench Hard 3 tiros, CoT	81.3	79,2	Evaluación de habilidades de razonamiento complejo y generación de textos.
ARC-Challenge 25 disparos	93.0	90,7	Medición de la comprensión del conocimiento y razonamiento científicos.
SOLTAR 3 disparos, F1	79,7	77,6	Evaluación de la comprensión y el razonamiento de textos.

La prueba en condiciones reales

Para probar las capacidades de Mixtral 8x22B, decidimos probar el modelo (versión de instrucciones) en varios casos de uso comunes y comparar su rendimiento con Llama 3 de Meta. Los resultados son muy interesantes. En la generación de código, Mixtral ofrece código simple, conciso y relativamente bien optimizado. El código, sin embargo, carece de documentación más legible. Llama 3 ofrece una respuesta más adecuada para la misma tarea. Sin embargo, Mixtral podría funcionar mejor después de realizar ajustes en un idioma específico.

En resumen, Mixtral ofrece un resultado cualitativo, mejor que Llama 3 según nuestras distintas pruebas. Por otro lado, el modelo Mistral AI tiene dificultades para seguir la indicación inicial con perfecta precisión. Parece necesario un estímulo más exigente. En la generación de texto, Mixtral ofrece un resultado bastante limpio a la primera. El estilo es bastante prolijo y carece de fluidez. La diferencia con Llama 3 es mínima. El modelo Meta ofrece un texto un poco más fluido con un vocabulario más rico y variado. En generación de texto Mixtral se queda atrás y destaca Llama. Con ajustes más avanzados en textos de calidad, Mixtral podría ganar en precisión y fluidez, por un costo menor que el modelo Meta.

Una imagen que contiene texto, captura de pantalla, fuente, letra Descripción generada automáticamente — © Captura de pantalla / JDN

Mixtral vs Llama, un duelo de IA en la cima

Mixtral, gracias a su posición agresiva, alcanzó la cima del ranking de los mejores LLM en el mercado de código abierto durante 9 días antes de ser rápidamente alcanzado en rendimiento general por Llama 3 de Meta. El modelo Mistral AI es ligeramente menos eficiente que el de Meta, pero ofrece decididamente un compromiso confiable y robusto con una eficiencia excelente para la mayoría de los casos de uso.

Para obtener un resultado verdaderamente cualitativo, será necesario guiar el modelo con una indicación precisa y sencilla. Para un rendimiento óptimo, puede ser necesario realizar ajustes. Si Llama 3 se consolida como el nuevo líder indiscutible en términos de rendimiento bruto, Mixtral 8x22B destaca gracias a su arquitectura única y su notable eficiencia.

Tags F1

Mixtral 8x22B: el poder de una arquitectura SMoE

Alto rendimiento

La prueba en condiciones reales

Mixtral vs Llama, un duelo de IA en la cima

Related posts