Pixtral 12B de Mistral AI: multimodal y de código abierto

Pixtral 12B de Mistral AI: multimodal y de código abierto
Pixtral 12B de Mistral AI: multimodal y de código abierto
-

Con sus 12 mil millones de parámetros, Pixtral 12B no ofrece generación de imágenes, sino análisis de imágenes. Se trata del primer modelo multimodal de la start-up francesa. La buena noticia es que se puede utilizar, modificar y mejorar, ya que es de código abierto.

METROistral AI ha decidido abordar los modelos multimodales y, como mínimo, ha sido una jugada maestra. Pixtral 12B, así se llama, es multimodal de forma nativa. Está entrenado con datos de texto e imágenes entrelazadas.

La arquitectura incluye un nuevo codificador de visión de 400 millones de parámetros, entrenado desde cero. El decodificador multimodal de 12 mil millones de parámetros se basa en Mistral Nemo. La licencia elegida es de código abierto, Apache 2.0. Todos los avisos serán de código abierto.

Pixtral se puede utilizar para comprender con precisión diagramas, gráficos y documentos complejos en alta definición, al tiempo que garantiza velocidades de inferencia rápidas para imágenes pequeñas como íconos, imágenes prediseñadas y ecuaciones.

Mistral explica que tiene “ Se reevaluó una gama de modelos de código abierto y propietarios utilizando el mismo marco de evaluación: para cada conjunto de datos, se eligió el mensaje para replicar los resultados de los modelos multimodales conocidos (GPT-4o y Claude-3.5-Sonnet). Luego, todos los modelos se evaluaron utilizando este mismo mensaje. “.

En general, Pixtral superaría a todos los modelos de código abierto de su tamaño, según Mistral AI. En algunos casos, superaría a los modelos propietarios como Claude 3 Haiku. Pixtral iguala el rendimiento de modelos mucho más grandes como LLaVa OneVision 72B en pruebas de referencia multimodales. Por último, superaría a Qwen2-VL 7B, LLaVa-OneVision 7B y Phi-3.5 Vision en el seguimiento de instrucciones.

Puedes probar Pixtral 12B en la Plataforma o en el Chat. La forma más sencilla de ejecutar Pixtral localmente es usar inferencia de mistralMistral AI ofrece todos los detalles en este artículo de blog muy técnico (en inglés), dirigido especialmente a los desarrolladores.

Me gusta esto:

Me gusta cargando…

-

PREV ¡Una oferta que no puedes perderte!
NEXT Vivo ha revelado la fecha de lanzamiento del nuevo teléfono inteligente vivo V40e en India