Ayer, Mistral AI anunció la disponibilidad de Pixtral Large, accesible desde su interfaz de usuario para el consumidor, Le Chat, a través de su plataforma.
Pixtral Large: Mistral AI amplía su proceso VLM
Después de Pixtral 12B, Pixtral Large es un VLM, un modelo de lenguaje visual (o modelo de lenguaje de visión). Un VLM se denomina más comúnmente IA multimodal. Multimodal es un término para identificar un modelo de lenguaje grande capaz de procesar texto (el código es una forma de texto), imágenes, seguramente, y potencialmente videos o archivos de audio.
Un VLM procesa texto e imágenes como entrada y responde solo con texto como salida.
Entrenado sobre la base de Mistral Large 2, Pixtral Large utiliza la fórmula de Pixtral 12B, pero muestra diez veces más parámetros: 124 mil millones en total. El decodificador de texto tiene 123 mil millones de parámetros y el codificador visual tiene mil millones de parámetros. Su ventana contextual de 128.000 tokens podría ingerir “30 imágenes de alta resolución” como mínimo.
De este modo, el modelo puede comprender y explicar documentos, diagramas e imágenes con un nivel equivalente o superior a GPT4-o, Claude 3.5 Sonnet, LLama 3.2 90B y Gemini 1.5 Pro, según los benchmarks realizados por la startup. Pixtral Large supera a sus oponentes por algunos puntos en las pruebas MathVista, DocVQA, VQAv2 y MM MT-Bench. En definitiva, entiende los documentos tanto o mejor que sus competidores y obtiene mejores notas en la interpretación de imágenes relacionadas con las matemáticas.
Mistral Large también se beneficia de una actualización (24.11) para manejar mejor documentos e instrucciones largas, un nuevo “mensaje del sistema” y un mejor soporte para llamadas de funciones.
Los dos LLM están disponibles bajo una licencia comercial (Licencia comercial Mistral) y otra que es un poco más permisiva dirigida a investigadores (Licencia de investigación Mistral).
Además de su disponibilidad futura en las plataformas de inteligencia artificial de los proveedores de la nube, se puede acceder a Mistral Large 24.11 y Pixtral Large-último desde la interfaz de Le Chat.
El Chat muda para competir con ChatGPT
Como recordatorio, Le Chat es la aplicación competidora de ChatGPT que se utiliza más para probar los diferentes modelos de Mistral AI. En versión beta, tiene integración con un motor de búsqueda que permite citar las fuentes de contenido generado por el LLM elegido, una herramienta tipo lienzo (similar a la función Artifacts de Claude.ai y Canvas de ChatGPT) y capacidades de generación de imágenes impulsadas por el modelo de entrega de “peso abierto” Black Forest Labs Flux Pro, así como respuestas más rápidas.
Estas mejoras son gratuitas… por ahora. “En Mistral AI, nuestro enfoque hacia la IA es diferente: no perseguimos la inteligencia artificial general a toda costa”, escriben representantes de la startup. “Más bien, nuestra misión es poner la IA de vanguardia en tus manos, para que puedas decidir qué quieres hacer con capacidades avanzadas de IA”, continúan. “Este enfoque nos ha permitido gestionar nuestro capital con frugalidad y, al mismo tiempo, ofrecer capacidades avanzadas a precios asequibles. Con Le Chat, ofrecemos un generoso plan gratuito con estas funciones beta y estamos trabajando en niveles premium con mayores garantías de servicio”.
Claramente, el proveedor de LLM está trabajando en un equivalente de ChatGPT Plus y ChatGPT Enterprise. Queda por ver si lo llamará Le Chat Plus y Le Chat Entreprise. En cualquier caso, Mistral AI también compara su solución con Claude y Perplexity.
Agentes y moderación de contenidos.
De hecho, las organizaciones ya han podido probar estos asistentes, principalmente a través de su suscripción a Microsoft 365. Sin conexión a datos empresariales, resultan de poca utilidad. Los editores creen que la IA agente es la respuesta a este problema. El pasado mes de agosto, Mistral AI presentó la versión alfa de Agents, una forma de crear flujos automatizados para determinadas tareas repetitivas. La Plataforma ofrece Agent Builder, una interfaz WISIWYG que ayuda a configurar estos agentes. La API asociada debe permitir un uso programático, más adaptado a las necesidades de los desarrolladores. Por el momento sólo es posible desplegar los agentes desarrollados a través de la interfaz.
Más allá del chat, Mistral AI anunció recientemente nuevas herramientas para controlar el resultado de sus LLM. En primer lugar, existe una API Batch, que se supone reduce los costos de inferencia al procesar grandes lotes de documentos.
“La Batch API ofrece una forma más eficiente de procesar solicitudes de gran volumen dirigidas a modelos Mistral, a un coste un 50% menor que el de una llamada API sincrónica”, asegura la startup. “Si está creando aplicaciones de inteligencia artificial en las que se prioriza el volumen de datos sobre las respuestas sincrónicas, la API por lotes puede ser una solución ideal”.
Finalmente, la startup francesa es sin duda una de las últimas en ofrecer una API dedicada a la moderación de contenidos. Como recordatorio, Meta ha entrenado a LLama Guard en 2023, un modelo dedicado a filtrar contenido dañino. Google ofreció Gemma Guard este año, mientras que OpenAI lanzó una interfaz de programación similar a Nemo Guardrails de Nvidia en 2022.
Related News :