Microsoft presenta Phi-3, la próxima generación de sus modelos de lenguajes pequeños

Los modelos de lenguajes grandes (LLM) tienen capacidades impresionantes en diferentes dominios, pero los modelos de lenguajes más pequeños (SLM) son una alternativa atractiva para las empresas que pueden aprovecharlos de manera rentable para tareas específicas. Microsoft, que presentó el SLM Phi-1 en junio de 2023, presentó la familia de modelos abiertos Phi-3 el 23 de abril. El más pequeño de ellos, el Phi-3 mini, ya disponible, tiene 3.800 millones de parámetros y, gracias a su pequeño tamaño, puede implementarse localmente en un teléfono o en un ordenador.

Microsoft presenta los modelos Phi-3 como “Los modelos de lenguaje pequeño más rentables y de mayor rendimiento disponibles”.

Phi-3 Mini es un modelo de transformador decodificador denso, ajustado mediante ajuste fino supervisado (SFT) y optimización de preferencia directa (DPO) para garantizar la alineación con las preferencias humanas y las pautas de seguridad. Está disponible en Azure AI Studio, Hugging Face y Ollama.

Fue entrenado durante siete días en 512 GPU NVIDIA H100 Tensor Core. NVIDIA también nos dijo que era posible probarlo en ai.nvidia.com, donde estará empaquetado como NVIDIA NIM. “un microservicio con una interfaz de programación de aplicaciones estándar que se puede implementar en cualquier lugar”.

En su informe técnico, los investigadores explican que “La innovación radica completamente en nuestro conjunto de datos de entrenamiento, una versión ampliada del utilizado para PHI-2, que consta de datos web muy filtrados y datos sintéticos.“.

El modelo, entrenado en 3,3 billones de tokens, también se alineó en cuanto a solidez, seguridad y formato de chat. Su ventana emergente, que puede oscilar entre 4.000 y 128.000 tokens, le permite asimilar y razonar sobre grandes contenidos textuales (documentos, páginas web, códigos, etc.). Según Microsoft, Phi-3-mini demuestra fuertes habilidades de razonamiento y lógica, lo que lo convierte en un buen candidato para tareas analíticas.

Rendimiento sólido a pesar de su pequeño tamaño

Microsoft compartió en su blog el rendimiento del Phi-3 mini, pero también el del Phi-3-small (7B) y el Phi-3-medium (14B), que estarán disponibles próximamente y fueron entrenados en 4,8 billones de tokens.

Se comparó el rendimiento de los modelos Phi-3 con el de Phi-2, Mistral-7b, Gemma-7B, Llama-3-instruct-8b, Mixtral-8x7b, GPT-3.5 Turbo y Claude-3 Sonnet. Todas las cifras reportadas se producen con el mismo proceso para que sean efectivamente comparables.

Phi-3-mini supera a Gemma-7B y Mistral-7B en algunos puntos de referencia como MMLU, mientras que Phi-3-small y Phi-3-medium con un rendimiento significativamente mejor superan a modelos mucho más grandes, incluido GPT-3.5 Turbo. Sin embargo, debido a su pequeño tamaño, los modelos Phi-3 son menos competitivos para tareas centradas en conocimiento fáctico, como las evaluadas en TriviaQA.

Sin embargo, sus capacidades en muchas otras áreas los hacen particularmente útiles en escenarios donde el tamaño del modelo y los recursos disponibles son factores críticos, como en entornos con recursos limitados o aplicaciones que requieren tiempos de respuesta rápidos.

Rendimiento sólido a pesar de su pequeño tamaño

Related posts