Presentada en diciembre de 2023, la nueva familia de LLM creada en Google está evolucionando rápidamente. Contexto, modalidad, velocidad… JDN te ayuda a ver las cosas con mayor claridad.
¿Cómo orientarse en la jungla de los modelos Géminis? Desde la publicación del primer modelo Gemini, Google ha evolucionado rápidamente su gama. El gigante de Mountain View pretende convertirse en líder del mercado de MLLM, estos nuevos modelos capaces de comprender multitud de modalidades (vídeo, sonido, imagen, etc.). Actualmente, hay cuatro versiones diferentes de Gemini disponibles para el público: Gemini 1.5 Pro, Gemini 1.5 Flash, Gemini 1.0 Pro y Gemini 1.0 Pro Vision.
Para darle un poco más de significado a esta compleja denominación y comprender qué modelo se adapta mejor a sus necesidades, aquí tiene una breve guía que le ayudará a elegir. Debes encontrar el modelo que mejor cumpla con tus expectativas en términos de rendimiento, velocidad y casos de uso.
Modelo | Géminis 1.5 Flash | Géminis 1.5 Pro | Géminis 1.0 Pro | Géminis 1.0 Pro Visión |
---|---|---|---|---|
codificado | X | X | ||
Tareas complejas | X | X | ||
Fichas de contexto | 1,000,000 | 1 millón o 2 millones en lista de espera | 32.000 | 12,288 |
Modalidad (entrada) | Texto, imagen, vídeo, audio. | Texto, imagen, vídeo, audio. | Texto | Texto e imagen |
Latencia | Débil | Moderado | Importante | Importante |
Soporte JSON | X | X | ||
Última actualización | abril-24 | abril-24 | febrero-24 | CAROLINA DEL NORTE |
Disponibilidad en GCP | Avance | Avance | Público | Público |
Elegimos deliberadamente no incluir Gemini 1.0 Ultra, ahora obsoleto y no disponible en Vertex AI. Del mismo modo, Gemini Nano solo está disponible para ciertos clientes de Google Cloud para uso exclusivamente local (móvil). La familia Google Gemma de código abierto será objeto de una futura comparación.
Precios que son complejos por decir lo menos.
Quien dice multimodalidad dice precios complicados. Los MLLM de Google se facturan por token y según la naturaleza de la entrada enviada al modelo. También tenga en cuenta que Google, para hacerlo un poco más complejo, ofrece precios más altos para entradas que superan los 128.000 tokens.
Modelo | Géminis 1.5 Flash | Géminis 1.5 Pro | Géminis 1.0 Pro | Géminis 1.0 Pro Visión |
---|---|---|---|---|
Velocidad de texto (entrada) | $0.000125 | $0.00125 | $0.000125 | $0.000125 |
Velocidad de texto (salida de 1.000 caracteres) | $0.000375 | $0.00375 | $0.000375 | $0.000375 |
Precio de la imagen (entrada por imagen) | $0.0001315 | $0.001315 | notario público | $0.0025 |
Velocidad de vídeo (entrada por segundo) | $0.0001315 | $0.001315 | notario público | notario público |
Velocidad de audio (entrada por segundo) | $0.0000125 | $0.000125 | notario público | notario público |
Modelo | Géminis 1.5 Flash | Géminis 1.5 Pro |
---|---|---|
Velocidad de texto (entrada de 1000 caracteres) | $0.00025 | $0.0025 |
Velocidad de texto (salida de 1.000 caracteres) | $0.00075 | $0.0075 |
Precio de la imagen (entrada por imagen) | $0.000263 | $0.00263 |
Velocidad de vídeo (entrada por segundo) | $0.000263 | $0.00263 |
Velocidad de audio (entrada por segundo) | $0.000025 | $0.00025 |
La clave: arbitrar entre rendimiento y coste
Google ahora ofrece una gama completa de modelos de lenguaje multimodal Gemini, adaptados a diferentes necesidades y casos de uso. Las versiones más recientes 1.5 ofrecen las mejores prestaciones en términos de comprensión multimodal (texto, imagen, vídeo, audio) y capacidad de contexto, con ventaja en velocidad para la versión “Flash”. Los modelos 1.0 siguen siendo relevantes para aplicaciones más básicas que requieren sólo texto como entrada, posiblemente con imágenes para la versión “Vision”. El precio, aunque complejo, generalmente es proporcional a las capacidades de cada modelo.
Por lo tanto, para elegir la versión correcta de Gemini, es necesario analizar cuidadosamente sus necesidades en términos de modalidades procesadas, tamaño del contexto, tiempo de respuesta deseado y presupuesto. Es necesario un equilibrio entre rendimiento y coste.