En la conferencia de desarrolladores Re:Invent 2024, Amazon presentó su propia familia de modelos básicos de IA, llamada “Amazon Nova”. El comunicado indica que la oferta Nova está actualmente disponible a través de la plataforma AWS Bedrock AI. Los puntos fuertes de Nova destacados son múltiples: desde el análisis de documentos complejos hasta la creación de vídeos pasando por el diseño de agentes complejos de IA. Además, Nova le permitiría beneficiarse de una latencia y costes reducidos para todo tipo de tareas de IA generativa.
La familia Nova incluye modelos especializados en diferentes tareas. El más sencillo se llama “Nova Micro”. Acepta indicaciones de texto y genera respuestas de texto. El próximo modelo se llama “Nova Lite”. Puede procesar imágenes y vídeos de hasta 30 minutos de duración, pero sólo produce respuestas de texto. Como parte de su discurso de apertura en Re:Invent 2024, el director ejecutivo de Amazon, Andy Jassy, comparó este modelo con el GPT4o-Mini de su rival OpenAI.
Más eficiente, “Nova Pro” es un “modelo multimodal de alto rendimiento que ofrece la mejor combinación de precisión, velocidad y costo para una amplia gama de tareas”, según Amazon. Procesa hasta 300.000 tokens de entrada y es adecuado, entre otras cosas, para flujos de trabajo basados en agentes que requieren llamar a API y herramientas para realizar tareas complejas. El modelo puede procesar texto, vídeos e imágenes, pero también analiza documentos financieros o códigos de programas de hasta 15.000 líneas. Este modelo produce respuestas de texto. Durante la conferencia magistral, el director ejecutivo de Amazon comparó Nova Pro con GPT4o.
Los tres modelos de Nova ya están disponibles en Bedrock, pero por ahora sólo en algunas regiones de la nube de AWS de EE. UU. Lingüísticamente, sin embargo, los modelos ya parecen estar listos para la expansión. Según el comunicado, entienden y generan más de 200 idiomas. Funcionarían especialmente bien en alemán, francés o italiano, señala el proveedor.
Amazon está preparando otras versiones de Nova. A principios de 2025, la empresa quiere lanzar al mercado “Nova Premier”, el “modelo multimodal más eficiente”, indica el comunicado. Es adecuado para tareas complejas de “razonamiento” y para crear modelos de IA definidos por el usuario. En este caso, se vuelve a entrenar un modelo de IA ya existente para un uso específico.
Nova también generará fotos y vídeos.
A estas diferentes versiones se suman los “modelos de generación de contenidos creativos”. A diferencia de las plantillas mencionadas hasta ahora, las plantillas creativas no generan texto: “Nova Canvas” produce imágenes a partir de texto y “Nova Reel” produce videos. Estos pueden durar inicialmente hasta 6 segundos, luego llegarán hasta 2 minutos, explicó Jassy durante la conferencia magistral.
“Nova Reel” superaría a los modelos existentes en la evaluación humana de la calidad y consistencia del video, escribe AWS. Estos modelos también ya están disponibles en las regiones estadounidenses de la nube de AWS. Tenga en cuenta que las llamadas versiones creativas actualmente solo pueden funcionar con indicaciones en inglés.
Quienes prefieran hablar y escuchar tendrán que esperar todavía hasta el año que viene. Durante la keynote, el responsable de Amazon anunció para la primavera de 2025 una versión de Nova que entiende y reproduce el lenguaje hablado. Finalmente, a mediados de 2025, debería ver la luz una versión “any-to-any” de Nova, es decir, una versión capaz de procesar y transmitir cualquier tipo de entrada.