Un nuevo modelo de IA para la era agente

Wednesday 11th December 2024 07:00 PM

Una nota del director ejecutivo de Google y Alphabet, Sundar Pichai:

La información es el núcleo del progreso humano. Es por eso que nos hemos centrado durante más de 26 años en nuestra misión de organizar la información del mundo y hacerla accesible y útil. Y es por eso que continuamos ampliando las fronteras de la IA para organizar esa información en cada entrada y hacerla accesible a través de cualquier salida, para que pueda ser realmente útil para usted.

Esa fue nuestra visión cuando presentamos Gemini 1.0 en diciembre pasado. Gemini 1.0 y 1.5, el primer modelo creado para ser multimodal de forma nativa, impulsaron grandes avances con multimodalidad y contexto extenso para comprender información en texto, video, imágenes, audio y código, y procesar mucha más información.

Ahora millones de desarrolladores están construyendo con Gemini. Y nos está ayudando a reinventar todos nuestros productos (incluidos los 7 con 2 mil millones de usuarios) y a crear otros nuevos. NotebookLM es un gran ejemplo de lo que la multimodalidad y el contexto prolongado pueden permitir a las personas, y por qué tantos lo adoran.

Durante el último año, hemos estado invirtiendo en el desarrollo de modelos más agentes, lo que significa que pueden comprender más sobre el mundo que los rodea, pensar en varios pasos hacia el futuro y tomar medidas en su nombre, con su supervisión.

Hoy estamos emocionados de lanzar nuestra próxima era de modelos creados para esta nueva era agente: presentamos Gemini 2.0, nuestro modelo más capaz hasta el momento. Con nuevos avances en multimodalidad (como salida nativa de imágenes y audio) y el uso de herramientas nativas, nos permitirá construir nuevos agentes de inteligencia artificial que nos acerquen a nuestra visión de un asistente universal.

Hoy estamos poniendo la versión 2.0 en manos de desarrolladores y evaluadores confiables. Y estamos trabajando rápidamente para incorporarlo a nuestros productos, liderando con Gemini y Search. A partir de hoy nuestro modelo experimental Gemini 2.0 Flash estará disponible para todos los usuarios de Gemini. También estamos lanzando una nueva función llamada Investigación profunda, que utiliza razonamiento avanzado y capacidades de contexto extenso para actuar como asistente de investigación, explorando temas complejos y compilando informes en su nombre. Está disponible en Gemini Advanced hoy.

Ningún producto se ha visto más transformado por la IA que la Búsqueda. Nuestras descripciones generales de IA ahora llegan a mil millones de personas, permitiéndoles hacer tipos de preguntas completamente nuevos, convirtiéndose rápidamente en una de nuestras funciones de búsqueda más populares. Como siguiente paso, incorporaremos las capacidades de razonamiento avanzado de Gemini 2.0 a AI Overviews para abordar temas más complejos y preguntas de varios pasos, incluidas ecuaciones matemáticas avanzadas, consultas multimodales y codificación. Comenzamos pruebas limitadas esta semana y las implementaremos de manera más amplia a principios del próximo año. Y continuaremos llevando las descripciones generales de IA a más países e idiomas durante el próximo año.

Los avances de 2.0 están respaldados por inversiones de una década en nuestro enfoque diferenciado y completo para la innovación en IA. Está construido sobre hardware personalizado como Trillium, nuestros TPU de sexta generación. Las TPU impulsaron el 100 % del entrenamiento y la inferencia de Gemini 2.0 y, hoy en día, Trillium está generalmente disponible para los clientes para que también puedan construir con él.

Si Gemini 1.0 se trataba de organizar y comprender la información, Gemini 2.0 se trata de hacerla mucho más útil. No puedo esperar a ver qué trae esta próxima era.

-Sundar