Google presentó el miércoles su primer agente de inteligencia artificial que puede realizar acciones en la web, un prototipo de investigación de la división DeepMind de la compañía llamado Proyecto Mariner. El agente impulsado por Gemini toma el control de su navegador Chrome, mueve el cursor en la pantalla, hace clic en los botones y completa formularios, lo que le permite usar y navegar por sitios web como lo haría un humano.
La compañía comenzará lanzando su agente de inteligencia artificial a un pequeño grupo de evaluadores preseleccionados el miércoles, dice Google.
Google continúa experimentando con nuevas formas para que Gemini lea, resuma y ahora use sitios web. Un ejecutivo de Google le dice a TechCrunch que esto es parte de un “cambio de paradigma de UX fundamentalmente nuevo”: alejar a los usuarios de la interacción directa con los sitios web y, en su lugar, interactuar con un sistema de inteligencia artificial generativo que lo hace por usted.
Estos cambios podrían afectar a millones de empresas (desde editores como TechCrunch hasta minoristas como Walmart) que históricamente han dependido de Google para enviar personas reales a visitar y utilizar sus sitios web.
En una demostración con TechCrunch, la directora de Google Labs, Jaclyn Konzelmann, mostró cómo funciona Project Mariner.
Después de configurar el agente de IA con una extensión en Chrome, aparece una ventana de chat a la derecha de su navegador. Puede indicarle al agente que haga cosas como “crear un carrito de compras de una tienda de comestibles basándose en esta lista”.
Desde allí, el agente de IA navegó hasta el sitio web de una tienda de comestibles (en este caso, Safeway) y luego buscó y agregó artículos a un carrito de compras virtual. Una cosa que es inmediatamente evidente es lo lento que es el agente: hubo aproximadamente 5 segundos de retraso entre cada movimiento del cursor. En ocasiones, el agente detenía su tarea y volvía a la ventana de chat, pidiendo aclaraciones sobre ciertos elementos (cuántas zanahorias, etc.).
El agente de Google no puede realizar el pago, ya que se supone que no debe completar los números de tarjetas de crédito ni la información de facturación. Project Mariner tampoco aceptará cookies para los usuarios ni firmará un acuerdo de términos de servicio. Google dice que intencionalmente no permite que el agente haga estas cosas para darles a los usuarios más control.
Detrás de escena, el agente de Google toma capturas de pantalla de la ventana de su navegador, algo que los usuarios deben aceptar en los términos de servicio, y las envía a Gemini en la nube para su procesamiento. Luego, Gemini envía instrucciones a su computadora para navegar por la página web.
Project Mariner también se puede utilizar para buscar vuelos y hoteles, comprar artículos para el hogar, encontrar recetas y otras tareas que actualmente requieren que los usuarios hagan clic en la web.
Una advertencia importante es que Project Mariner solo funciona en la pestaña activa más importante del navegador Chrome, lo que significa que no puedes usar tu computadora para otras cosas mientras el agente trabaja en segundo plano; debes observar cómo Gemini hace clic lentamente. El director de tecnología de Google DeepMind, Koray Kavukcuoglu, dice que esta fue una decisión muy intencionada para que los usuarios sepan lo que está haciendo el agente de inteligencia artificial de Google.
“Porque [Gemini] ahora está tomando medidas en nombre de un usuario, es importante hacerlo paso a paso”, dijo Kavukcuoglu en una entrevista con TechCrunch. “Es complementario. Usted, como individuo, puede utilizar sitios web y ahora su agente también puede hacer todo lo que usted hace en un sitio web”.
Los propietarios de sitios web pueden sentirse aliviados al saber que el agente de inteligencia artificial de Google funciona en la pantalla de su computadora, porque eso significa que los editores y minoristas aún pueden ver sus páginas. Sin embargo, el agente de inteligencia artificial de Google podría significar que los usuarios estén menos involucrados con los sitios web que visitan y, algún día, es posible que no requiera que los usuarios utilicen estos sitios web en absoluto.
“[Project Mariner] Es un cambio de paradigma UX fundamentalmente nuevo que estamos viendo en este momento”, dijo Konzelmann a TechCrunch. “Necesitamos descubrir cuál es la manera correcta de que todo esto cambie la forma en que los usuarios interactúan con la web y la forma en que los editores pueden crear experiencias para los usuarios, así como para los agentes, en el futuro”.
Además del Proyecto Mariner, Google también presentó el miércoles varios otros agentes de inteligencia artificial para tareas más específicas.
Un agente de IA, Deep Research, tiene como objetivo ayudar a los usuarios a explorar temas complejos mediante la creación de planes de investigación de varios pasos. Parece competir con o1 de OpenAI, que también puede realizar un razonamiento de varios pasos. Sin embargo, un portavoz de Google señala que el agente no está diseñado para resolver problemas matemáticos y de razonamiento lógico, escribir código ni realizar análisis de datos. El agente de IA se está implementando hoy en Gemini Advanced y llegará a la aplicación Gemini en 2025.
Cuando se le solicita una pregunta difícil o extensa, Deep Research creará un plan de acción de varios pasos para responderla. Después de que el usuario aprueba el plan, Deep Research se toma unos minutos para responder la pregunta y buscar en la web y luego genera un informe extenso sobre sus hallazgos.
Otro nuevo agente de inteligencia artificial de Google, Jules, tiene como objetivo ayudar a los desarrolladores con tareas de codificación. Se integra directamente en los flujos de trabajo de GitHub, lo que le permite a Jules ver su trabajo existente y realizar cambios directamente en GitHub. Jules se está implementando hoy para un grupo selecto de probadores beta y estará disponible más adelante en 2025.
Finalmente, Google DeepMind dice que está trabajando en un agente de inteligencia artificial para ayudarlo a navegar en videojuegos, basándose en su larga historia en la creación de inteligencia artificial para juegos. Google está trabajando con desarrolladores de juegos, como Supercell, para probar la capacidad de Gemini para interpretar mundos de juegos como Clash of Clans. Google no ofreció ninguna fecha de lanzamiento para este prototipo, pero dice que este trabajo les está ayudando a construir agentes de inteligencia artificial que ayuden a navegar en mundos físicos, así como en los virtuales.
No está claro cuándo se implementará Project Mariner en la enorme base de usuarios de Google, pero cuando lo hagan, estos agentes tendrán un impacto significativo en la Web en general. La web está diseñada para que la utilicen los humanos, pero los agentes de inteligencia artificial de Google podrían cambiar ese estándar.