OpenAI y Google equipan sus LLM con capacidades de análisis visual en vivo

OpenAI lanza un modo de video interactivo para ChatGPT, mientras que Google presenta su API Multimodal Live. Capaces de analizar voz y video, estas innovaciones allanaron el camino para asistentes de inteligencia artificial que interactúan en tiempo real con las entradas del usuario.

OpenAI anunció en X el despliegue paulatino de una nueva funcionalidad aprovechando el análisis de información visual en tiempo real. Los usuarios de las suscripciones ChatGPT Plus, Pro y Team podrán interactuar en vivo con ChatGPT a través del modo de video de su teléfono inteligente y compartir capturas de pantalla. Esta actualización permite obtener comentarios inmediatos del chatbot sobre el contenido de la pantalla u obtener explicaciones, por ejemplo, sobre menús de configuración o problemas matemáticos.

Para utilizar estas nuevas funciones, los usuarios deben habilitar el modo de voz avanzado tocando el ícono de voz en la barra de chat. Una opción de video en la parte inferior izquierda permite a los usuarios iniciar una videollamada, mientras que la opción para compartir pantalla se encuentra en el menú de tres puntos.

Tenga en cuenta que la funcionalidad no se ofrece actualmente en Europa ni en Suiza.

API para interacciones multimodales en tiempo real

El anuncio de OpenAI se produce poco después del lanzamiento de Gemini 2.0, la nueva versión principal de la familia de modelos de lenguaje desarrollados por Google. Se han presentado muchas funciones, una de las cuales utiliza capacidades de análisis visual en tiempo real: la API Multimodal Live, dirigida a desarrolladores. La API está diseñada para permitirles crear aplicaciones dinámicas e interactivas, según Google.

Esta API multimodal permite interacciones bidireccionales en tiempo real al procesar entradas de texto, audio y video simultáneamente, con respuestas que se pueden generar en texto o audio. Destaca por su baja latencia y su capacidad para manejar conversaciones naturales, incluyendo tener en cuenta las interrupciones y detectar automáticamente la actividad de voz. La API amplía significativamente la gama de opciones de comunicación, permitiendo a los usuarios compartir transmisiones de vídeo, como capturas de pantalla o entradas de la cámara, mientras hacen preguntas directamente sobre ese contenido, lee la documentación que Google envía a los desarrolladores de aplicaciones.

Por su parte, OpenAI ya había introducido el pasado mes de octubre una innovación similar con su Realtime API, que incorpora algunos de los principios del Modo de Voz Avanzado de ChatGPT. Esta API permite conversaciones de voz a voz, brindando a los desarrolladores la capacidad de integrar entradas de texto o audio y respuestas personalizadas en forma de texto, audio o ambos, dice OpenAI.

API para interacciones multimodales en tiempo real

Related posts