OpenAI presenta GPT-4o, con modo de voz para todos

OpenAI presenta GPT-4o, con modo de voz para todos
OpenAI presenta GPT-4o, con modo de voz para todos
-

La empresa OpenAI, que desarrolla ChatGPT, ha presentado su nuevo modelo de lenguaje GPT-4o. Se espera que ofrezca capacidades al nivel del modelo actual, GPT-4, al mismo tiempo que sea más rápido y tenga mejores capacidades de procesamiento de texto, voz e imágenes, afirma el anuncio.

La “o” en GPT-4o se refiere a “omni”, explica OpenAI, que significa “todos” en latín. El modelo pretende ser un paso adelante hacia una interacción más natural entre el hombre y la máquina. Acepta cualquier combinación de texto, voz e imágenes como entrada. Responde a las entradas de audio en un promedio de 320 milisegundos, con picos de 232 milisegundos.

El rendimiento para inglés y código está a la par con GPT-4, e incluso mejor en otros idiomas, promete OpenAI. En los vídeos de demostración, los desarrolladores muestran cómo la herramienta se comunica casi en tiempo real con una persona mediante un diálogo de voz. Equipado con una voz femenina con acento americano, el chatbot también puede ser interrumpido fácilmente cuando habla, sin perder el hilo de la conversación. Una demostración también destacó la supuesta capacidad de la herramienta para “comprender” el estado emocional del usuario a partir de la captura de vídeo de su rostro.

GPT-4o se beneficia de la integración total de modalidades textuales, visuales y de audio dentro del modelo. Mientras que el modo de voz de su predecesor en realidad estaba compuesto por modelos separados, que requerían que el audio se transcribiera a texto y luego se convirtiera texto a audio. Esta segmentación implicó una latencia significativa.

Nuevos riesgos

Según OpenAI, GPT-4o incorpora seguridad en todas las modalidades mediante diseño, a través de técnicas como el filtrado de datos de entrenamiento y el refinamiento del comportamiento del modelo mediante el posentrenamiento. “Reconocemos que las modalidades de audio GPT-4o presentan una variedad de nuevos riesgos. Hoy hacemos públicas las entradas y salidas de texto e imágenes. Durante las próximas semanas y meses, trabajaremos en la infraestructura técnica, la facilidad de uso después de la capacitación y la seguridad necesaria para ofrecer las otras modalidades. Por ejemplo, en el lanzamiento, las salidas de audio se limitarán a una selección de voces predefinidas y respetarán nuestras políticas de seguridad existentes”, especifica la empresa dirigida por Sam Altman. También recordamos que durante el lanzamiento de GPT-4, OpenAI publicó una “Tarjeta del sistema”, un documento de unas sesenta páginas que describe tanto los peligros como los límites del modelo, así como el proceso de seguridad involucrado para confiar en expertos externos. mitigar los riesgos antes de la implementación. En cuanto a GPT-4o, la publicación de este documento está prevista pero se realizará más adelante, especifica OpenAI.

Inicialmente, GPT-4o solo estará disponible para los usuarios de ChatGPT Plus y ChatGPT Team. Los usuarios empresariales seguirán el siguiente paso. Posteriormente, el modelo estará disponible para todos los usuarios, pero con restricciones. Los usuarios Plus deberían tener un límite de mensajes hasta cinco veces mayor que los usuarios gratuitos. Los desarrolladores ahora pueden acceder a GPT-4o a través de la API OpenAI.

-

PREV Ahora puedes compartir tus contraseñas con tus seres queridos
NEXT Varios cientos de ciudadanos participaron en el Día de la Horticultura