o3, un nuevo modelo de IA y un paso hacia AGI

Friday 20th December 2024 09:03 PM

Del 5 al 20 de diciembre, OpenAI organizó 12 días de anuncios y demostraciones. Se han anunciado nuevos modelos de IA y funciones innovadoras.

Según el principio del calendario futuro, OpenAI ha planeado una serie de nuevas funciones y demostraciones del 5 al 18 de diciembre. La JDN te revela día tras día todos los anuncios para recordar.

D12: OpenAI presenta el sucesor de o1… o3

Para cerrar sus naves, OpenAI anuncia dos nuevos modelos de razonamiento: o3 y o3 Mini. O3 establece nuevos récords en varios puntos de referencia. Alcanzó el 87,5 % en el punto de referencia ARC AGI (en comparación con el 85 % para los humanos), el 71,7 % en Sweetbench verificado (+20 % en comparación con O1) y más del 25 % en el muy difícil Frontier Epic AI. o3 Mini, una versión optimizada, ofrece un rendimiento similar al O1 a una fracción del costo y la latencia. Ofrece tres niveles de tiempo de reflexión (bajo, medio, alto) permitiéndole adaptar su rendimiento según las necesidades.

Ambos modelos aún no están disponibles públicamente, pero OpenAI está lanzando un programa de pruebas de seguridad abierto a los investigadores hasta el 10 de enero. El lanzamiento de o3 mini está previsto para finales de enero de 2024, seguido poco después por o3. La compañía también anuncia una nueva técnica de seguridad llamada “alineación deliberativa”, que utiliza las capacidades de razonamiento de los modelos para detectar mejor las indicaciones problemáticas.

J11: OpenAI transforma ChatGPT en un asistente nativo para Mac

En su undécimo día de anuncios, OpenAI está enriqueciendo su aplicación de escritorio ChatGPT para macOS con una serie de nuevas integraciones nativas. La aplicación ahora puede interactuar directamente con el software instalado en la computadora, incluidos IDE (Xcode, VS Code, JetBrains), herramientas de escritura (Apple Notes, Notion, Quip) y Warp Terminal. A través de un simple atajo de teclado (opción + espacio), los usuarios pueden hacer que ChatGPT analice el contenido de sus aplicaciones, que adapta automáticamente sus respuestas al contexto de la aplicación abierta.

La integración va más allá del simple contenido visible en pantalla: la IA accede a él de forma nativa. a la aplicación. El modo de voz avanzado también está disponible en esta actualización, lo que le permite interactuar con ChatGPT por voz mientras trabaja en sus documentos. Estas nuevas funciones están disponibles este jueves 19 de diciembre en macOS y próximamente en Windows.

D10: ChatGPT contesta el teléfono en Estados Unidos y en WhatsApp en todo el mundo

En su décimo día de anuncios, OpenAI está haciendo que ChatGPT sea más accesible implementándolo en WhatsApp a nivel mundial y a través de un número de teléfono en los Estados Unidos (1 800 242 8478). En WhatsApp, los usuarios pueden interactuar con la IA en modo texto sin necesidad de una cuenta, mientras que la autenticación eventualmente permitirá el acceso a funciones avanzadas como la búsqueda o el intercambio de imágenes. Según las primeras pruebas de JDN, el modelo está basado en GPT-4.

En el ámbito de la telefonía, los usuarios estadounidenses se benefician de 15 minutos de conversación gratuitos al mes con ChatGPT (a través de su Modo Voz), compatible con todo tipo de dispositivos, desde smartphones hasta teléfonos de disco. La iniciativa nació durante un hackathon interno.

J9: nuevas capacidades para desarrolladores

En el noveno día de sus anuncios, OpenAI presenta varias mejoras importantes en sus API. El modelo o1 se implementa con comprensión avanzada de imágenes y capacidades de generación de respuestas estructuradas JSON. Las pruebas muestran un rendimiento superior al GPT-4, especialmente en programación. La API en tiempo real (modo de voz) ahora incluye WebRTC, lo que simplifica la integración de voz. El precio por token también se reduce en un 60%.

Para demostrar la simplicidad de integrar la API en tiempo real, el equipo presenta un juguete de peluche conectado (un reno navideño) equipado con un microcontrolador. En 30-45 minutos de configuración, sin soldaduras, el prototipo permite una conversación de voz interactiva a través de WebRTC. Una demostración para ilustrar el potencial con objetos conectados simples.

Finalmente, OpenAI también está lanzando el ajuste de preferencias, lo que permite a los desarrolladores personalizar los modelos según las preferencias del usuario. Los SDK para Go y Java complementan estos anuncios, así como un nuevo procedimiento simplificado para la obtención de claves API.

D8: ChatGPT Search mejora nuevamente y llega al Modo Voz

Lanzado hace dos meses para suscriptores pagos, ChatGPT Search permite a la IA buscar en Internet para proporcionar respuestas actualizadas. Se anuncian tres mejoras importantes: búsqueda más rápida y optimizada para dispositivos móviles con una nueva experiencia de mapas, integración de la búsqueda en el modo de voz avanzado e implementación global en todas las plataformas.

Los usuarios gratuitos y pagos ahora pueden realizar búsquedas conversacionales naturales, acceder a contenido multimedia de forma nativa (imágenes, videos) y usar ChatGPT como motor de búsqueda predeterminado en su navegador. OpenAI ya ha anunciado que D9 estará dedicado a los desarrolladores con un “mini día de desarrollo” que promete una gran cantidad de funciones nuevas e interesantes.

D7: OpenAI introduce proyectos en ChatGPT

En el D7 de su Shipmas, OpenAI introduce una nueva funcionalidad, muy esperada, en ChatGPT: proyectos. Esta nueva función permite a los usuarios crear espacios dedicados a sus diferentes proyectos, donde pueden cargar archivos, definir mensajes personalizados y agrupar todas las conversaciones relacionadas con un mismo tema. La integración se completa con funciones existentes como búsqueda y modo Canvas. Los usuarios también pueden optar por un uso más sencillo como sistema de carpetas para organizar sus discusiones.

La herramienta ya ha demostrado su eficacia internamente, especialmente para la gestión de proyectos personales como el mantenimiento del hogar o el desarrollo web. Implementada hoy para los suscriptores, fuera de Europa, Plus, Pro y Teams, la funcionalidad se ampliará gradualmente a los usuarios gratuitos, antes de llegar a las versiones Enterprise y Education a principios de 2025. Una actualización que debería mejorar considerablemente la experiencia del usuario proporcionando finalmente una solución a la gestión a veces caótica de las conversaciones en ChatGPT.

D6: ChatGPT cambia a la hora del Polo Norte

En el sexto día de sus anuncios, OpenAI adopta un tono decididamente festivo al presentar una experiencia de voz única con Papá Noel. Todos los usuarios de ChatGPT ahora pueden conversar directamente con el famoso personaje usando el modo de voz. Accesible a través de un simple icono de copo de nieve en la interfaz, esta nueva voz permite intercambios variados, desde hablar sobre la vida en el Polo Norte hasta compartir listas de regalos, incluidas historias conmovedoras sobre renos. Los usuarios pueden incluso crear mensajes de voz personalizados de Santa.

Una característica temporal, que no se guardará en el historial de conversaciones. Todo va acompañado de una guía completa sobre el uso de las herramientas OpenAI para las fiestas: desde ayuda para planificar regalos con DALL-E hasta consejos culinarios en Voice Mode, pasando por la creación de juegos familiares personalizados. Un buen movimiento de comunicación. Finalmente OpenAI también anuncia la llegada de la visión en vivo en su Modo Voz. Al compartir pantalla o cámara, el usuario puede elegir la transmisión que comparte en vivo con la IA.

D5: Apple Intelligence llega poco a poco

En su quinto día, OpenAI hace balance de su asociación previamente anunciada con Apple Intelligence (IA generativa en dispositivos Apple), que está empezando a materializarse. La integración de ChatGPT en el corazón del ecosistema Apple se está implementando progresivamente, con una primera fase en macOS para usuarios con la última versión del sistema operativo. El asistente ahora puede recordar el contexto de los procesos actuales, lo que proporciona una experiencia más consistente.

Los usuarios de iOS dentro de la UE tendrán que esperar hasta abril de 2024 para beneficiarse de estas funciones. La demostración destacó notablemente la creación de listas de reproducción personalizadas -aunque la apertura directa en la aplicación Música aún no está operativa-, así como la futura integración con el botón de la cámara del iPhone 16 para el acceso directo a ChatGPT Vision.

J4: El modo Canvas se expande y se vuelve más inteligente

Para el cuarto día de sus “Shipmas”, OpenAI se transforma radicalmente modo hijo Lienzo en un verdadero asistente de desarrollador automatizado. La función, ahora disponible para usuarios pagos y gratuitos, ya no es solo una interfaz visual: se convierte en un entorno de desarrollo completo donde la IA puede buscar datos, generar código, ejecutarlo y visualizar los resultados directamente en la consola.

Canvas ahora se posiciona como un copiloto de desarrollo capaz de apoyar a los desarrolladores y científicos de datos en todo su flujo de trabajo. OpenAI también amplía esta capacidad a GPT personalizados. Una actualización que avanza aún más hacia la automatización inteligente de las tareas de desarrollo y análisis de datos.

D3: Sora disponible para usuarios de ChatGPT Plus y Pro

OpenAI lanza su tan esperado Generador de vídeo Sora AIdiez meses después de su anuncio inicial (Lea nuestro artículo Generación de vídeo: 10 meses después de su anuncio, Sora de OpenAI está (por fin) aquí). El servicio está disponible para los suscriptores de ChatGPT Plus y Pro en Estados Unidos, con una nueva interfaz dedicada y un modelo Turbo más rápido. Los usuarios pueden generar videos de hasta 20 segundos en diferentes resoluciones (480p para Plus, 1080p para Pro) a partir de texto, imágenes o videos existentes.

La tecnología sobresale en los movimientos de la cámara y la coherencia de la escena, a pesar de algunas limitaciones en la física de los objetos. OpenAI enfatiza la seguridad con filtros anti-deepfake, marcas de agua C2PA sistemáticas y restricciones a la imitación de estilos de artistas. Ante una demanda masiva, OpenAI está limitando actualmente el acceso al modelo.

D2: la llegada del ajuste de refuerzo para desarrolladores

Para su segundo día de anuncios, OpenAI se dirige a empresas con una innovación importante: ajuste fino del refuerzo (RFT). La técnica permite a los desarrolladores adaptar modelos OpenAI a tareas complejas utilizando sus propios conjuntos de datos y criterios de evaluación. La tecnología, a la que se podrá acceder a través de una API en versión alfa a principios de 2025, se dirige especialmente a los ámbitos del derecho, la salud, las finanzas y la ingeniería. El objetivo es obtener modelos expertos capaces de proporcionar respuestas muy precisas en dominios especializados donde existen respuestas objetivamente correctas.

J1: una nueva suscripción y la versión final de o1

Para el primer día, OpenAI pega fuerte y presenta la versión final de o1su modelo de razonamiento. Esta versión final, que sucede a o1-preview lanzada el pasado mes de septiembre, marca un avance significativo en términos de rendimiento en los puntos de referencia. El modelo, disponible en la versión paga de ChatGPT, ahora logra una tasa de éxito del 78 % en los problemas matemáticos competitivos de AIME 2024 y se eleva al percentil 89 en los desafíos de programación de Codeforces.

En el proceso, la empresa revela ChatGPT Prouna nueva oferta mensual de 200 dólares dirigida a profesionales e investigadores que necesitan una mayor potencia informática. La suscripción proporciona acceso a todo el ecosistema OpenAI (o1, o1-mini, GPT-4o, Advanced Voice) e introduce el “modo pro” de o1, una versión optimizada que moviliza más recursos computacionales para las tareas más complejas.